diff --git a/.build b/.build
index 9f147e29..a84c0c28 100644
--- a/.build
+++ b/.build
@@ -34,6 +34,7 @@ Axon.LossScale.html
 Axon.Losses.html
 Axon.Metrics.html
 Axon.MixedPrecision.html
+Axon.ModelState.html
 Axon.None.html
 Axon.StatefulOutput.html
 Axon.html
@@ -71,8 +72,8 @@ dist/merriweather-latin-ext-300-normal-K6L27CZ5.woff2
 dist/merriweather-vietnamese-300-italic-EHHNZPUO.woff2
 dist/merriweather-vietnamese-300-normal-U376L4Z4.woff2
 dist/remixicon-NKANDIL5.woff2
-dist/search_data-7F2B0842.js
-dist/sidebar_items-B66D7C0E.js
+dist/search_data-BDD49AAD.js
+dist/sidebar_items-D4AB84D3.js
 fashionmnist_autoencoder.html
 fashionmnist_vae.html
 guides.html
diff --git a/404.html b/404.html
index 307a333b..b05e638f 100644
--- a/404.html
+++ b/404.html
@@ -16,7 +16,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
diff --git a/Axon.Activations.html b/Axon.Activations.html
index 48b38d30..ea24bc8d 100644
--- a/Axon.Activations.html
+++ b/Axon.Activations.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,19 +136,19 @@ <h1>
 <p>Activation functions.</p><p>Activation functions are element-wise, (typically) non-linear
 functions called on the output of another layer, such as
 a dense layer:</p><pre><code class="makeup elixir" translate="no"><span class="n">x</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="5114875333-1">(</span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="5114875333-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="5114875333-2">(</span><span class="p" data-group-id="5114875333-2">)</span></code></pre><p>Activation functions output the &quot;activation&quot; or how active
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="4831251339-1">(</span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="4831251339-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="4831251339-2">(</span><span class="p" data-group-id="4831251339-2">)</span></code></pre><p>Activation functions output the &quot;activation&quot; or how active
 a given layer's neurons are in learning a representation
 of the data-generating distribution.</p><p>Some activations are commonly used as output activations. For
 example <code class="inline">softmax</code> is often used as the output in multiclass
 classification problems because it returns a categorical
-probability distribution:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="0667297948-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0667297948-2">(</span><span class="p" data-group-id="0667297948-3">[</span><span class="p" data-group-id="0667297948-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0667297948-4">]</span><span class="p" data-group-id="0667297948-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0667297948-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0667297948-5">}</span><span class="p" data-group-id="0667297948-2">)</span><span class="p" data-group-id="0667297948-1">)</span><span class="w">
-</span><span class="p" data-group-id="0667297948-6">#</span><span class="nc" data-group-id="0667297948-6">Nx.Tensor</span><span class="p" data-group-id="0667297948-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0667297948-7">[</span><span class="mi">1</span><span class="p" data-group-id="0667297948-7">]</span><span class="p" data-group-id="0667297948-8">[</span><span class="mi">3</span><span class="p" data-group-id="0667297948-8">]</span><span class="w">
-  </span><span class="p" data-group-id="0667297948-9">[</span><span class="w">
-    </span><span class="p" data-group-id="0667297948-10">[</span><span class="mf">0.09003057330846786</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2447284758090973</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6652409434318542</span><span class="p" data-group-id="0667297948-10">]</span><span class="w">
-  </span><span class="p" data-group-id="0667297948-9">]</span><span class="w">
-</span><span class="p" data-group-id="0667297948-6">&gt;</span></code></pre><p>Other activations such as <code class="inline">tanh</code> or <code class="inline">sigmoid</code> are used because
+probability distribution:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="3293146379-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3293146379-2">(</span><span class="p" data-group-id="3293146379-3">[</span><span class="p" data-group-id="3293146379-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3293146379-4">]</span><span class="p" data-group-id="3293146379-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3293146379-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3293146379-5">}</span><span class="p" data-group-id="3293146379-2">)</span><span class="p" data-group-id="3293146379-1">)</span><span class="w">
+</span><span class="p" data-group-id="3293146379-6">#</span><span class="nc" data-group-id="3293146379-6">Nx.Tensor</span><span class="p" data-group-id="3293146379-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3293146379-7">[</span><span class="mi">1</span><span class="p" data-group-id="3293146379-7">]</span><span class="p" data-group-id="3293146379-8">[</span><span class="mi">3</span><span class="p" data-group-id="3293146379-8">]</span><span class="w">
+  </span><span class="p" data-group-id="3293146379-9">[</span><span class="w">
+    </span><span class="p" data-group-id="3293146379-10">[</span><span class="mf">0.09003057330846786</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2447284758090973</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6652409434318542</span><span class="p" data-group-id="3293146379-10">]</span><span class="w">
+  </span><span class="p" data-group-id="3293146379-9">]</span><span class="w">
+</span><span class="p" data-group-id="3293146379-6">&gt;</span></code></pre><p>Other activations such as <code class="inline">tanh</code> or <code class="inline">sigmoid</code> are used because
 they have desirable properties, such as keeping the output
 tensor constrained within a certain range.</p><p>Generally, the choice of activation function is arbitrary;
 although some activations work better than others in certain
@@ -442,26 +442,26 @@ <h1 class="signature" translate="no">celu(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="6324772209-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6324772209-2">(</span><span class="p" data-group-id="6324772209-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6324772209-3">]</span><span class="p" data-group-id="6324772209-2">)</span><span class="p" data-group-id="6324772209-1">)</span><span class="w">
-</span><span class="p" data-group-id="6324772209-4">#</span><span class="nc" data-group-id="6324772209-4">Nx.Tensor</span><span class="p" data-group-id="6324772209-4">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6324772209-5">[</span><span class="mi">7</span><span class="p" data-group-id="6324772209-5">]</span><span class="w">
-  </span><span class="p" data-group-id="6324772209-6">[</span><span class="o">-</span><span class="mf">0.9502129554748535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8646647334098816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6321205496788025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6324772209-6">]</span><span class="w">
-</span><span class="p" data-group-id="6324772209-4">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="6324772209-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6324772209-8">(</span><span class="p" data-group-id="6324772209-9">[</span><span class="p" data-group-id="6324772209-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="6324772209-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6324772209-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6324772209-11">]</span><span class="p" data-group-id="6324772209-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6324772209-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6324772209-12">}</span><span class="p" data-group-id="6324772209-8">)</span><span class="p" data-group-id="6324772209-7">)</span><span class="w">
-</span><span class="p" data-group-id="6324772209-13">#</span><span class="nc" data-group-id="6324772209-13">Nx.Tensor</span><span class="p" data-group-id="6324772209-13">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="6324772209-14">[</span><span class="mi">2</span><span class="p" data-group-id="6324772209-14">]</span><span class="p" data-group-id="6324772209-15">[</span><span class="mi">3</span><span class="p" data-group-id="6324772209-15">]</span><span class="w">
-  </span><span class="p" data-group-id="6324772209-16">[</span><span class="w">
-    </span><span class="p" data-group-id="6324772209-17">[</span><span class="o">-</span><span class="mf">0.62890625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.94921875</span><span class="p" data-group-id="6324772209-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6324772209-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6324772209-18">]</span><span class="w">
-  </span><span class="p" data-group-id="6324772209-16">]</span><span class="w">
-</span><span class="p" data-group-id="6324772209-13">&gt;</span></code></pre><h3 id="celu/2-error-cases" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="3303965803-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3303965803-2">(</span><span class="p" data-group-id="3303965803-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3303965803-3">]</span><span class="p" data-group-id="3303965803-2">)</span><span class="p" data-group-id="3303965803-1">)</span><span class="w">
+</span><span class="p" data-group-id="3303965803-4">#</span><span class="nc" data-group-id="3303965803-4">Nx.Tensor</span><span class="p" data-group-id="3303965803-4">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3303965803-5">[</span><span class="mi">7</span><span class="p" data-group-id="3303965803-5">]</span><span class="w">
+  </span><span class="p" data-group-id="3303965803-6">[</span><span class="o">-</span><span class="mf">0.9502129554748535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8646647334098816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6321205496788025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3303965803-6">]</span><span class="w">
+</span><span class="p" data-group-id="3303965803-4">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="3303965803-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3303965803-8">(</span><span class="p" data-group-id="3303965803-9">[</span><span class="p" data-group-id="3303965803-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3303965803-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3303965803-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3303965803-11">]</span><span class="p" data-group-id="3303965803-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3303965803-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3303965803-12">}</span><span class="p" data-group-id="3303965803-8">)</span><span class="p" data-group-id="3303965803-7">)</span><span class="w">
+</span><span class="p" data-group-id="3303965803-13">#</span><span class="nc" data-group-id="3303965803-13">Nx.Tensor</span><span class="p" data-group-id="3303965803-13">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="3303965803-14">[</span><span class="mi">2</span><span class="p" data-group-id="3303965803-14">]</span><span class="p" data-group-id="3303965803-15">[</span><span class="mi">3</span><span class="p" data-group-id="3303965803-15">]</span><span class="w">
+  </span><span class="p" data-group-id="3303965803-16">[</span><span class="w">
+    </span><span class="p" data-group-id="3303965803-17">[</span><span class="o">-</span><span class="mf">0.62890625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.94921875</span><span class="p" data-group-id="3303965803-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3303965803-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3303965803-18">]</span><span class="w">
+  </span><span class="p" data-group-id="3303965803-16">]</span><span class="w">
+</span><span class="p" data-group-id="3303965803-13">&gt;</span></code></pre><h3 id="celu/2-error-cases" class="section-heading">
   <a href="#celu/2-error-cases" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Error cases</span>
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="1560927734-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1560927734-2">(</span><span class="p" data-group-id="1560927734-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="1560927734-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1560927734-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1560927734-4">}</span><span class="p" data-group-id="1560927734-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1560927734-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">celu</span><span class="p" data-group-id="2056232693-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2056232693-2">(</span><span class="p" data-group-id="2056232693-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="2056232693-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2056232693-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2056232693-4">}</span><span class="p" data-group-id="2056232693-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2056232693-1">)</span><span class="w">
 </span><span class="gt">** (ArgumentError) :alpha must be non-zero in CELU activation</span></code></pre><h2 id="celu/2-references" class="section-heading">
   <a href="#celu/2-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -506,20 +506,20 @@ <h1 class="signature" translate="no">elu(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">elu</span><span class="p" data-group-id="0058077580-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0058077580-2">(</span><span class="p" data-group-id="0058077580-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0058077580-3">]</span><span class="p" data-group-id="0058077580-2">)</span><span class="p" data-group-id="0058077580-1">)</span><span class="w">
-</span><span class="p" data-group-id="0058077580-4">#</span><span class="nc" data-group-id="0058077580-4">Nx.Tensor</span><span class="p" data-group-id="0058077580-4">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0058077580-5">[</span><span class="mi">7</span><span class="p" data-group-id="0058077580-5">]</span><span class="w">
-  </span><span class="p" data-group-id="0058077580-6">[</span><span class="o">-</span><span class="mf">0.9502129554748535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8646647334098816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6321205496788025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0058077580-6">]</span><span class="w">
-</span><span class="p" data-group-id="0058077580-4">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">elu</span><span class="p" data-group-id="0058077580-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0058077580-8">(</span><span class="p" data-group-id="0058077580-9">[</span><span class="p" data-group-id="0058077580-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0058077580-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0058077580-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0058077580-11">]</span><span class="p" data-group-id="0058077580-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0058077580-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0058077580-12">}</span><span class="p" data-group-id="0058077580-8">)</span><span class="p" data-group-id="0058077580-7">)</span><span class="w">
-</span><span class="p" data-group-id="0058077580-13">#</span><span class="nc" data-group-id="0058077580-13">Nx.Tensor</span><span class="p" data-group-id="0058077580-13">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="0058077580-14">[</span><span class="mi">2</span><span class="p" data-group-id="0058077580-14">]</span><span class="p" data-group-id="0058077580-15">[</span><span class="mi">3</span><span class="p" data-group-id="0058077580-15">]</span><span class="w">
-  </span><span class="p" data-group-id="0058077580-16">[</span><span class="w">
-    </span><span class="p" data-group-id="0058077580-17">[</span><span class="o">-</span><span class="mf">0.62890625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.94921875</span><span class="p" data-group-id="0058077580-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="0058077580-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0058077580-18">]</span><span class="w">
-  </span><span class="p" data-group-id="0058077580-16">]</span><span class="w">
-</span><span class="p" data-group-id="0058077580-13">&gt;</span></code></pre><h2 id="elu/2-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">elu</span><span class="p" data-group-id="8746513585-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8746513585-2">(</span><span class="p" data-group-id="8746513585-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8746513585-3">]</span><span class="p" data-group-id="8746513585-2">)</span><span class="p" data-group-id="8746513585-1">)</span><span class="w">
+</span><span class="p" data-group-id="8746513585-4">#</span><span class="nc" data-group-id="8746513585-4">Nx.Tensor</span><span class="p" data-group-id="8746513585-4">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8746513585-5">[</span><span class="mi">7</span><span class="p" data-group-id="8746513585-5">]</span><span class="w">
+  </span><span class="p" data-group-id="8746513585-6">[</span><span class="o">-</span><span class="mf">0.9502129554748535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8646647334098816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6321205496788025</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8746513585-6">]</span><span class="w">
+</span><span class="p" data-group-id="8746513585-4">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">elu</span><span class="p" data-group-id="8746513585-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8746513585-8">(</span><span class="p" data-group-id="8746513585-9">[</span><span class="p" data-group-id="8746513585-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="8746513585-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8746513585-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8746513585-11">]</span><span class="p" data-group-id="8746513585-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8746513585-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8746513585-12">}</span><span class="p" data-group-id="8746513585-8">)</span><span class="p" data-group-id="8746513585-7">)</span><span class="w">
+</span><span class="p" data-group-id="8746513585-13">#</span><span class="nc" data-group-id="8746513585-13">Nx.Tensor</span><span class="p" data-group-id="8746513585-13">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="8746513585-14">[</span><span class="mi">2</span><span class="p" data-group-id="8746513585-14">]</span><span class="p" data-group-id="8746513585-15">[</span><span class="mi">3</span><span class="p" data-group-id="8746513585-15">]</span><span class="w">
+  </span><span class="p" data-group-id="8746513585-16">[</span><span class="w">
+    </span><span class="p" data-group-id="8746513585-17">[</span><span class="o">-</span><span class="mf">0.62890625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.94921875</span><span class="p" data-group-id="8746513585-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8746513585-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8746513585-18">]</span><span class="w">
+  </span><span class="p" data-group-id="8746513585-16">]</span><span class="w">
+</span><span class="p" data-group-id="8746513585-13">&gt;</span></code></pre><h2 id="elu/2-references" class="section-heading">
   <a href="#elu/2-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -555,20 +555,20 @@ <h1 class="signature" translate="no">exp(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="7923013214-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7923013214-2">(</span><span class="p" data-group-id="7923013214-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7923013214-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7923013214-4">[</span><span class="ss">:data</span><span class="p" data-group-id="7923013214-4">]</span><span class="p" data-group-id="7923013214-2">)</span><span class="p" data-group-id="7923013214-1">)</span><span class="w">
-</span><span class="p" data-group-id="7923013214-5">#</span><span class="nc" data-group-id="7923013214-5">Nx.Tensor</span><span class="p" data-group-id="7923013214-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7923013214-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="7923013214-6">]</span><span class="w">
-  </span><span class="p" data-group-id="7923013214-7">[</span><span class="mf">0.049787066876888275</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1353352814912796</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3678794503211975</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7182817459106445</span><span class="p">,</span><span class="w"> </span><span class="mf">7.389056205749512</span><span class="p">,</span><span class="w"> </span><span class="mf">20.08553695678711</span><span class="p" data-group-id="7923013214-7">]</span><span class="w">
-</span><span class="p" data-group-id="7923013214-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="7923013214-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7923013214-9">(</span><span class="p" data-group-id="7923013214-10">[</span><span class="p" data-group-id="7923013214-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="7923013214-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7923013214-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7923013214-12">]</span><span class="p" data-group-id="7923013214-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7923013214-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7923013214-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7923013214-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="7923013214-14">]</span><span class="p" data-group-id="7923013214-9">)</span><span class="p" data-group-id="7923013214-8">)</span><span class="w">
-</span><span class="p" data-group-id="7923013214-15">#</span><span class="nc" data-group-id="7923013214-15">Nx.Tensor</span><span class="p" data-group-id="7923013214-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="7923013214-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7923013214-16">]</span><span class="p" data-group-id="7923013214-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7923013214-17">]</span><span class="w">
-  </span><span class="p" data-group-id="7923013214-18">[</span><span class="w">
-    </span><span class="p" data-group-id="7923013214-19">[</span><span class="mf">0.3671875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.134765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.049560546875</span><span class="p" data-group-id="7923013214-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7923013214-20">[</span><span class="mf">2.703125</span><span class="p">,</span><span class="w"> </span><span class="mf">7.375</span><span class="p">,</span><span class="w"> </span><span class="mf">20.0</span><span class="p" data-group-id="7923013214-20">]</span><span class="w">
-  </span><span class="p" data-group-id="7923013214-18">]</span><span class="w">
-</span><span class="p" data-group-id="7923013214-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="3886082098-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3886082098-2">(</span><span class="p" data-group-id="3886082098-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3886082098-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3886082098-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3886082098-4">]</span><span class="p" data-group-id="3886082098-2">)</span><span class="p" data-group-id="3886082098-1">)</span><span class="w">
+</span><span class="p" data-group-id="3886082098-5">#</span><span class="nc" data-group-id="3886082098-5">Nx.Tensor</span><span class="p" data-group-id="3886082098-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3886082098-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3886082098-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3886082098-7">[</span><span class="mf">0.049787066876888275</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1353352814912796</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3678794503211975</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.7182817459106445</span><span class="p">,</span><span class="w"> </span><span class="mf">7.389056205749512</span><span class="p">,</span><span class="w"> </span><span class="mf">20.08553695678711</span><span class="p" data-group-id="3886082098-7">]</span><span class="w">
+</span><span class="p" data-group-id="3886082098-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="3886082098-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3886082098-9">(</span><span class="p" data-group-id="3886082098-10">[</span><span class="p" data-group-id="3886082098-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3886082098-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3886082098-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3886082098-12">]</span><span class="p" data-group-id="3886082098-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3886082098-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3886082098-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3886082098-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3886082098-14">]</span><span class="p" data-group-id="3886082098-9">)</span><span class="p" data-group-id="3886082098-8">)</span><span class="w">
+</span><span class="p" data-group-id="3886082098-15">#</span><span class="nc" data-group-id="3886082098-15">Nx.Tensor</span><span class="p" data-group-id="3886082098-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="3886082098-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3886082098-16">]</span><span class="p" data-group-id="3886082098-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3886082098-17">]</span><span class="w">
+  </span><span class="p" data-group-id="3886082098-18">[</span><span class="w">
+    </span><span class="p" data-group-id="3886082098-19">[</span><span class="mf">0.3671875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.134765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.049560546875</span><span class="p" data-group-id="3886082098-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3886082098-20">[</span><span class="mf">2.703125</span><span class="p">,</span><span class="w"> </span><span class="mf">7.375</span><span class="p">,</span><span class="w"> </span><span class="mf">20.0</span><span class="p" data-group-id="3886082098-20">]</span><span class="w">
+  </span><span class="p" data-group-id="3886082098-18">]</span><span class="w">
+</span><span class="p" data-group-id="3886082098-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="gelu/1">
@@ -598,20 +598,20 @@ <h1 class="signature" translate="no">gelu(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">gelu</span><span class="p" data-group-id="0442684774-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0442684774-2">(</span><span class="p" data-group-id="0442684774-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0442684774-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0442684774-4">[</span><span class="ss">:data</span><span class="p" data-group-id="0442684774-4">]</span><span class="p" data-group-id="0442684774-2">)</span><span class="p" data-group-id="0442684774-1">)</span><span class="w">
-</span><span class="p" data-group-id="0442684774-5">#</span><span class="nc" data-group-id="0442684774-5">Nx.Tensor</span><span class="p" data-group-id="0442684774-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0442684774-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="0442684774-6">]</span><span class="w">
-  </span><span class="p" data-group-id="0442684774-7">[</span><span class="o">-</span><span class="mf">0.0040496885776519775</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04550027847290039</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15865525603294373</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8413447141647339</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9544997215270996</span><span class="p">,</span><span class="w"> </span><span class="mf">2.995950222015381</span><span class="p" data-group-id="0442684774-7">]</span><span class="w">
-</span><span class="p" data-group-id="0442684774-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">gelu</span><span class="p" data-group-id="0442684774-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0442684774-9">(</span><span class="p" data-group-id="0442684774-10">[</span><span class="p" data-group-id="0442684774-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0442684774-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0442684774-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0442684774-12">]</span><span class="p" data-group-id="0442684774-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0442684774-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0442684774-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0442684774-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0442684774-14">]</span><span class="p" data-group-id="0442684774-9">)</span><span class="p" data-group-id="0442684774-8">)</span><span class="w">
-</span><span class="p" data-group-id="0442684774-15">#</span><span class="nc" data-group-id="0442684774-15">Nx.Tensor</span><span class="p" data-group-id="0442684774-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="0442684774-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0442684774-16">]</span><span class="p" data-group-id="0442684774-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0442684774-17">]</span><span class="w">
-  </span><span class="p" data-group-id="0442684774-18">[</span><span class="w">
-    </span><span class="p" data-group-id="0442684774-19">[</span><span class="o">-</span><span class="mf">0.16015625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.005859375</span><span class="p" data-group-id="0442684774-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="0442684774-20">[</span><span class="mf">0.83984375</span><span class="p">,</span><span class="w"> </span><span class="mf">1.953125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.984375</span><span class="p" data-group-id="0442684774-20">]</span><span class="w">
-  </span><span class="p" data-group-id="0442684774-18">]</span><span class="w">
-</span><span class="p" data-group-id="0442684774-15">&gt;</span></code></pre><h2 id="gelu/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">gelu</span><span class="p" data-group-id="8492345829-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8492345829-2">(</span><span class="p" data-group-id="8492345829-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8492345829-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8492345829-4">[</span><span class="ss">:data</span><span class="p" data-group-id="8492345829-4">]</span><span class="p" data-group-id="8492345829-2">)</span><span class="p" data-group-id="8492345829-1">)</span><span class="w">
+</span><span class="p" data-group-id="8492345829-5">#</span><span class="nc" data-group-id="8492345829-5">Nx.Tensor</span><span class="p" data-group-id="8492345829-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8492345829-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="8492345829-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8492345829-7">[</span><span class="o">-</span><span class="mf">0.0040496885776519775</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04550027847290039</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15865525603294373</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8413447141647339</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9544997215270996</span><span class="p">,</span><span class="w"> </span><span class="mf">2.995950222015381</span><span class="p" data-group-id="8492345829-7">]</span><span class="w">
+</span><span class="p" data-group-id="8492345829-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">gelu</span><span class="p" data-group-id="8492345829-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8492345829-9">(</span><span class="p" data-group-id="8492345829-10">[</span><span class="p" data-group-id="8492345829-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="8492345829-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8492345829-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8492345829-12">]</span><span class="p" data-group-id="8492345829-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8492345829-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8492345829-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8492345829-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="8492345829-14">]</span><span class="p" data-group-id="8492345829-9">)</span><span class="p" data-group-id="8492345829-8">)</span><span class="w">
+</span><span class="p" data-group-id="8492345829-15">#</span><span class="nc" data-group-id="8492345829-15">Nx.Tensor</span><span class="p" data-group-id="8492345829-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="8492345829-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8492345829-16">]</span><span class="p" data-group-id="8492345829-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8492345829-17">]</span><span class="w">
+  </span><span class="p" data-group-id="8492345829-18">[</span><span class="w">
+    </span><span class="p" data-group-id="8492345829-19">[</span><span class="o">-</span><span class="mf">0.16015625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.005859375</span><span class="p" data-group-id="8492345829-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8492345829-20">[</span><span class="mf">0.83984375</span><span class="p">,</span><span class="w"> </span><span class="mf">1.953125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.984375</span><span class="p" data-group-id="8492345829-20">]</span><span class="w">
+  </span><span class="p" data-group-id="8492345829-18">]</span><span class="w">
+</span><span class="p" data-group-id="8492345829-15">&gt;</span></code></pre><h2 id="gelu/1-references" class="section-heading">
   <a href="#gelu/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -647,20 +647,20 @@ <h1 class="signature" translate="no">hard_sigmoid(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_sigmoid</span><span class="p" data-group-id="3654024399-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3654024399-2">(</span><span class="p" data-group-id="3654024399-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3654024399-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3654024399-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3654024399-4">]</span><span class="p" data-group-id="3654024399-2">)</span><span class="p" data-group-id="3654024399-1">)</span><span class="w">
-</span><span class="p" data-group-id="3654024399-5">#</span><span class="nc" data-group-id="3654024399-5">Nx.Tensor</span><span class="p" data-group-id="3654024399-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3654024399-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3654024399-6">]</span><span class="w">
-  </span><span class="p" data-group-id="3654024399-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20000000298023224</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4000000059604645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6000000238418579</span><span class="p">,</span><span class="w"> </span><span class="mf">0.800000011920929</span><span class="p" data-group-id="3654024399-7">]</span><span class="w">
-</span><span class="p" data-group-id="3654024399-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_sigmoid</span><span class="p" data-group-id="3654024399-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3654024399-9">(</span><span class="p" data-group-id="3654024399-10">[</span><span class="p" data-group-id="3654024399-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3654024399-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3654024399-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3654024399-12">]</span><span class="p" data-group-id="3654024399-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3654024399-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3654024399-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3654024399-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3654024399-14">]</span><span class="p" data-group-id="3654024399-9">)</span><span class="p" data-group-id="3654024399-8">)</span><span class="w">
-</span><span class="p" data-group-id="3654024399-15">#</span><span class="nc" data-group-id="3654024399-15">Nx.Tensor</span><span class="p" data-group-id="3654024399-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="3654024399-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3654024399-16">]</span><span class="p" data-group-id="3654024399-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3654024399-17">]</span><span class="w">
-  </span><span class="p" data-group-id="3654024399-18">[</span><span class="w">
-    </span><span class="p" data-group-id="3654024399-19">[</span><span class="mf">7.781982421875e-4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3654024399-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3654024399-20">[</span><span class="mf">0.3984375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.59765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.796875</span><span class="p" data-group-id="3654024399-20">]</span><span class="w">
-  </span><span class="p" data-group-id="3654024399-18">]</span><span class="w">
-</span><span class="p" data-group-id="3654024399-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_sigmoid</span><span class="p" data-group-id="0692268248-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0692268248-2">(</span><span class="p" data-group-id="0692268248-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0692268248-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0692268248-4">[</span><span class="ss">:data</span><span class="p" data-group-id="0692268248-4">]</span><span class="p" data-group-id="0692268248-2">)</span><span class="p" data-group-id="0692268248-1">)</span><span class="w">
+</span><span class="p" data-group-id="0692268248-5">#</span><span class="nc" data-group-id="0692268248-5">Nx.Tensor</span><span class="p" data-group-id="0692268248-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0692268248-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="0692268248-6">]</span><span class="w">
+  </span><span class="p" data-group-id="0692268248-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20000000298023224</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4000000059604645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6000000238418579</span><span class="p">,</span><span class="w"> </span><span class="mf">0.800000011920929</span><span class="p" data-group-id="0692268248-7">]</span><span class="w">
+</span><span class="p" data-group-id="0692268248-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_sigmoid</span><span class="p" data-group-id="0692268248-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0692268248-9">(</span><span class="p" data-group-id="0692268248-10">[</span><span class="p" data-group-id="0692268248-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0692268248-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0692268248-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0692268248-12">]</span><span class="p" data-group-id="0692268248-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0692268248-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0692268248-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0692268248-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0692268248-14">]</span><span class="p" data-group-id="0692268248-9">)</span><span class="p" data-group-id="0692268248-8">)</span><span class="w">
+</span><span class="p" data-group-id="0692268248-15">#</span><span class="nc" data-group-id="0692268248-15">Nx.Tensor</span><span class="p" data-group-id="0692268248-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="0692268248-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0692268248-16">]</span><span class="p" data-group-id="0692268248-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0692268248-17">]</span><span class="w">
+  </span><span class="p" data-group-id="0692268248-18">[</span><span class="w">
+    </span><span class="p" data-group-id="0692268248-19">[</span><span class="mf">7.781982421875e-4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0692268248-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0692268248-20">[</span><span class="mf">0.3984375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.59765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.796875</span><span class="p" data-group-id="0692268248-20">]</span><span class="w">
+  </span><span class="p" data-group-id="0692268248-18">]</span><span class="w">
+</span><span class="p" data-group-id="0692268248-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="hard_silu/2">
@@ -694,20 +694,20 @@ <h1 class="signature" translate="no">hard_silu(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_silu</span><span class="p" data-group-id="3883158247-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3883158247-2">(</span><span class="p" data-group-id="3883158247-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3883158247-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3883158247-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3883158247-4">]</span><span class="p" data-group-id="3883158247-2">)</span><span class="p" data-group-id="3883158247-1">)</span><span class="w">
-</span><span class="p" data-group-id="3883158247-5">#</span><span class="nc" data-group-id="3883158247-5">Nx.Tensor</span><span class="p" data-group-id="3883158247-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3883158247-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3883158247-6">]</span><span class="w">
-  </span><span class="p" data-group-id="3883158247-7">[</span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4000000059604645</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2000000476837158</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4000000953674316</span><span class="p" data-group-id="3883158247-7">]</span><span class="w">
-</span><span class="p" data-group-id="3883158247-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_silu</span><span class="p" data-group-id="3883158247-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3883158247-9">(</span><span class="p" data-group-id="3883158247-10">[</span><span class="p" data-group-id="3883158247-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3883158247-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3883158247-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3883158247-12">]</span><span class="p" data-group-id="3883158247-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3883158247-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3883158247-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3883158247-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3883158247-14">]</span><span class="p" data-group-id="3883158247-9">)</span><span class="p" data-group-id="3883158247-8">)</span><span class="w">
-</span><span class="p" data-group-id="3883158247-15">#</span><span class="nc" data-group-id="3883158247-15">Nx.Tensor</span><span class="p" data-group-id="3883158247-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="3883158247-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3883158247-16">]</span><span class="p" data-group-id="3883158247-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3883158247-17">]</span><span class="w">
-  </span><span class="p" data-group-id="3883158247-18">[</span><span class="w">
-    </span><span class="p" data-group-id="3883158247-19">[</span><span class="o">-</span><span class="mf">7.781982421875e-4</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p" data-group-id="3883158247-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3883158247-20">[</span><span class="mf">0.3984375</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1953125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.390625</span><span class="p" data-group-id="3883158247-20">]</span><span class="w">
-  </span><span class="p" data-group-id="3883158247-18">]</span><span class="w">
-</span><span class="p" data-group-id="3883158247-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_silu</span><span class="p" data-group-id="4740746998-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4740746998-2">(</span><span class="p" data-group-id="4740746998-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4740746998-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4740746998-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4740746998-4">]</span><span class="p" data-group-id="4740746998-2">)</span><span class="p" data-group-id="4740746998-1">)</span><span class="w">
+</span><span class="p" data-group-id="4740746998-5">#</span><span class="nc" data-group-id="4740746998-5">Nx.Tensor</span><span class="p" data-group-id="4740746998-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4740746998-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4740746998-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4740746998-7">[</span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4000000059604645</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2000000476837158</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4000000953674316</span><span class="p" data-group-id="4740746998-7">]</span><span class="w">
+</span><span class="p" data-group-id="4740746998-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_silu</span><span class="p" data-group-id="4740746998-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4740746998-9">(</span><span class="p" data-group-id="4740746998-10">[</span><span class="p" data-group-id="4740746998-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4740746998-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4740746998-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4740746998-12">]</span><span class="p" data-group-id="4740746998-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4740746998-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4740746998-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4740746998-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4740746998-14">]</span><span class="p" data-group-id="4740746998-9">)</span><span class="p" data-group-id="4740746998-8">)</span><span class="w">
+</span><span class="p" data-group-id="4740746998-15">#</span><span class="nc" data-group-id="4740746998-15">Nx.Tensor</span><span class="p" data-group-id="4740746998-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="4740746998-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4740746998-16">]</span><span class="p" data-group-id="4740746998-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4740746998-17">]</span><span class="w">
+  </span><span class="p" data-group-id="4740746998-18">[</span><span class="w">
+    </span><span class="p" data-group-id="4740746998-19">[</span><span class="o">-</span><span class="mf">7.781982421875e-4</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0</span><span class="p" data-group-id="4740746998-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4740746998-20">[</span><span class="mf">0.3984375</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1953125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.390625</span><span class="p" data-group-id="4740746998-20">]</span><span class="w">
+  </span><span class="p" data-group-id="4740746998-18">]</span><span class="w">
+</span><span class="p" data-group-id="4740746998-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="hard_tanh/1">
@@ -737,20 +737,20 @@ <h1 class="signature" translate="no">hard_tanh(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_tanh</span><span class="p" data-group-id="4674623024-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674623024-2">(</span><span class="p" data-group-id="4674623024-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4674623024-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4674623024-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4674623024-4">]</span><span class="p" data-group-id="4674623024-2">)</span><span class="p" data-group-id="4674623024-1">)</span><span class="w">
-</span><span class="p" data-group-id="4674623024-5">#</span><span class="nc" data-group-id="4674623024-5">Nx.Tensor</span><span class="p" data-group-id="4674623024-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4674623024-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4674623024-6">]</span><span class="w">
-  </span><span class="p" data-group-id="4674623024-7">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4674623024-7">]</span><span class="w">
-</span><span class="p" data-group-id="4674623024-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_tanh</span><span class="p" data-group-id="4674623024-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4674623024-9">(</span><span class="p" data-group-id="4674623024-10">[</span><span class="p" data-group-id="4674623024-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4674623024-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4674623024-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4674623024-12">]</span><span class="p" data-group-id="4674623024-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4674623024-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4674623024-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4674623024-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4674623024-14">]</span><span class="p" data-group-id="4674623024-9">)</span><span class="p" data-group-id="4674623024-8">)</span><span class="w">
-</span><span class="p" data-group-id="4674623024-15">#</span><span class="nc" data-group-id="4674623024-15">Nx.Tensor</span><span class="p" data-group-id="4674623024-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="4674623024-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4674623024-16">]</span><span class="p" data-group-id="4674623024-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4674623024-17">]</span><span class="w">
-  </span><span class="p" data-group-id="4674623024-18">[</span><span class="w">
-    </span><span class="p" data-group-id="4674623024-19">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p" data-group-id="4674623024-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4674623024-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4674623024-20">]</span><span class="w">
-  </span><span class="p" data-group-id="4674623024-18">]</span><span class="w">
-</span><span class="p" data-group-id="4674623024-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_tanh</span><span class="p" data-group-id="5252886402-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5252886402-2">(</span><span class="p" data-group-id="5252886402-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5252886402-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5252886402-4">[</span><span class="ss">:data</span><span class="p" data-group-id="5252886402-4">]</span><span class="p" data-group-id="5252886402-2">)</span><span class="p" data-group-id="5252886402-1">)</span><span class="w">
+</span><span class="p" data-group-id="5252886402-5">#</span><span class="nc" data-group-id="5252886402-5">Nx.Tensor</span><span class="p" data-group-id="5252886402-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5252886402-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="5252886402-6">]</span><span class="w">
+  </span><span class="p" data-group-id="5252886402-7">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5252886402-7">]</span><span class="w">
+</span><span class="p" data-group-id="5252886402-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">hard_tanh</span><span class="p" data-group-id="5252886402-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5252886402-9">(</span><span class="p" data-group-id="5252886402-10">[</span><span class="p" data-group-id="5252886402-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="5252886402-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5252886402-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5252886402-12">]</span><span class="p" data-group-id="5252886402-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5252886402-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5252886402-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5252886402-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5252886402-14">]</span><span class="p" data-group-id="5252886402-9">)</span><span class="p" data-group-id="5252886402-8">)</span><span class="w">
+</span><span class="p" data-group-id="5252886402-15">#</span><span class="nc" data-group-id="5252886402-15">Nx.Tensor</span><span class="p" data-group-id="5252886402-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="5252886402-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5252886402-16">]</span><span class="p" data-group-id="5252886402-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5252886402-17">]</span><span class="w">
+  </span><span class="p" data-group-id="5252886402-18">[</span><span class="w">
+    </span><span class="p" data-group-id="5252886402-19">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p" data-group-id="5252886402-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5252886402-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5252886402-20">]</span><span class="w">
+  </span><span class="p" data-group-id="5252886402-18">]</span><span class="w">
+</span><span class="p" data-group-id="5252886402-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="leaky_relu/2">
@@ -788,20 +788,20 @@ <h1 class="signature" translate="no">leaky_relu(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">leaky_relu</span><span class="p" data-group-id="2107845057-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2107845057-2">(</span><span class="p" data-group-id="2107845057-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2107845057-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2107845057-4">[</span><span class="ss">:data</span><span class="p" data-group-id="2107845057-4">]</span><span class="p" data-group-id="2107845057-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="2107845057-1">)</span><span class="w">
-</span><span class="p" data-group-id="2107845057-5">#</span><span class="nc" data-group-id="2107845057-5">Nx.Tensor</span><span class="p" data-group-id="2107845057-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2107845057-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="2107845057-6">]</span><span class="w">
-  </span><span class="p" data-group-id="2107845057-7">[</span><span class="o">-</span><span class="mf">1.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2107845057-7">]</span><span class="w">
-</span><span class="p" data-group-id="2107845057-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">leaky_relu</span><span class="p" data-group-id="2107845057-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2107845057-9">(</span><span class="p" data-group-id="2107845057-10">[</span><span class="p" data-group-id="2107845057-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="2107845057-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2107845057-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2107845057-12">]</span><span class="p" data-group-id="2107845057-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2107845057-13">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="2107845057-13">]</span><span class="p" data-group-id="2107845057-9">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="2107845057-8">)</span><span class="w">
-</span><span class="p" data-group-id="2107845057-14">#</span><span class="nc" data-group-id="2107845057-14">Nx.Tensor</span><span class="p" data-group-id="2107845057-14">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2107845057-15">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2107845057-15">]</span><span class="p" data-group-id="2107845057-16">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2107845057-16">]</span><span class="w">
-  </span><span class="p" data-group-id="2107845057-17">[</span><span class="w">
-    </span><span class="p" data-group-id="2107845057-18">[</span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5</span><span class="p" data-group-id="2107845057-18">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2107845057-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2107845057-19">]</span><span class="w">
-  </span><span class="p" data-group-id="2107845057-17">]</span><span class="w">
-</span><span class="p" data-group-id="2107845057-14">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">leaky_relu</span><span class="p" data-group-id="7110528882-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7110528882-2">(</span><span class="p" data-group-id="7110528882-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7110528882-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7110528882-4">[</span><span class="ss">:data</span><span class="p" data-group-id="7110528882-4">]</span><span class="p" data-group-id="7110528882-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="7110528882-1">)</span><span class="w">
+</span><span class="p" data-group-id="7110528882-5">#</span><span class="nc" data-group-id="7110528882-5">Nx.Tensor</span><span class="p" data-group-id="7110528882-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7110528882-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="7110528882-6">]</span><span class="w">
+  </span><span class="p" data-group-id="7110528882-7">[</span><span class="o">-</span><span class="mf">1.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7110528882-7">]</span><span class="w">
+</span><span class="p" data-group-id="7110528882-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">leaky_relu</span><span class="p" data-group-id="7110528882-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7110528882-9">(</span><span class="p" data-group-id="7110528882-10">[</span><span class="p" data-group-id="7110528882-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="7110528882-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7110528882-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7110528882-12">]</span><span class="p" data-group-id="7110528882-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7110528882-13">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="7110528882-13">]</span><span class="p" data-group-id="7110528882-9">)</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="7110528882-8">)</span><span class="w">
+</span><span class="p" data-group-id="7110528882-14">#</span><span class="nc" data-group-id="7110528882-14">Nx.Tensor</span><span class="p" data-group-id="7110528882-14">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7110528882-15">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7110528882-15">]</span><span class="p" data-group-id="7110528882-16">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7110528882-16">]</span><span class="w">
+  </span><span class="p" data-group-id="7110528882-17">[</span><span class="w">
+    </span><span class="p" data-group-id="7110528882-18">[</span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5</span><span class="p" data-group-id="7110528882-18">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="7110528882-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7110528882-19">]</span><span class="w">
+  </span><span class="p" data-group-id="7110528882-17">]</span><span class="w">
+</span><span class="p" data-group-id="7110528882-14">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="linear/1">
@@ -831,20 +831,20 @@ <h1 class="signature" translate="no">linear(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">linear</span><span class="p" data-group-id="7613255961-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7613255961-2">(</span><span class="p" data-group-id="7613255961-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7613255961-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7613255961-4">[</span><span class="ss">:data</span><span class="p" data-group-id="7613255961-4">]</span><span class="p" data-group-id="7613255961-2">)</span><span class="p" data-group-id="7613255961-1">)</span><span class="w">
-</span><span class="p" data-group-id="7613255961-5">#</span><span class="nc" data-group-id="7613255961-5">Nx.Tensor</span><span class="p" data-group-id="7613255961-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7613255961-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="7613255961-6">]</span><span class="w">
-  </span><span class="p" data-group-id="7613255961-7">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7613255961-7">]</span><span class="w">
-</span><span class="p" data-group-id="7613255961-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">linear</span><span class="p" data-group-id="7613255961-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7613255961-9">(</span><span class="p" data-group-id="7613255961-10">[</span><span class="p" data-group-id="7613255961-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="7613255961-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7613255961-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7613255961-12">]</span><span class="p" data-group-id="7613255961-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7613255961-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7613255961-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7613255961-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="7613255961-14">]</span><span class="p" data-group-id="7613255961-9">)</span><span class="p" data-group-id="7613255961-8">)</span><span class="w">
-</span><span class="p" data-group-id="7613255961-15">#</span><span class="nc" data-group-id="7613255961-15">Nx.Tensor</span><span class="p" data-group-id="7613255961-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="7613255961-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7613255961-16">]</span><span class="p" data-group-id="7613255961-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7613255961-17">]</span><span class="w">
-  </span><span class="p" data-group-id="7613255961-18">[</span><span class="w">
-    </span><span class="p" data-group-id="7613255961-19">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="7613255961-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7613255961-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7613255961-20">]</span><span class="w">
-  </span><span class="p" data-group-id="7613255961-18">]</span><span class="w">
-</span><span class="p" data-group-id="7613255961-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">linear</span><span class="p" data-group-id="4084403882-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4084403882-2">(</span><span class="p" data-group-id="4084403882-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4084403882-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4084403882-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4084403882-4">]</span><span class="p" data-group-id="4084403882-2">)</span><span class="p" data-group-id="4084403882-1">)</span><span class="w">
+</span><span class="p" data-group-id="4084403882-5">#</span><span class="nc" data-group-id="4084403882-5">Nx.Tensor</span><span class="p" data-group-id="4084403882-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4084403882-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4084403882-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4084403882-7">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4084403882-7">]</span><span class="w">
+</span><span class="p" data-group-id="4084403882-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">linear</span><span class="p" data-group-id="4084403882-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4084403882-9">(</span><span class="p" data-group-id="4084403882-10">[</span><span class="p" data-group-id="4084403882-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4084403882-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4084403882-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4084403882-12">]</span><span class="p" data-group-id="4084403882-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4084403882-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4084403882-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4084403882-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4084403882-14">]</span><span class="p" data-group-id="4084403882-9">)</span><span class="p" data-group-id="4084403882-8">)</span><span class="w">
+</span><span class="p" data-group-id="4084403882-15">#</span><span class="nc" data-group-id="4084403882-15">Nx.Tensor</span><span class="p" data-group-id="4084403882-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="4084403882-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4084403882-16">]</span><span class="p" data-group-id="4084403882-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4084403882-17">]</span><span class="w">
+  </span><span class="p" data-group-id="4084403882-18">[</span><span class="w">
+    </span><span class="p" data-group-id="4084403882-19">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4084403882-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4084403882-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4084403882-20">]</span><span class="w">
+  </span><span class="p" data-group-id="4084403882-18">]</span><span class="w">
+</span><span class="p" data-group-id="4084403882-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="log_sigmoid/1">
@@ -874,20 +874,20 @@ <h1 class="signature" translate="no">log_sigmoid(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p" data-group-id="0105062264-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0105062264-2">(</span><span class="p" data-group-id="0105062264-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0105062264-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0105062264-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0105062264-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0105062264-5">[</span><span class="ss">:data</span><span class="p" data-group-id="0105062264-5">]</span><span class="p" data-group-id="0105062264-2">)</span><span class="p" data-group-id="0105062264-1">)</span><span class="w">
-</span><span class="p" data-group-id="0105062264-6">#</span><span class="nc" data-group-id="0105062264-6">Nx.Tensor</span><span class="p" data-group-id="0105062264-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0105062264-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="0105062264-7">]</span><span class="w">
-  </span><span class="p" data-group-id="0105062264-8">[</span><span class="o">-</span><span class="mf">3.0485873222351074</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.1269280910491943</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3132617473602295</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6931471824645996</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3132616877555847</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12692801654338837</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04858734831213951</span><span class="p" data-group-id="0105062264-8">]</span><span class="w">
-</span><span class="p" data-group-id="0105062264-6">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p" data-group-id="0105062264-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0105062264-10">(</span><span class="p" data-group-id="0105062264-11">[</span><span class="p" data-group-id="0105062264-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0105062264-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0105062264-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0105062264-13">]</span><span class="p" data-group-id="0105062264-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0105062264-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0105062264-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0105062264-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0105062264-15">]</span><span class="p" data-group-id="0105062264-10">)</span><span class="p" data-group-id="0105062264-9">)</span><span class="w">
-</span><span class="p" data-group-id="0105062264-16">#</span><span class="nc" data-group-id="0105062264-16">Nx.Tensor</span><span class="p" data-group-id="0105062264-16">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="0105062264-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0105062264-17">]</span><span class="p" data-group-id="0105062264-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0105062264-18">]</span><span class="w">
-  </span><span class="p" data-group-id="0105062264-19">[</span><span class="w">
-    </span><span class="p" data-group-id="0105062264-20">[</span><span class="o">-</span><span class="mf">1.3125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.046875</span><span class="p" data-group-id="0105062264-20">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="0105062264-21">[</span><span class="o">-</span><span class="mf">0.3125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1259765625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04833984375</span><span class="p" data-group-id="0105062264-21">]</span><span class="w">
-  </span><span class="p" data-group-id="0105062264-19">]</span><span class="w">
-</span><span class="p" data-group-id="0105062264-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p" data-group-id="6230003121-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6230003121-2">(</span><span class="p" data-group-id="6230003121-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6230003121-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6230003121-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6230003121-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6230003121-5">[</span><span class="ss">:data</span><span class="p" data-group-id="6230003121-5">]</span><span class="p" data-group-id="6230003121-2">)</span><span class="p" data-group-id="6230003121-1">)</span><span class="w">
+</span><span class="p" data-group-id="6230003121-6">#</span><span class="nc" data-group-id="6230003121-6">Nx.Tensor</span><span class="p" data-group-id="6230003121-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6230003121-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="6230003121-7">]</span><span class="w">
+  </span><span class="p" data-group-id="6230003121-8">[</span><span class="o">-</span><span class="mf">3.0485873222351074</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.1269280910491943</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3132617473602295</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6931471824645996</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3132616877555847</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12692801654338837</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04858734831213951</span><span class="p" data-group-id="6230003121-8">]</span><span class="w">
+</span><span class="p" data-group-id="6230003121-6">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p" data-group-id="6230003121-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6230003121-10">(</span><span class="p" data-group-id="6230003121-11">[</span><span class="p" data-group-id="6230003121-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="6230003121-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6230003121-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6230003121-13">]</span><span class="p" data-group-id="6230003121-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6230003121-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6230003121-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6230003121-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="6230003121-15">]</span><span class="p" data-group-id="6230003121-10">)</span><span class="p" data-group-id="6230003121-9">)</span><span class="w">
+</span><span class="p" data-group-id="6230003121-16">#</span><span class="nc" data-group-id="6230003121-16">Nx.Tensor</span><span class="p" data-group-id="6230003121-16">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="6230003121-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6230003121-17">]</span><span class="p" data-group-id="6230003121-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6230003121-18">]</span><span class="w">
+  </span><span class="p" data-group-id="6230003121-19">[</span><span class="w">
+    </span><span class="p" data-group-id="6230003121-20">[</span><span class="o">-</span><span class="mf">1.3125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.046875</span><span class="p" data-group-id="6230003121-20">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6230003121-21">[</span><span class="o">-</span><span class="mf">0.3125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1259765625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04833984375</span><span class="p" data-group-id="6230003121-21">]</span><span class="w">
+  </span><span class="p" data-group-id="6230003121-19">]</span><span class="w">
+</span><span class="p" data-group-id="6230003121-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="log_softmax/2">
@@ -919,20 +919,20 @@ <h1 class="signature" translate="no">log_softmax(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_softmax</span><span class="p" data-group-id="1159066572-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1159066572-2">(</span><span class="p" data-group-id="1159066572-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1159066572-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1159066572-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1159066572-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1159066572-5">[</span><span class="ss">:data</span><span class="p" data-group-id="1159066572-5">]</span><span class="p" data-group-id="1159066572-2">)</span><span class="p" data-group-id="1159066572-1">)</span><span class="w">
-</span><span class="p" data-group-id="1159066572-6">#</span><span class="nc" data-group-id="1159066572-6">Nx.Tensor</span><span class="p" data-group-id="1159066572-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1159066572-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1159066572-7">]</span><span class="w">
-  </span><span class="p" data-group-id="1159066572-8">[</span><span class="o">-</span><span class="mf">6.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.4577627182006836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.4577627182006836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4577628374099731</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45776283740997314</span><span class="p" data-group-id="1159066572-8">]</span><span class="w">
-</span><span class="p" data-group-id="1159066572-6">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_softmax</span><span class="p" data-group-id="1159066572-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1159066572-10">(</span><span class="p" data-group-id="1159066572-11">[</span><span class="p" data-group-id="1159066572-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1159066572-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1159066572-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1159066572-13">]</span><span class="p" data-group-id="1159066572-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1159066572-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1159066572-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1159066572-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1159066572-15">]</span><span class="p" data-group-id="1159066572-10">)</span><span class="p" data-group-id="1159066572-9">)</span><span class="w">
-</span><span class="p" data-group-id="1159066572-16">#</span><span class="nc" data-group-id="1159066572-16">Nx.Tensor</span><span class="p" data-group-id="1159066572-16">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="1159066572-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1159066572-17">]</span><span class="p" data-group-id="1159066572-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1159066572-18">]</span><span class="w">
-  </span><span class="p" data-group-id="1159066572-19">[</span><span class="w">
-    </span><span class="p" data-group-id="1159066572-20">[</span><span class="o">-</span><span class="mf">0.404296875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3984375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.390625</span><span class="p" data-group-id="1159066572-20">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1159066572-21">[</span><span class="o">-</span><span class="mf">2.390625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3984375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.404296875</span><span class="p" data-group-id="1159066572-21">]</span><span class="w">
-  </span><span class="p" data-group-id="1159066572-19">]</span><span class="w">
-</span><span class="p" data-group-id="1159066572-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_softmax</span><span class="p" data-group-id="0124131713-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0124131713-2">(</span><span class="p" data-group-id="0124131713-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0124131713-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0124131713-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0124131713-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0124131713-5">[</span><span class="ss">:data</span><span class="p" data-group-id="0124131713-5">]</span><span class="p" data-group-id="0124131713-2">)</span><span class="p" data-group-id="0124131713-1">)</span><span class="w">
+</span><span class="p" data-group-id="0124131713-6">#</span><span class="nc" data-group-id="0124131713-6">Nx.Tensor</span><span class="p" data-group-id="0124131713-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0124131713-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="0124131713-7">]</span><span class="w">
+  </span><span class="p" data-group-id="0124131713-8">[</span><span class="o">-</span><span class="mf">6.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.457762718200684</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.4577627182006836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.4577627182006836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4577628374099731</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45776283740997314</span><span class="p" data-group-id="0124131713-8">]</span><span class="w">
+</span><span class="p" data-group-id="0124131713-6">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_softmax</span><span class="p" data-group-id="0124131713-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0124131713-10">(</span><span class="p" data-group-id="0124131713-11">[</span><span class="p" data-group-id="0124131713-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0124131713-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0124131713-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0124131713-13">]</span><span class="p" data-group-id="0124131713-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0124131713-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0124131713-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0124131713-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0124131713-15">]</span><span class="p" data-group-id="0124131713-10">)</span><span class="p" data-group-id="0124131713-9">)</span><span class="w">
+</span><span class="p" data-group-id="0124131713-16">#</span><span class="nc" data-group-id="0124131713-16">Nx.Tensor</span><span class="p" data-group-id="0124131713-16">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="0124131713-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0124131713-17">]</span><span class="p" data-group-id="0124131713-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0124131713-18">]</span><span class="w">
+  </span><span class="p" data-group-id="0124131713-19">[</span><span class="w">
+    </span><span class="p" data-group-id="0124131713-20">[</span><span class="o">-</span><span class="mf">0.404296875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3984375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.390625</span><span class="p" data-group-id="0124131713-20">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0124131713-21">[</span><span class="o">-</span><span class="mf">2.390625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3984375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.404296875</span><span class="p" data-group-id="0124131713-21">]</span><span class="w">
+  </span><span class="p" data-group-id="0124131713-19">]</span><span class="w">
+</span><span class="p" data-group-id="0124131713-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="log_sumexp/2">
@@ -964,20 +964,20 @@ <h1 class="signature" translate="no">log_sumexp(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sumexp</span><span class="p" data-group-id="6163743974-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6163743974-2">(</span><span class="p" data-group-id="6163743974-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6163743974-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6163743974-4">[</span><span class="ss">:data</span><span class="p" data-group-id="6163743974-4">]</span><span class="p" data-group-id="6163743974-2">)</span><span class="p" data-group-id="6163743974-1">)</span><span class="w">
-</span><span class="p" data-group-id="6163743974-5">#</span><span class="nc" data-group-id="6163743974-5">Nx.Tensor</span><span class="p" data-group-id="6163743974-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6163743974-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6163743974-6">]</span><span class="w">
-  </span><span class="p" data-group-id="6163743974-7">[</span><span class="mf">3.4577627182006836</span><span class="p" data-group-id="6163743974-7">]</span><span class="w">
-</span><span class="p" data-group-id="6163743974-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sumexp</span><span class="p" data-group-id="6163743974-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6163743974-9">(</span><span class="p" data-group-id="6163743974-10">[</span><span class="p" data-group-id="6163743974-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="6163743974-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6163743974-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6163743974-12">]</span><span class="p" data-group-id="6163743974-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6163743974-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6163743974-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6163743974-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="6163743974-14">]</span><span class="p" data-group-id="6163743974-9">)</span><span class="p" data-group-id="6163743974-8">)</span><span class="w">
-</span><span class="p" data-group-id="6163743974-15">#</span><span class="nc" data-group-id="6163743974-15">Nx.Tensor</span><span class="p" data-group-id="6163743974-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="6163743974-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6163743974-16">]</span><span class="p" data-group-id="6163743974-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6163743974-17">]</span><span class="w">
-  </span><span class="p" data-group-id="6163743974-18">[</span><span class="w">
-    </span><span class="p" data-group-id="6163743974-19">[</span><span class="o">-</span><span class="mf">0.59375</span><span class="p" data-group-id="6163743974-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6163743974-20">[</span><span class="mf">3.390625</span><span class="p" data-group-id="6163743974-20">]</span><span class="w">
-  </span><span class="p" data-group-id="6163743974-18">]</span><span class="w">
-</span><span class="p" data-group-id="6163743974-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sumexp</span><span class="p" data-group-id="0137317556-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0137317556-2">(</span><span class="p" data-group-id="0137317556-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0137317556-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0137317556-4">[</span><span class="ss">:data</span><span class="p" data-group-id="0137317556-4">]</span><span class="p" data-group-id="0137317556-2">)</span><span class="p" data-group-id="0137317556-1">)</span><span class="w">
+</span><span class="p" data-group-id="0137317556-5">#</span><span class="nc" data-group-id="0137317556-5">Nx.Tensor</span><span class="p" data-group-id="0137317556-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0137317556-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0137317556-6">]</span><span class="w">
+  </span><span class="p" data-group-id="0137317556-7">[</span><span class="mf">3.4577627182006836</span><span class="p" data-group-id="0137317556-7">]</span><span class="w">
+</span><span class="p" data-group-id="0137317556-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">log_sumexp</span><span class="p" data-group-id="0137317556-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0137317556-9">(</span><span class="p" data-group-id="0137317556-10">[</span><span class="p" data-group-id="0137317556-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0137317556-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0137317556-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0137317556-12">]</span><span class="p" data-group-id="0137317556-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0137317556-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0137317556-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0137317556-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0137317556-14">]</span><span class="p" data-group-id="0137317556-9">)</span><span class="p" data-group-id="0137317556-8">)</span><span class="w">
+</span><span class="p" data-group-id="0137317556-15">#</span><span class="nc" data-group-id="0137317556-15">Nx.Tensor</span><span class="p" data-group-id="0137317556-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="0137317556-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0137317556-16">]</span><span class="p" data-group-id="0137317556-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0137317556-17">]</span><span class="w">
+  </span><span class="p" data-group-id="0137317556-18">[</span><span class="w">
+    </span><span class="p" data-group-id="0137317556-19">[</span><span class="o">-</span><span class="mf">0.59375</span><span class="p" data-group-id="0137317556-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0137317556-20">[</span><span class="mf">3.390625</span><span class="p" data-group-id="0137317556-20">]</span><span class="w">
+  </span><span class="p" data-group-id="0137317556-18">]</span><span class="w">
+</span><span class="p" data-group-id="0137317556-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="mish/1">
@@ -1007,20 +1007,20 @@ <h1 class="signature" translate="no">mish(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="2326415255-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2326415255-2">(</span><span class="p" data-group-id="2326415255-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2326415255-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2326415255-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2326415255-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2326415255-5">[</span><span class="ss">:data</span><span class="p" data-group-id="2326415255-5">]</span><span class="p" data-group-id="2326415255-2">)</span><span class="p" data-group-id="2326415255-1">)</span><span class="w">
-</span><span class="p" data-group-id="2326415255-6">#</span><span class="nc" data-group-id="2326415255-6">Nx.Tensor</span><span class="p" data-group-id="2326415255-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2326415255-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="2326415255-7">]</span><span class="w">
-  </span><span class="p" data-group-id="2326415255-8">[</span><span class="o">-</span><span class="mf">0.14564745128154755</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2525014877319336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30340147018432617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8650984168052673</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9439589977264404</span><span class="p">,</span><span class="w"> </span><span class="mf">2.98653507232666</span><span class="p" data-group-id="2326415255-8">]</span><span class="w">
-</span><span class="p" data-group-id="2326415255-6">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="2326415255-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2326415255-10">(</span><span class="p" data-group-id="2326415255-11">[</span><span class="p" data-group-id="2326415255-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="2326415255-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2326415255-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2326415255-13">]</span><span class="p" data-group-id="2326415255-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2326415255-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2326415255-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2326415255-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="2326415255-15">]</span><span class="p" data-group-id="2326415255-10">)</span><span class="p" data-group-id="2326415255-9">)</span><span class="w">
-</span><span class="p" data-group-id="2326415255-16">#</span><span class="nc" data-group-id="2326415255-16">Nx.Tensor</span><span class="p" data-group-id="2326415255-16">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="2326415255-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2326415255-17">]</span><span class="p" data-group-id="2326415255-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2326415255-18">]</span><span class="w">
-  </span><span class="p" data-group-id="2326415255-19">[</span><span class="w">
-    </span><span class="p" data-group-id="2326415255-20">[</span><span class="o">-</span><span class="mf">0.30078125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1435546875</span><span class="p" data-group-id="2326415255-20">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2326415255-21">[</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9375</span><span class="p">,</span><span class="w"> </span><span class="mf">2.96875</span><span class="p" data-group-id="2326415255-21">]</span><span class="w">
-  </span><span class="p" data-group-id="2326415255-19">]</span><span class="w">
-</span><span class="p" data-group-id="2326415255-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="0932171108-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0932171108-2">(</span><span class="p" data-group-id="0932171108-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0932171108-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0932171108-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0932171108-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0932171108-5">[</span><span class="ss">:data</span><span class="p" data-group-id="0932171108-5">]</span><span class="p" data-group-id="0932171108-2">)</span><span class="p" data-group-id="0932171108-1">)</span><span class="w">
+</span><span class="p" data-group-id="0932171108-6">#</span><span class="nc" data-group-id="0932171108-6">Nx.Tensor</span><span class="p" data-group-id="0932171108-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0932171108-7">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="0932171108-7">]</span><span class="w">
+  </span><span class="p" data-group-id="0932171108-8">[</span><span class="o">-</span><span class="mf">0.14564745128154755</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2525014877319336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30340147018432617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8650984168052673</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9439589977264404</span><span class="p">,</span><span class="w"> </span><span class="mf">2.98653507232666</span><span class="p" data-group-id="0932171108-8">]</span><span class="w">
+</span><span class="p" data-group-id="0932171108-6">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="0932171108-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0932171108-10">(</span><span class="p" data-group-id="0932171108-11">[</span><span class="p" data-group-id="0932171108-12">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0932171108-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0932171108-13">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0932171108-13">]</span><span class="p" data-group-id="0932171108-11">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0932171108-14">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0932171108-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0932171108-15">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0932171108-15">]</span><span class="p" data-group-id="0932171108-10">)</span><span class="p" data-group-id="0932171108-9">)</span><span class="w">
+</span><span class="p" data-group-id="0932171108-16">#</span><span class="nc" data-group-id="0932171108-16">Nx.Tensor</span><span class="p" data-group-id="0932171108-16">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="0932171108-17">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0932171108-17">]</span><span class="p" data-group-id="0932171108-18">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0932171108-18">]</span><span class="w">
+  </span><span class="p" data-group-id="0932171108-19">[</span><span class="w">
+    </span><span class="p" data-group-id="0932171108-20">[</span><span class="o">-</span><span class="mf">0.30078125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1435546875</span><span class="p" data-group-id="0932171108-20">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0932171108-21">[</span><span class="mf">0.86328125</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9375</span><span class="p">,</span><span class="w"> </span><span class="mf">2.96875</span><span class="p" data-group-id="0932171108-21">]</span><span class="w">
+  </span><span class="p" data-group-id="0932171108-19">]</span><span class="w">
+</span><span class="p" data-group-id="0932171108-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="relu6/1">
@@ -1050,20 +1050,20 @@ <h1 class="signature" translate="no">relu6(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu6</span><span class="p" data-group-id="6188128304-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6188128304-2">(</span><span class="p" data-group-id="6188128304-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6188128304-3">]</span><span class="p" data-group-id="6188128304-2">)</span><span class="p" data-group-id="6188128304-1">)</span><span class="w">
-</span><span class="p" data-group-id="6188128304-4">#</span><span class="nc" data-group-id="6188128304-4">Nx.Tensor</span><span class="p" data-group-id="6188128304-4">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6188128304-5">[</span><span class="mi">7</span><span class="p" data-group-id="6188128304-5">]</span><span class="w">
-  </span><span class="p" data-group-id="6188128304-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6188128304-6">]</span><span class="w">
-</span><span class="p" data-group-id="6188128304-4">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu6</span><span class="p" data-group-id="6188128304-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6188128304-8">(</span><span class="p" data-group-id="6188128304-9">[</span><span class="p" data-group-id="6188128304-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="6188128304-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6188128304-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6188128304-11">]</span><span class="p" data-group-id="6188128304-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6188128304-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6188128304-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6188128304-13">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="6188128304-13">]</span><span class="p" data-group-id="6188128304-8">)</span><span class="p" data-group-id="6188128304-7">)</span><span class="w">
-</span><span class="p" data-group-id="6188128304-14">#</span><span class="nc" data-group-id="6188128304-14">Nx.Tensor</span><span class="p" data-group-id="6188128304-14">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="6188128304-15">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6188128304-15">]</span><span class="p" data-group-id="6188128304-16">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6188128304-16">]</span><span class="w">
-  </span><span class="p" data-group-id="6188128304-17">[</span><span class="w">
-    </span><span class="p" data-group-id="6188128304-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6188128304-18">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="6188128304-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6188128304-19">]</span><span class="w">
-  </span><span class="p" data-group-id="6188128304-17">]</span><span class="w">
-</span><span class="p" data-group-id="6188128304-14">&gt;</span></code></pre><h2 id="relu6/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu6</span><span class="p" data-group-id="3205637432-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3205637432-2">(</span><span class="p" data-group-id="3205637432-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3205637432-3">]</span><span class="p" data-group-id="3205637432-2">)</span><span class="p" data-group-id="3205637432-1">)</span><span class="w">
+</span><span class="p" data-group-id="3205637432-4">#</span><span class="nc" data-group-id="3205637432-4">Nx.Tensor</span><span class="p" data-group-id="3205637432-4">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3205637432-5">[</span><span class="mi">7</span><span class="p" data-group-id="3205637432-5">]</span><span class="w">
+  </span><span class="p" data-group-id="3205637432-6">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3205637432-6">]</span><span class="w">
+</span><span class="p" data-group-id="3205637432-4">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu6</span><span class="p" data-group-id="3205637432-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3205637432-8">(</span><span class="p" data-group-id="3205637432-9">[</span><span class="p" data-group-id="3205637432-10">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3205637432-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3205637432-11">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3205637432-11">]</span><span class="p" data-group-id="3205637432-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3205637432-12">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3205637432-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3205637432-13">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3205637432-13">]</span><span class="p" data-group-id="3205637432-8">)</span><span class="p" data-group-id="3205637432-7">)</span><span class="w">
+</span><span class="p" data-group-id="3205637432-14">#</span><span class="nc" data-group-id="3205637432-14">Nx.Tensor</span><span class="p" data-group-id="3205637432-14">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="3205637432-15">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3205637432-15">]</span><span class="p" data-group-id="3205637432-16">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3205637432-16">]</span><span class="w">
+  </span><span class="p" data-group-id="3205637432-17">[</span><span class="w">
+    </span><span class="p" data-group-id="3205637432-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3205637432-18">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3205637432-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3205637432-19">]</span><span class="w">
+  </span><span class="p" data-group-id="3205637432-17">]</span><span class="w">
+</span><span class="p" data-group-id="3205637432-14">&gt;</span></code></pre><h2 id="relu6/1-references" class="section-heading">
   <a href="#relu6/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -1099,20 +1099,20 @@ <h1 class="signature" translate="no">relu(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1368876403-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1368876403-2">(</span><span class="p" data-group-id="1368876403-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1368876403-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1368876403-4">[</span><span class="ss">:data</span><span class="p" data-group-id="1368876403-4">]</span><span class="p" data-group-id="1368876403-2">)</span><span class="p" data-group-id="1368876403-1">)</span><span class="w">
-</span><span class="p" data-group-id="1368876403-5">#</span><span class="nc" data-group-id="1368876403-5">Nx.Tensor</span><span class="p" data-group-id="1368876403-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1368876403-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1368876403-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1368876403-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1368876403-7">]</span><span class="w">
-</span><span class="p" data-group-id="1368876403-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1368876403-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1368876403-9">(</span><span class="p" data-group-id="1368876403-10">[</span><span class="p" data-group-id="1368876403-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1368876403-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1368876403-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1368876403-12">]</span><span class="p" data-group-id="1368876403-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1368876403-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1368876403-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1368876403-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1368876403-14">]</span><span class="p" data-group-id="1368876403-9">)</span><span class="p" data-group-id="1368876403-8">)</span><span class="w">
-</span><span class="p" data-group-id="1368876403-15">#</span><span class="nc" data-group-id="1368876403-15">Nx.Tensor</span><span class="p" data-group-id="1368876403-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="1368876403-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1368876403-16">]</span><span class="p" data-group-id="1368876403-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1368876403-17">]</span><span class="w">
-  </span><span class="p" data-group-id="1368876403-18">[</span><span class="w">
-    </span><span class="p" data-group-id="1368876403-19">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1368876403-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1368876403-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1368876403-20">]</span><span class="w">
-  </span><span class="p" data-group-id="1368876403-18">]</span><span class="w">
-</span><span class="p" data-group-id="1368876403-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4372359435-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4372359435-2">(</span><span class="p" data-group-id="4372359435-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4372359435-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4372359435-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4372359435-4">]</span><span class="p" data-group-id="4372359435-2">)</span><span class="p" data-group-id="4372359435-1">)</span><span class="w">
+</span><span class="p" data-group-id="4372359435-5">#</span><span class="nc" data-group-id="4372359435-5">Nx.Tensor</span><span class="p" data-group-id="4372359435-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4372359435-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4372359435-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4372359435-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4372359435-7">]</span><span class="w">
+</span><span class="p" data-group-id="4372359435-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4372359435-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4372359435-9">(</span><span class="p" data-group-id="4372359435-10">[</span><span class="p" data-group-id="4372359435-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4372359435-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4372359435-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4372359435-12">]</span><span class="p" data-group-id="4372359435-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4372359435-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4372359435-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4372359435-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4372359435-14">]</span><span class="p" data-group-id="4372359435-9">)</span><span class="p" data-group-id="4372359435-8">)</span><span class="w">
+</span><span class="p" data-group-id="4372359435-15">#</span><span class="nc" data-group-id="4372359435-15">Nx.Tensor</span><span class="p" data-group-id="4372359435-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="4372359435-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4372359435-16">]</span><span class="p" data-group-id="4372359435-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4372359435-17">]</span><span class="w">
+  </span><span class="p" data-group-id="4372359435-18">[</span><span class="w">
+    </span><span class="p" data-group-id="4372359435-19">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4372359435-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4372359435-20">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4372359435-20">]</span><span class="w">
+  </span><span class="p" data-group-id="4372359435-18">]</span><span class="w">
+</span><span class="p" data-group-id="4372359435-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="selu/2">
@@ -1150,20 +1150,20 @@ <h1 class="signature" translate="no">selu(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">selu</span><span class="p" data-group-id="4114893897-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4114893897-2">(</span><span class="p" data-group-id="4114893897-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4114893897-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4114893897-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4114893897-4">]</span><span class="p" data-group-id="4114893897-2">)</span><span class="p" data-group-id="4114893897-1">)</span><span class="w">
-</span><span class="p" data-group-id="4114893897-5">#</span><span class="nc" data-group-id="4114893897-5">Nx.Tensor</span><span class="p" data-group-id="4114893897-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4114893897-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4114893897-6">]</span><span class="w">
-  </span><span class="p" data-group-id="4114893897-7">[</span><span class="o">-</span><span class="mf">1.670568823814392</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5201665163040161</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.1113307476043701</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0507010221481323</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1014020442962646</span><span class="p">,</span><span class="w"> </span><span class="mf">3.1521029472351074</span><span class="p" data-group-id="4114893897-7">]</span><span class="w">
-</span><span class="p" data-group-id="4114893897-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">selu</span><span class="p" data-group-id="4114893897-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4114893897-9">(</span><span class="p" data-group-id="4114893897-10">[</span><span class="p" data-group-id="4114893897-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4114893897-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4114893897-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4114893897-12">]</span><span class="p" data-group-id="4114893897-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4114893897-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4114893897-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4114893897-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4114893897-14">]</span><span class="p" data-group-id="4114893897-9">)</span><span class="p" data-group-id="4114893897-8">)</span><span class="w">
-</span><span class="p" data-group-id="4114893897-15">#</span><span class="nc" data-group-id="4114893897-15">Nx.Tensor</span><span class="p" data-group-id="4114893897-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="4114893897-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4114893897-16">]</span><span class="p" data-group-id="4114893897-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4114893897-17">]</span><span class="w">
-  </span><span class="p" data-group-id="4114893897-18">[</span><span class="w">
-    </span><span class="p" data-group-id="4114893897-19">[</span><span class="o">-</span><span class="mf">1.09375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5078125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6640625</span><span class="p" data-group-id="4114893897-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4114893897-20">[</span><span class="mf">1.046875</span><span class="p">,</span><span class="w"> </span><span class="mf">2.09375</span><span class="p">,</span><span class="w"> </span><span class="mf">3.140625</span><span class="p" data-group-id="4114893897-20">]</span><span class="w">
-  </span><span class="p" data-group-id="4114893897-18">]</span><span class="w">
-</span><span class="p" data-group-id="4114893897-15">&gt;</span></code></pre><h2 id="selu/2-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">selu</span><span class="p" data-group-id="3190656807-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3190656807-2">(</span><span class="p" data-group-id="3190656807-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3190656807-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3190656807-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3190656807-4">]</span><span class="p" data-group-id="3190656807-2">)</span><span class="p" data-group-id="3190656807-1">)</span><span class="w">
+</span><span class="p" data-group-id="3190656807-5">#</span><span class="nc" data-group-id="3190656807-5">Nx.Tensor</span><span class="p" data-group-id="3190656807-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3190656807-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3190656807-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3190656807-7">[</span><span class="o">-</span><span class="mf">1.670568823814392</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5201665163040161</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.1113307476043701</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0507010221481323</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1014020442962646</span><span class="p">,</span><span class="w"> </span><span class="mf">3.1521029472351074</span><span class="p" data-group-id="3190656807-7">]</span><span class="w">
+</span><span class="p" data-group-id="3190656807-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">selu</span><span class="p" data-group-id="3190656807-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3190656807-9">(</span><span class="p" data-group-id="3190656807-10">[</span><span class="p" data-group-id="3190656807-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3190656807-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3190656807-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3190656807-12">]</span><span class="p" data-group-id="3190656807-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3190656807-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3190656807-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3190656807-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3190656807-14">]</span><span class="p" data-group-id="3190656807-9">)</span><span class="p" data-group-id="3190656807-8">)</span><span class="w">
+</span><span class="p" data-group-id="3190656807-15">#</span><span class="nc" data-group-id="3190656807-15">Nx.Tensor</span><span class="p" data-group-id="3190656807-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="3190656807-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3190656807-16">]</span><span class="p" data-group-id="3190656807-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3190656807-17">]</span><span class="w">
+  </span><span class="p" data-group-id="3190656807-18">[</span><span class="w">
+    </span><span class="p" data-group-id="3190656807-19">[</span><span class="o">-</span><span class="mf">1.09375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5078125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6640625</span><span class="p" data-group-id="3190656807-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3190656807-20">[</span><span class="mf">1.046875</span><span class="p">,</span><span class="w"> </span><span class="mf">2.09375</span><span class="p">,</span><span class="w"> </span><span class="mf">3.140625</span><span class="p" data-group-id="3190656807-20">]</span><span class="w">
+  </span><span class="p" data-group-id="3190656807-18">]</span><span class="w">
+</span><span class="p" data-group-id="3190656807-15">&gt;</span></code></pre><h2 id="selu/2-references" class="section-heading">
   <a href="#selu/2-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -1202,20 +1202,20 @@ <h1 class="signature" translate="no">sigmoid(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="0350204680-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0350204680-2">(</span><span class="p" data-group-id="0350204680-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0350204680-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0350204680-4">[</span><span class="ss">:data</span><span class="p" data-group-id="0350204680-4">]</span><span class="p" data-group-id="0350204680-2">)</span><span class="p" data-group-id="0350204680-1">)</span><span class="w">
-</span><span class="p" data-group-id="0350204680-5">#</span><span class="nc" data-group-id="0350204680-5">Nx.Tensor</span><span class="p" data-group-id="0350204680-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0350204680-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="0350204680-6">]</span><span class="w">
-  </span><span class="p" data-group-id="0350204680-7">[</span><span class="mf">0.04742587357759476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11920291930437088</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2689414322376251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7310585975646973</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8807970881462097</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9525741338729858</span><span class="p" data-group-id="0350204680-7">]</span><span class="w">
-</span><span class="p" data-group-id="0350204680-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="0350204680-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0350204680-9">(</span><span class="p" data-group-id="0350204680-10">[</span><span class="p" data-group-id="0350204680-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0350204680-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0350204680-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0350204680-12">]</span><span class="p" data-group-id="0350204680-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0350204680-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0350204680-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0350204680-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0350204680-14">]</span><span class="p" data-group-id="0350204680-9">)</span><span class="p" data-group-id="0350204680-8">)</span><span class="w">
-</span><span class="p" data-group-id="0350204680-15">#</span><span class="nc" data-group-id="0350204680-15">Nx.Tensor</span><span class="p" data-group-id="0350204680-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="0350204680-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0350204680-16">]</span><span class="p" data-group-id="0350204680-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0350204680-17">]</span><span class="w">
-  </span><span class="p" data-group-id="0350204680-18">[</span><span class="w">
-    </span><span class="p" data-group-id="0350204680-19">[</span><span class="mf">0.267578125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.119140625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04736328125</span><span class="p" data-group-id="0350204680-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="0350204680-20">[</span><span class="mf">0.73046875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.87890625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.94921875</span><span class="p" data-group-id="0350204680-20">]</span><span class="w">
-  </span><span class="p" data-group-id="0350204680-18">]</span><span class="w">
-</span><span class="p" data-group-id="0350204680-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="8929638734-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8929638734-2">(</span><span class="p" data-group-id="8929638734-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8929638734-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8929638734-4">[</span><span class="ss">:data</span><span class="p" data-group-id="8929638734-4">]</span><span class="p" data-group-id="8929638734-2">)</span><span class="p" data-group-id="8929638734-1">)</span><span class="w">
+</span><span class="p" data-group-id="8929638734-5">#</span><span class="nc" data-group-id="8929638734-5">Nx.Tensor</span><span class="p" data-group-id="8929638734-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8929638734-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="8929638734-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8929638734-7">[</span><span class="mf">0.04742587357759476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11920291930437088</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2689414322376251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7310585975646973</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8807970881462097</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9525741338729858</span><span class="p" data-group-id="8929638734-7">]</span><span class="w">
+</span><span class="p" data-group-id="8929638734-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="8929638734-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8929638734-9">(</span><span class="p" data-group-id="8929638734-10">[</span><span class="p" data-group-id="8929638734-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="8929638734-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8929638734-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="8929638734-12">]</span><span class="p" data-group-id="8929638734-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8929638734-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8929638734-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8929638734-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="8929638734-14">]</span><span class="p" data-group-id="8929638734-9">)</span><span class="p" data-group-id="8929638734-8">)</span><span class="w">
+</span><span class="p" data-group-id="8929638734-15">#</span><span class="nc" data-group-id="8929638734-15">Nx.Tensor</span><span class="p" data-group-id="8929638734-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="8929638734-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8929638734-16">]</span><span class="p" data-group-id="8929638734-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8929638734-17">]</span><span class="w">
+  </span><span class="p" data-group-id="8929638734-18">[</span><span class="w">
+    </span><span class="p" data-group-id="8929638734-19">[</span><span class="mf">0.267578125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.119140625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04736328125</span><span class="p" data-group-id="8929638734-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8929638734-20">[</span><span class="mf">0.73046875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.87890625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.94921875</span><span class="p" data-group-id="8929638734-20">]</span><span class="w">
+  </span><span class="p" data-group-id="8929638734-18">]</span><span class="w">
+</span><span class="p" data-group-id="8929638734-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="silu/1">
@@ -1245,20 +1245,20 @@ <h1 class="signature" translate="no">silu(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">silu</span><span class="p" data-group-id="1014286389-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1014286389-2">(</span><span class="p" data-group-id="1014286389-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1014286389-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1014286389-4">[</span><span class="ss">:data</span><span class="p" data-group-id="1014286389-4">]</span><span class="p" data-group-id="1014286389-2">)</span><span class="p" data-group-id="1014286389-1">)</span><span class="w">
-</span><span class="p" data-group-id="1014286389-5">#</span><span class="nc" data-group-id="1014286389-5">Nx.Tensor</span><span class="p" data-group-id="1014286389-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1014286389-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1014286389-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1014286389-7">[</span><span class="o">-</span><span class="mf">0.14227762818336487</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23840583860874176</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2689414322376251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7310585975646973</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">2.857722282409668</span><span class="p" data-group-id="1014286389-7">]</span><span class="w">
-</span><span class="p" data-group-id="1014286389-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">silu</span><span class="p" data-group-id="1014286389-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1014286389-9">(</span><span class="p" data-group-id="1014286389-10">[</span><span class="p" data-group-id="1014286389-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1014286389-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1014286389-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1014286389-12">]</span><span class="p" data-group-id="1014286389-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1014286389-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1014286389-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1014286389-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1014286389-14">]</span><span class="p" data-group-id="1014286389-9">)</span><span class="p" data-group-id="1014286389-8">)</span><span class="w">
-</span><span class="p" data-group-id="1014286389-15">#</span><span class="nc" data-group-id="1014286389-15">Nx.Tensor</span><span class="p" data-group-id="1014286389-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="1014286389-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1014286389-16">]</span><span class="p" data-group-id="1014286389-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1014286389-17">]</span><span class="w">
-  </span><span class="p" data-group-id="1014286389-18">[</span><span class="w">
-    </span><span class="p" data-group-id="1014286389-19">[</span><span class="o">-</span><span class="mf">0.267578125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23828125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1416015625</span><span class="p" data-group-id="1014286389-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1014286389-20">[</span><span class="mf">0.73046875</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7578125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.84375</span><span class="p" data-group-id="1014286389-20">]</span><span class="w">
-  </span><span class="p" data-group-id="1014286389-18">]</span><span class="w">
-</span><span class="p" data-group-id="1014286389-15">&gt;</span></code></pre><h2 id="silu/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">silu</span><span class="p" data-group-id="1115658587-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1115658587-2">(</span><span class="p" data-group-id="1115658587-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1115658587-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1115658587-4">[</span><span class="ss">:data</span><span class="p" data-group-id="1115658587-4">]</span><span class="p" data-group-id="1115658587-2">)</span><span class="p" data-group-id="1115658587-1">)</span><span class="w">
+</span><span class="p" data-group-id="1115658587-5">#</span><span class="nc" data-group-id="1115658587-5">Nx.Tensor</span><span class="p" data-group-id="1115658587-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1115658587-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1115658587-6">]</span><span class="w">
+  </span><span class="p" data-group-id="1115658587-7">[</span><span class="o">-</span><span class="mf">0.14227762818336487</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23840583860874176</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2689414322376251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7310585975646973</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">2.857722282409668</span><span class="p" data-group-id="1115658587-7">]</span><span class="w">
+</span><span class="p" data-group-id="1115658587-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">silu</span><span class="p" data-group-id="1115658587-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1115658587-9">(</span><span class="p" data-group-id="1115658587-10">[</span><span class="p" data-group-id="1115658587-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1115658587-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1115658587-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1115658587-12">]</span><span class="p" data-group-id="1115658587-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1115658587-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1115658587-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1115658587-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1115658587-14">]</span><span class="p" data-group-id="1115658587-9">)</span><span class="p" data-group-id="1115658587-8">)</span><span class="w">
+</span><span class="p" data-group-id="1115658587-15">#</span><span class="nc" data-group-id="1115658587-15">Nx.Tensor</span><span class="p" data-group-id="1115658587-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="1115658587-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1115658587-16">]</span><span class="p" data-group-id="1115658587-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1115658587-17">]</span><span class="w">
+  </span><span class="p" data-group-id="1115658587-18">[</span><span class="w">
+    </span><span class="p" data-group-id="1115658587-19">[</span><span class="o">-</span><span class="mf">0.267578125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23828125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1416015625</span><span class="p" data-group-id="1115658587-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1115658587-20">[</span><span class="mf">0.73046875</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7578125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.84375</span><span class="p" data-group-id="1115658587-20">]</span><span class="w">
+  </span><span class="p" data-group-id="1115658587-18">]</span><span class="w">
+</span><span class="p" data-group-id="1115658587-15">&gt;</span></code></pre><h2 id="silu/1-references" class="section-heading">
   <a href="#silu/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -1306,22 +1306,22 @@ <h1 class="signature" translate="no">softmax(x, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="5201360681-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5201360681-2">(</span><span class="p" data-group-id="5201360681-3">[</span><span class="p" data-group-id="5201360681-4">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5201360681-4">]</span><span class="p" data-group-id="5201360681-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5201360681-5">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5201360681-5">]</span><span class="p" data-group-id="5201360681-2">)</span><span class="p" data-group-id="5201360681-1">)</span><span class="w">
-</span><span class="p" data-group-id="5201360681-6">#</span><span class="nc" data-group-id="5201360681-6">Nx.Tensor</span><span class="p" data-group-id="5201360681-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5201360681-7">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5201360681-7">]</span><span class="p" data-group-id="5201360681-8">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="5201360681-8">]</span><span class="w">
-  </span><span class="p" data-group-id="5201360681-9">[</span><span class="w">
-    </span><span class="p" data-group-id="5201360681-10">[</span><span class="mf">0.0015683004166930914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.004263082519173622</span><span class="p">,</span><span class="w"> </span><span class="mf">0.011588259600102901</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03150015324354172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08562629669904709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23275642096996307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6326975226402283</span><span class="p" data-group-id="5201360681-10">]</span><span class="w">
-  </span><span class="p" data-group-id="5201360681-9">]</span><span class="w">
-</span><span class="p" data-group-id="5201360681-6">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="5201360681-11">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5201360681-12">(</span><span class="p" data-group-id="5201360681-13">[</span><span class="p" data-group-id="5201360681-14">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="5201360681-14">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5201360681-15">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5201360681-15">]</span><span class="p" data-group-id="5201360681-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5201360681-16">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5201360681-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5201360681-17">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="5201360681-17">]</span><span class="p" data-group-id="5201360681-12">)</span><span class="p" data-group-id="5201360681-11">)</span><span class="w">
-</span><span class="p" data-group-id="5201360681-18">#</span><span class="nc" data-group-id="5201360681-18">Nx.Tensor</span><span class="p" data-group-id="5201360681-18">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="5201360681-19">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5201360681-19">]</span><span class="p" data-group-id="5201360681-20">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5201360681-20">]</span><span class="w">
-  </span><span class="p" data-group-id="5201360681-21">[</span><span class="w">
-    </span><span class="p" data-group-id="5201360681-22">[</span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2431640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08935546875</span><span class="p" data-group-id="5201360681-22">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5201360681-23">[</span><span class="mf">0.08935546875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2431640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6640625</span><span class="p" data-group-id="5201360681-23">]</span><span class="w">
-  </span><span class="p" data-group-id="5201360681-21">]</span><span class="w">
-</span><span class="p" data-group-id="5201360681-18">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="6072272643-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6072272643-2">(</span><span class="p" data-group-id="6072272643-3">[</span><span class="p" data-group-id="6072272643-4">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6072272643-4">]</span><span class="p" data-group-id="6072272643-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6072272643-5">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="6072272643-5">]</span><span class="p" data-group-id="6072272643-2">)</span><span class="p" data-group-id="6072272643-1">)</span><span class="w">
+</span><span class="p" data-group-id="6072272643-6">#</span><span class="nc" data-group-id="6072272643-6">Nx.Tensor</span><span class="p" data-group-id="6072272643-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6072272643-7">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6072272643-7">]</span><span class="p" data-group-id="6072272643-8">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="6072272643-8">]</span><span class="w">
+  </span><span class="p" data-group-id="6072272643-9">[</span><span class="w">
+    </span><span class="p" data-group-id="6072272643-10">[</span><span class="mf">0.0015683004166930914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.004263082519173622</span><span class="p">,</span><span class="w"> </span><span class="mf">0.011588259600102901</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03150015324354172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08562629669904709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23275642096996307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6326975226402283</span><span class="p" data-group-id="6072272643-10">]</span><span class="w">
+  </span><span class="p" data-group-id="6072272643-9">]</span><span class="w">
+</span><span class="p" data-group-id="6072272643-6">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="6072272643-11">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6072272643-12">(</span><span class="p" data-group-id="6072272643-13">[</span><span class="p" data-group-id="6072272643-14">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="6072272643-14">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6072272643-15">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6072272643-15">]</span><span class="p" data-group-id="6072272643-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6072272643-16">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6072272643-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6072272643-17">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="6072272643-17">]</span><span class="p" data-group-id="6072272643-12">)</span><span class="p" data-group-id="6072272643-11">)</span><span class="w">
+</span><span class="p" data-group-id="6072272643-18">#</span><span class="nc" data-group-id="6072272643-18">Nx.Tensor</span><span class="p" data-group-id="6072272643-18">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="6072272643-19">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6072272643-19">]</span><span class="p" data-group-id="6072272643-20">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6072272643-20">]</span><span class="w">
+  </span><span class="p" data-group-id="6072272643-21">[</span><span class="w">
+    </span><span class="p" data-group-id="6072272643-22">[</span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2431640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08935546875</span><span class="p" data-group-id="6072272643-22">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6072272643-23">[</span><span class="mf">0.08935546875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2431640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6640625</span><span class="p" data-group-id="6072272643-23">]</span><span class="w">
+  </span><span class="p" data-group-id="6072272643-21">]</span><span class="w">
+</span><span class="p" data-group-id="6072272643-18">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="softplus/1">
@@ -1351,20 +1351,20 @@ <h1 class="signature" translate="no">softplus(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softplus</span><span class="p" data-group-id="4549230419-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4549230419-2">(</span><span class="p" data-group-id="4549230419-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4549230419-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4549230419-4">[</span><span class="ss">:data</span><span class="p" data-group-id="4549230419-4">]</span><span class="p" data-group-id="4549230419-2">)</span><span class="p" data-group-id="4549230419-1">)</span><span class="w">
-</span><span class="p" data-group-id="4549230419-5">#</span><span class="nc" data-group-id="4549230419-5">Nx.Tensor</span><span class="p" data-group-id="4549230419-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4549230419-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="4549230419-6">]</span><span class="w">
-  </span><span class="p" data-group-id="4549230419-7">[</span><span class="mf">0.04858734831213951</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12692801654338837</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3132616877555847</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6931471824645996</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3132617473602295</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1269280910491943</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0485873222351074</span><span class="p" data-group-id="4549230419-7">]</span><span class="w">
-</span><span class="p" data-group-id="4549230419-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softplus</span><span class="p" data-group-id="4549230419-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4549230419-9">(</span><span class="p" data-group-id="4549230419-10">[</span><span class="p" data-group-id="4549230419-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="4549230419-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4549230419-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="4549230419-12">]</span><span class="p" data-group-id="4549230419-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4549230419-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4549230419-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4549230419-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="4549230419-14">]</span><span class="p" data-group-id="4549230419-9">)</span><span class="p" data-group-id="4549230419-8">)</span><span class="w">
-</span><span class="p" data-group-id="4549230419-15">#</span><span class="nc" data-group-id="4549230419-15">Nx.Tensor</span><span class="p" data-group-id="4549230419-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="4549230419-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4549230419-16">]</span><span class="p" data-group-id="4549230419-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4549230419-17">]</span><span class="w">
-  </span><span class="p" data-group-id="4549230419-18">[</span><span class="w">
-    </span><span class="p" data-group-id="4549230419-19">[</span><span class="mf">0.3125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1259765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04833984375</span><span class="p" data-group-id="4549230419-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4549230419-20">[</span><span class="mf">1.3125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.125</span><span class="p">,</span><span class="w"> </span><span class="mf">3.046875</span><span class="p" data-group-id="4549230419-20">]</span><span class="w">
-  </span><span class="p" data-group-id="4549230419-18">]</span><span class="w">
-</span><span class="p" data-group-id="4549230419-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softplus</span><span class="p" data-group-id="7638802364-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7638802364-2">(</span><span class="p" data-group-id="7638802364-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7638802364-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7638802364-4">[</span><span class="ss">:data</span><span class="p" data-group-id="7638802364-4">]</span><span class="p" data-group-id="7638802364-2">)</span><span class="p" data-group-id="7638802364-1">)</span><span class="w">
+</span><span class="p" data-group-id="7638802364-5">#</span><span class="nc" data-group-id="7638802364-5">Nx.Tensor</span><span class="p" data-group-id="7638802364-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7638802364-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="7638802364-6">]</span><span class="w">
+  </span><span class="p" data-group-id="7638802364-7">[</span><span class="mf">0.04858734831213951</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12692801654338837</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3132616877555847</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6931471824645996</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3132617473602295</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1269280910491943</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0485873222351074</span><span class="p" data-group-id="7638802364-7">]</span><span class="w">
+</span><span class="p" data-group-id="7638802364-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softplus</span><span class="p" data-group-id="7638802364-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7638802364-9">(</span><span class="p" data-group-id="7638802364-10">[</span><span class="p" data-group-id="7638802364-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="7638802364-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7638802364-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7638802364-12">]</span><span class="p" data-group-id="7638802364-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7638802364-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7638802364-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7638802364-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="7638802364-14">]</span><span class="p" data-group-id="7638802364-9">)</span><span class="p" data-group-id="7638802364-8">)</span><span class="w">
+</span><span class="p" data-group-id="7638802364-15">#</span><span class="nc" data-group-id="7638802364-15">Nx.Tensor</span><span class="p" data-group-id="7638802364-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="7638802364-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7638802364-16">]</span><span class="p" data-group-id="7638802364-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7638802364-17">]</span><span class="w">
+  </span><span class="p" data-group-id="7638802364-18">[</span><span class="w">
+    </span><span class="p" data-group-id="7638802364-19">[</span><span class="mf">0.3125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1259765625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04833984375</span><span class="p" data-group-id="7638802364-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="7638802364-20">[</span><span class="mf">1.3125</span><span class="p">,</span><span class="w"> </span><span class="mf">2.125</span><span class="p">,</span><span class="w"> </span><span class="mf">3.046875</span><span class="p" data-group-id="7638802364-20">]</span><span class="w">
+  </span><span class="p" data-group-id="7638802364-18">]</span><span class="w">
+</span><span class="p" data-group-id="7638802364-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="softsign/1">
@@ -1394,20 +1394,20 @@ <h1 class="signature" translate="no">softsign(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softsign</span><span class="p" data-group-id="1263847388-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1263847388-2">(</span><span class="p" data-group-id="1263847388-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1263847388-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1263847388-4">[</span><span class="ss">:data</span><span class="p" data-group-id="1263847388-4">]</span><span class="p" data-group-id="1263847388-2">)</span><span class="p" data-group-id="1263847388-1">)</span><span class="w">
-</span><span class="p" data-group-id="1263847388-5">#</span><span class="nc" data-group-id="1263847388-5">Nx.Tensor</span><span class="p" data-group-id="1263847388-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1263847388-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="1263847388-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1263847388-7">[</span><span class="o">-</span><span class="mf">0.75</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6666666865348816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6666666865348816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.75</span><span class="p" data-group-id="1263847388-7">]</span><span class="w">
-</span><span class="p" data-group-id="1263847388-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softsign</span><span class="p" data-group-id="1263847388-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1263847388-9">(</span><span class="p" data-group-id="1263847388-10">[</span><span class="p" data-group-id="1263847388-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="1263847388-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1263847388-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1263847388-12">]</span><span class="p" data-group-id="1263847388-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1263847388-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1263847388-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1263847388-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="1263847388-14">]</span><span class="p" data-group-id="1263847388-9">)</span><span class="p" data-group-id="1263847388-8">)</span><span class="w">
-</span><span class="p" data-group-id="1263847388-15">#</span><span class="nc" data-group-id="1263847388-15">Nx.Tensor</span><span class="p" data-group-id="1263847388-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="1263847388-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1263847388-16">]</span><span class="p" data-group-id="1263847388-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1263847388-17">]</span><span class="w">
-  </span><span class="p" data-group-id="1263847388-18">[</span><span class="w">
-    </span><span class="p" data-group-id="1263847388-19">[</span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.75</span><span class="p" data-group-id="1263847388-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1263847388-20">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.75</span><span class="p" data-group-id="1263847388-20">]</span><span class="w">
-  </span><span class="p" data-group-id="1263847388-18">]</span><span class="w">
-</span><span class="p" data-group-id="1263847388-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softsign</span><span class="p" data-group-id="2023179152-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2023179152-2">(</span><span class="p" data-group-id="2023179152-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2023179152-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023179152-4">[</span><span class="ss">:data</span><span class="p" data-group-id="2023179152-4">]</span><span class="p" data-group-id="2023179152-2">)</span><span class="p" data-group-id="2023179152-1">)</span><span class="w">
+</span><span class="p" data-group-id="2023179152-5">#</span><span class="nc" data-group-id="2023179152-5">Nx.Tensor</span><span class="p" data-group-id="2023179152-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2023179152-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="2023179152-6">]</span><span class="w">
+  </span><span class="p" data-group-id="2023179152-7">[</span><span class="o">-</span><span class="mf">0.75</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6666666865348816</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6666666865348816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.75</span><span class="p" data-group-id="2023179152-7">]</span><span class="w">
+</span><span class="p" data-group-id="2023179152-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">softsign</span><span class="p" data-group-id="2023179152-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2023179152-9">(</span><span class="p" data-group-id="2023179152-10">[</span><span class="p" data-group-id="2023179152-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="2023179152-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2023179152-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="2023179152-12">]</span><span class="p" data-group-id="2023179152-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023179152-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2023179152-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2023179152-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="2023179152-14">]</span><span class="p" data-group-id="2023179152-9">)</span><span class="p" data-group-id="2023179152-8">)</span><span class="w">
+</span><span class="p" data-group-id="2023179152-15">#</span><span class="nc" data-group-id="2023179152-15">Nx.Tensor</span><span class="p" data-group-id="2023179152-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="2023179152-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2023179152-16">]</span><span class="p" data-group-id="2023179152-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2023179152-17">]</span><span class="w">
+  </span><span class="p" data-group-id="2023179152-18">[</span><span class="w">
+    </span><span class="p" data-group-id="2023179152-19">[</span><span class="o">-</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.75</span><span class="p" data-group-id="2023179152-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2023179152-20">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6640625</span><span class="p">,</span><span class="w"> </span><span class="mf">0.75</span><span class="p" data-group-id="2023179152-20">]</span><span class="w">
+  </span><span class="p" data-group-id="2023179152-18">]</span><span class="w">
+</span><span class="p" data-group-id="2023179152-15">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="tanh/1">
@@ -1437,20 +1437,20 @@ <h1 class="signature" translate="no">tanh(x)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="3562611273-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3562611273-2">(</span><span class="p" data-group-id="3562611273-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3562611273-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3562611273-4">[</span><span class="ss">:data</span><span class="p" data-group-id="3562611273-4">]</span><span class="p" data-group-id="3562611273-2">)</span><span class="p" data-group-id="3562611273-1">)</span><span class="w">
-</span><span class="p" data-group-id="3562611273-5">#</span><span class="nc" data-group-id="3562611273-5">Nx.Tensor</span><span class="p" data-group-id="3562611273-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3562611273-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="3562611273-6">]</span><span class="w">
-  </span><span class="p" data-group-id="3562611273-7">[</span><span class="o">-</span><span class="mf">0.9950547814369202</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9640275835990906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9640275835990906</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9950547814369202</span><span class="p" data-group-id="3562611273-7">]</span><span class="w">
-</span><span class="p" data-group-id="3562611273-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="3562611273-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3562611273-9">(</span><span class="p" data-group-id="3562611273-10">[</span><span class="p" data-group-id="3562611273-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="3562611273-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3562611273-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3562611273-12">]</span><span class="p" data-group-id="3562611273-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3562611273-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3562611273-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3562611273-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="3562611273-14">]</span><span class="p" data-group-id="3562611273-9">)</span><span class="p" data-group-id="3562611273-8">)</span><span class="w">
-</span><span class="p" data-group-id="3562611273-15">#</span><span class="nc" data-group-id="3562611273-15">Nx.Tensor</span><span class="p" data-group-id="3562611273-15">&lt;</span><span class="w">
-  </span><span class="n">bf16</span><span class="p" data-group-id="3562611273-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3562611273-16">]</span><span class="p" data-group-id="3562611273-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3562611273-17">]</span><span class="w">
-  </span><span class="p" data-group-id="3562611273-18">[</span><span class="w">
-    </span><span class="p" data-group-id="3562611273-19">[</span><span class="o">-</span><span class="mf">0.7578125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9609375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9921875</span><span class="p" data-group-id="3562611273-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3562611273-20">[</span><span class="mf">0.7578125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9609375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9921875</span><span class="p" data-group-id="3562611273-20">]</span><span class="w">
-  </span><span class="p" data-group-id="3562611273-18">]</span><span class="w">
-</span><span class="p" data-group-id="3562611273-15">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="0627420854-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0627420854-2">(</span><span class="p" data-group-id="0627420854-3">[</span><span class="o">-</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0627420854-3">]</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0627420854-4">[</span><span class="ss">:data</span><span class="p" data-group-id="0627420854-4">]</span><span class="p" data-group-id="0627420854-2">)</span><span class="p" data-group-id="0627420854-1">)</span><span class="w">
+</span><span class="p" data-group-id="0627420854-5">#</span><span class="nc" data-group-id="0627420854-5">Nx.Tensor</span><span class="p" data-group-id="0627420854-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0627420854-6">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="p" data-group-id="0627420854-6">]</span><span class="w">
+  </span><span class="p" data-group-id="0627420854-7">[</span><span class="o">-</span><span class="mf">0.9950547814369202</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9640275835990906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7615941762924194</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9640275835990906</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9950547814369202</span><span class="p" data-group-id="0627420854-7">]</span><span class="w">
+</span><span class="p" data-group-id="0627420854-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Activations</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="0627420854-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0627420854-9">(</span><span class="p" data-group-id="0627420854-10">[</span><span class="p" data-group-id="0627420854-11">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0</span><span class="p" data-group-id="0627420854-11">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0627420854-12">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0627420854-12">]</span><span class="p" data-group-id="0627420854-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0627420854-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0627420854-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0627420854-14">[</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="ss">:data</span><span class="p" data-group-id="0627420854-14">]</span><span class="p" data-group-id="0627420854-9">)</span><span class="p" data-group-id="0627420854-8">)</span><span class="w">
+</span><span class="p" data-group-id="0627420854-15">#</span><span class="nc" data-group-id="0627420854-15">Nx.Tensor</span><span class="p" data-group-id="0627420854-15">&lt;</span><span class="w">
+  </span><span class="n">bf16</span><span class="p" data-group-id="0627420854-16">[</span><span class="ss">batch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0627420854-16">]</span><span class="p" data-group-id="0627420854-17">[</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0627420854-17">]</span><span class="w">
+  </span><span class="p" data-group-id="0627420854-18">[</span><span class="w">
+    </span><span class="p" data-group-id="0627420854-19">[</span><span class="o">-</span><span class="mf">0.7578125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9609375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9921875</span><span class="p" data-group-id="0627420854-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0627420854-20">[</span><span class="mf">0.7578125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9609375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9921875</span><span class="p" data-group-id="0627420854-20">]</span><span class="w">
+  </span><span class="p" data-group-id="0627420854-18">]</span><span class="w">
+</span><span class="p" data-group-id="0627420854-15">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.CompileError.html b/Axon.CompileError.html
index 9cc731ec..71287577 100644
--- a/Axon.CompileError.html
+++ b/Axon.CompileError.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
diff --git a/Axon.Display.html b/Axon.Display.html
index 9bc6df8f..6f636321 100644
--- a/Axon.Display.html
+++ b/Axon.Display.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -220,7 +220,7 @@ <h1 class="signature" translate="no">as_graph(axon, input_templates, opts \\ [])
   </a>
   <span class="text">Examples</span>
 </h2>
-<p>Given an Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8506665914-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="8506665914-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8506665914-2">(</span><span class="mi">32</span><span class="p" data-group-id="8506665914-2">)</span></code></pre><p>You can define input templates for each input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5283265791-1">(</span><span class="p" data-group-id="5283265791-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5283265791-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5283265791-1">)</span></code></pre><p>And then display the execution flow of the model:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="0364734384-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="ss">direction</span><span class="p">:</span><span class="w"> </span><span class="ss">:top_down</span><span class="p" data-group-id="0364734384-1">)</span></code></pre>
+<p>Given an Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0854883449-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="0854883449-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0854883449-2">(</span><span class="mi">32</span><span class="p" data-group-id="0854883449-2">)</span></code></pre><p>You can define input templates for each input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1017145506-1">(</span><span class="p" data-group-id="1017145506-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1017145506-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1017145506-1">)</span></code></pre><p>And then display the execution flow of the model:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="5230457773-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="ss">direction</span><span class="p">:</span><span class="w"> </span><span class="ss">:top_down</span><span class="p" data-group-id="5230457773-1">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="as_table/2">
@@ -250,7 +250,7 @@ <h1 class="signature" translate="no">as_table(axon, input_templates)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<p>Given an Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0316935806-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="0316935806-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0316935806-2">(</span><span class="mi">32</span><span class="p" data-group-id="0316935806-2">)</span></code></pre><p>You can define input templates for each input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0537520336-1">(</span><span class="p" data-group-id="0537520336-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0537520336-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0537520336-1">)</span></code></pre><p>And then display the execution flow of the model:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="0851892068-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="0851892068-1">)</span></code></pre>
+<p>Given an Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7816453294-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="7816453294-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7816453294-2">(</span><span class="mi">32</span><span class="p" data-group-id="7816453294-2">)</span></code></pre><p>You can define input templates for each input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3701115532-1">(</span><span class="p" data-group-id="3701115532-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3701115532-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3701115532-1">)</span></code></pre><p>And then display the execution flow of the model:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="8135506593-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8135506593-1">)</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.Initializers.html b/Axon.Initializers.html
index fcf388cd..16bfc1bc 100644
--- a/Axon.Initializers.html
+++ b/Axon.Initializers.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -153,8 +153,8 @@ <h1>
 small enough to avoid exploding values. The initializers in
 this module have a default scale known to work well with
 the initialization strategy.</p><p>The functions in this module return initialization functions which
-take shapes and types and return tensors:</p><pre><code class="makeup elixir" translate="no"><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">zeros</span><span class="p" data-group-id="8682465646-1">(</span><span class="p" data-group-id="8682465646-1">)</span><span class="w">
-</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8682465646-2">(</span><span class="p" data-group-id="8682465646-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8682465646-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8682465646-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8682465646-4">}</span><span class="p" data-group-id="8682465646-2">)</span></code></pre><p>You may use these functions from within <code class="inline">defn</code> or outside.</p>
+take shapes and types and return tensors:</p><pre><code class="makeup elixir" translate="no"><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">zeros</span><span class="p" data-group-id="2361419793-1">(</span><span class="p" data-group-id="2361419793-1">)</span><span class="w">
+</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2361419793-2">(</span><span class="p" data-group-id="2361419793-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2361419793-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2361419793-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2361419793-4">}</span><span class="p" data-group-id="2361419793-2">)</span></code></pre><p>You may use these functions from within <code class="inline">defn</code> or outside.</p>
   </section>
 
 
@@ -349,16 +349,16 @@ <h1 class="signature" translate="no">full(value)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">full</span><span class="p" data-group-id="7103230765-1">(</span><span class="mf">1.00</span><span class="p" data-group-id="7103230765-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7103230765-2">(</span><span class="p" data-group-id="7103230765-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7103230765-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7103230765-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7103230765-4">}</span><span class="p" data-group-id="7103230765-2">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">full</span><span class="p" data-group-id="0301242679-1">(</span><span class="mf">1.00</span><span class="p" data-group-id="0301242679-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0301242679-2">(</span><span class="p" data-group-id="0301242679-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0301242679-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0301242679-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0301242679-4">}</span><span class="p" data-group-id="0301242679-2">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w">
-</span><span class="p" data-group-id="7103230765-5">#</span><span class="nc" data-group-id="7103230765-5">Nx.Tensor</span><span class="p" data-group-id="7103230765-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7103230765-6">[</span><span class="mi">2</span><span class="p" data-group-id="7103230765-6">]</span><span class="p" data-group-id="7103230765-7">[</span><span class="mi">2</span><span class="p" data-group-id="7103230765-7">]</span><span class="w">
-  </span><span class="p" data-group-id="7103230765-8">[</span><span class="w">
-    </span><span class="p" data-group-id="7103230765-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7103230765-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7103230765-10">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7103230765-10">]</span><span class="w">
-  </span><span class="p" data-group-id="7103230765-8">]</span><span class="w">
-</span><span class="p" data-group-id="7103230765-5">&gt;</span></code></pre>
+</span><span class="p" data-group-id="0301242679-5">#</span><span class="nc" data-group-id="0301242679-5">Nx.Tensor</span><span class="p" data-group-id="0301242679-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0301242679-6">[</span><span class="mi">2</span><span class="p" data-group-id="0301242679-6">]</span><span class="p" data-group-id="0301242679-7">[</span><span class="mi">2</span><span class="p" data-group-id="0301242679-7">]</span><span class="w">
+  </span><span class="p" data-group-id="0301242679-8">[</span><span class="w">
+    </span><span class="p" data-group-id="0301242679-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0301242679-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0301242679-10">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0301242679-10">]</span><span class="w">
+  </span><span class="p" data-group-id="0301242679-8">]</span><span class="w">
+</span><span class="p" data-group-id="0301242679-5">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="glorot_normal/1">
@@ -397,19 +397,19 @@ <h1 class="signature" translate="no">glorot_normal(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_normal</span><span class="p" data-group-id="1691764143-1">(</span><span class="p" data-group-id="1691764143-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1691764143-2">(</span><span class="p" data-group-id="1691764143-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1691764143-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1691764143-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1691764143-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1691764143-5">(</span><span class="mi">1</span><span class="p" data-group-id="1691764143-5">)</span><span class="p" data-group-id="1691764143-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1691764143-6">(</span><span class="n">t</span><span class="p" data-group-id="1691764143-6">)</span><span class="w">
-</span><span class="p" data-group-id="1691764143-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1691764143-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1691764143-8">(</span><span class="n">t</span><span class="p" data-group-id="1691764143-8">)</span><span class="w">
-</span><span class="p" data-group-id="1691764143-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1691764143-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_normal</span><span class="p" data-group-id="1691764143-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="1691764143-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1691764143-11">(</span><span class="p" data-group-id="1691764143-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1691764143-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1691764143-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1691764143-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1691764143-14">(</span><span class="mi">1</span><span class="p" data-group-id="1691764143-14">)</span><span class="p" data-group-id="1691764143-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1691764143-15">(</span><span class="n">t</span><span class="p" data-group-id="1691764143-15">)</span><span class="w">
-</span><span class="p" data-group-id="1691764143-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1691764143-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1691764143-17">(</span><span class="n">t</span><span class="p" data-group-id="1691764143-17">)</span><span class="w">
-</span><span class="p" data-group-id="1691764143-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1691764143-18">}</span></code></pre><h2 id="glorot_normal/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_normal</span><span class="p" data-group-id="1584164795-1">(</span><span class="p" data-group-id="1584164795-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1584164795-2">(</span><span class="p" data-group-id="1584164795-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1584164795-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1584164795-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1584164795-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1584164795-5">(</span><span class="mi">1</span><span class="p" data-group-id="1584164795-5">)</span><span class="p" data-group-id="1584164795-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1584164795-6">(</span><span class="n">t</span><span class="p" data-group-id="1584164795-6">)</span><span class="w">
+</span><span class="p" data-group-id="1584164795-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1584164795-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1584164795-8">(</span><span class="n">t</span><span class="p" data-group-id="1584164795-8">)</span><span class="w">
+</span><span class="p" data-group-id="1584164795-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1584164795-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_normal</span><span class="p" data-group-id="1584164795-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="1584164795-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1584164795-11">(</span><span class="p" data-group-id="1584164795-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1584164795-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1584164795-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1584164795-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1584164795-14">(</span><span class="mi">1</span><span class="p" data-group-id="1584164795-14">)</span><span class="p" data-group-id="1584164795-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1584164795-15">(</span><span class="n">t</span><span class="p" data-group-id="1584164795-15">)</span><span class="w">
+</span><span class="p" data-group-id="1584164795-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1584164795-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1584164795-17">(</span><span class="n">t</span><span class="p" data-group-id="1584164795-17">)</span><span class="w">
+</span><span class="p" data-group-id="1584164795-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1584164795-18">}</span></code></pre><h2 id="glorot_normal/1-references" class="section-heading">
   <a href="#glorot_normal/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -454,19 +454,19 @@ <h1 class="signature" translate="no">glorot_uniform(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_uniform</span><span class="p" data-group-id="5702731998-1">(</span><span class="p" data-group-id="5702731998-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5702731998-2">(</span><span class="p" data-group-id="5702731998-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5702731998-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5702731998-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5702731998-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="5702731998-5">(</span><span class="mi">1</span><span class="p" data-group-id="5702731998-5">)</span><span class="p" data-group-id="5702731998-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5702731998-6">(</span><span class="n">t</span><span class="p" data-group-id="5702731998-6">)</span><span class="w">
-</span><span class="p" data-group-id="5702731998-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5702731998-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="5702731998-8">(</span><span class="n">t</span><span class="p" data-group-id="5702731998-8">)</span><span class="w">
-</span><span class="p" data-group-id="5702731998-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5702731998-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_uniform</span><span class="p" data-group-id="5702731998-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="5702731998-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5702731998-11">(</span><span class="p" data-group-id="5702731998-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5702731998-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5702731998-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5702731998-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="5702731998-14">(</span><span class="mi">1</span><span class="p" data-group-id="5702731998-14">)</span><span class="p" data-group-id="5702731998-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5702731998-15">(</span><span class="n">t</span><span class="p" data-group-id="5702731998-15">)</span><span class="w">
-</span><span class="p" data-group-id="5702731998-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5702731998-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="5702731998-17">(</span><span class="n">t</span><span class="p" data-group-id="5702731998-17">)</span><span class="w">
-</span><span class="p" data-group-id="5702731998-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5702731998-18">}</span></code></pre><h2 id="glorot_uniform/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_uniform</span><span class="p" data-group-id="1301284568-1">(</span><span class="p" data-group-id="1301284568-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1301284568-2">(</span><span class="p" data-group-id="1301284568-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1301284568-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1301284568-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1301284568-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1301284568-5">(</span><span class="mi">1</span><span class="p" data-group-id="1301284568-5">)</span><span class="p" data-group-id="1301284568-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1301284568-6">(</span><span class="n">t</span><span class="p" data-group-id="1301284568-6">)</span><span class="w">
+</span><span class="p" data-group-id="1301284568-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1301284568-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1301284568-8">(</span><span class="n">t</span><span class="p" data-group-id="1301284568-8">)</span><span class="w">
+</span><span class="p" data-group-id="1301284568-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1301284568-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">glorot_uniform</span><span class="p" data-group-id="1301284568-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="1301284568-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1301284568-11">(</span><span class="p" data-group-id="1301284568-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1301284568-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1301284568-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1301284568-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1301284568-14">(</span><span class="mi">1</span><span class="p" data-group-id="1301284568-14">)</span><span class="p" data-group-id="1301284568-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="1301284568-15">(</span><span class="n">t</span><span class="p" data-group-id="1301284568-15">)</span><span class="w">
+</span><span class="p" data-group-id="1301284568-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1301284568-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1301284568-17">(</span><span class="n">t</span><span class="p" data-group-id="1301284568-17">)</span><span class="w">
+</span><span class="p" data-group-id="1301284568-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1301284568-18">}</span></code></pre><h2 id="glorot_uniform/1-references" class="section-heading">
   <a href="#glorot_uniform/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -510,19 +510,19 @@ <h1 class="signature" translate="no">he_normal(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_normal</span><span class="p" data-group-id="7284940403-1">(</span><span class="p" data-group-id="7284940403-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7284940403-2">(</span><span class="p" data-group-id="7284940403-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7284940403-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7284940403-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7284940403-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7284940403-5">(</span><span class="mi">1</span><span class="p" data-group-id="7284940403-5">)</span><span class="p" data-group-id="7284940403-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="7284940403-6">(</span><span class="n">t</span><span class="p" data-group-id="7284940403-6">)</span><span class="w">
-</span><span class="p" data-group-id="7284940403-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7284940403-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="7284940403-8">(</span><span class="n">t</span><span class="p" data-group-id="7284940403-8">)</span><span class="w">
-</span><span class="p" data-group-id="7284940403-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7284940403-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_normal</span><span class="p" data-group-id="7284940403-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="7284940403-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7284940403-11">(</span><span class="p" data-group-id="7284940403-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7284940403-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7284940403-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7284940403-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7284940403-14">(</span><span class="mi">1</span><span class="p" data-group-id="7284940403-14">)</span><span class="p" data-group-id="7284940403-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="7284940403-15">(</span><span class="n">t</span><span class="p" data-group-id="7284940403-15">)</span><span class="w">
-</span><span class="p" data-group-id="7284940403-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7284940403-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="7284940403-17">(</span><span class="n">t</span><span class="p" data-group-id="7284940403-17">)</span><span class="w">
-</span><span class="p" data-group-id="7284940403-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7284940403-18">}</span></code></pre><h2 id="he_normal/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_normal</span><span class="p" data-group-id="6870819637-1">(</span><span class="p" data-group-id="6870819637-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6870819637-2">(</span><span class="p" data-group-id="6870819637-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6870819637-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6870819637-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6870819637-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="6870819637-5">(</span><span class="mi">1</span><span class="p" data-group-id="6870819637-5">)</span><span class="p" data-group-id="6870819637-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6870819637-6">(</span><span class="n">t</span><span class="p" data-group-id="6870819637-6">)</span><span class="w">
+</span><span class="p" data-group-id="6870819637-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6870819637-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="6870819637-8">(</span><span class="n">t</span><span class="p" data-group-id="6870819637-8">)</span><span class="w">
+</span><span class="p" data-group-id="6870819637-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6870819637-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_normal</span><span class="p" data-group-id="6870819637-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="6870819637-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6870819637-11">(</span><span class="p" data-group-id="6870819637-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6870819637-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6870819637-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6870819637-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="6870819637-14">(</span><span class="mi">1</span><span class="p" data-group-id="6870819637-14">)</span><span class="p" data-group-id="6870819637-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6870819637-15">(</span><span class="n">t</span><span class="p" data-group-id="6870819637-15">)</span><span class="w">
+</span><span class="p" data-group-id="6870819637-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6870819637-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="6870819637-17">(</span><span class="n">t</span><span class="p" data-group-id="6870819637-17">)</span><span class="w">
+</span><span class="p" data-group-id="6870819637-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6870819637-18">}</span></code></pre><h2 id="he_normal/1-references" class="section-heading">
   <a href="#he_normal/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -566,19 +566,19 @@ <h1 class="signature" translate="no">he_uniform(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_uniform</span><span class="p" data-group-id="4359493895-1">(</span><span class="p" data-group-id="4359493895-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4359493895-2">(</span><span class="p" data-group-id="4359493895-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4359493895-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4359493895-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4359493895-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4359493895-5">(</span><span class="mi">1</span><span class="p" data-group-id="4359493895-5">)</span><span class="p" data-group-id="4359493895-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4359493895-6">(</span><span class="n">t</span><span class="p" data-group-id="4359493895-6">)</span><span class="w">
-</span><span class="p" data-group-id="4359493895-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4359493895-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4359493895-8">(</span><span class="n">t</span><span class="p" data-group-id="4359493895-8">)</span><span class="w">
-</span><span class="p" data-group-id="4359493895-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4359493895-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_uniform</span><span class="p" data-group-id="4359493895-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="4359493895-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4359493895-11">(</span><span class="p" data-group-id="4359493895-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4359493895-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4359493895-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4359493895-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4359493895-14">(</span><span class="mi">1</span><span class="p" data-group-id="4359493895-14">)</span><span class="p" data-group-id="4359493895-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4359493895-15">(</span><span class="n">t</span><span class="p" data-group-id="4359493895-15">)</span><span class="w">
-</span><span class="p" data-group-id="4359493895-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4359493895-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4359493895-17">(</span><span class="n">t</span><span class="p" data-group-id="4359493895-17">)</span><span class="w">
-</span><span class="p" data-group-id="4359493895-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4359493895-18">}</span></code></pre><h2 id="he_uniform/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_uniform</span><span class="p" data-group-id="5778371048-1">(</span><span class="p" data-group-id="5778371048-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5778371048-2">(</span><span class="p" data-group-id="5778371048-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5778371048-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5778371048-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5778371048-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="5778371048-5">(</span><span class="mi">1</span><span class="p" data-group-id="5778371048-5">)</span><span class="p" data-group-id="5778371048-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5778371048-6">(</span><span class="n">t</span><span class="p" data-group-id="5778371048-6">)</span><span class="w">
+</span><span class="p" data-group-id="5778371048-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5778371048-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="5778371048-8">(</span><span class="n">t</span><span class="p" data-group-id="5778371048-8">)</span><span class="w">
+</span><span class="p" data-group-id="5778371048-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5778371048-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">he_uniform</span><span class="p" data-group-id="5778371048-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="5778371048-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5778371048-11">(</span><span class="p" data-group-id="5778371048-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5778371048-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5778371048-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5778371048-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="5778371048-14">(</span><span class="mi">1</span><span class="p" data-group-id="5778371048-14">)</span><span class="p" data-group-id="5778371048-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5778371048-15">(</span><span class="n">t</span><span class="p" data-group-id="5778371048-15">)</span><span class="w">
+</span><span class="p" data-group-id="5778371048-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5778371048-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="5778371048-17">(</span><span class="n">t</span><span class="p" data-group-id="5778371048-17">)</span><span class="w">
+</span><span class="p" data-group-id="5778371048-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5778371048-18">}</span></code></pre><h2 id="he_uniform/1-references" class="section-heading">
   <a href="#he_uniform/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -612,16 +612,16 @@ <h1 class="signature" translate="no">identity()</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">identity</span><span class="p" data-group-id="2536271038-1">(</span><span class="p" data-group-id="2536271038-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2536271038-2">(</span><span class="p" data-group-id="2536271038-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2536271038-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2536271038-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2536271038-4">}</span><span class="p" data-group-id="2536271038-2">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">identity</span><span class="p" data-group-id="7236067812-1">(</span><span class="p" data-group-id="7236067812-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7236067812-2">(</span><span class="p" data-group-id="7236067812-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7236067812-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7236067812-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7236067812-4">}</span><span class="p" data-group-id="7236067812-2">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w">
-</span><span class="p" data-group-id="2536271038-5">#</span><span class="nc" data-group-id="2536271038-5">Nx.Tensor</span><span class="p" data-group-id="2536271038-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2536271038-6">[</span><span class="mi">2</span><span class="p" data-group-id="2536271038-6">]</span><span class="p" data-group-id="2536271038-7">[</span><span class="mi">2</span><span class="p" data-group-id="2536271038-7">]</span><span class="w">
-  </span><span class="p" data-group-id="2536271038-8">[</span><span class="w">
-    </span><span class="p" data-group-id="2536271038-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2536271038-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2536271038-10">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2536271038-10">]</span><span class="w">
-  </span><span class="p" data-group-id="2536271038-8">]</span><span class="w">
-</span><span class="p" data-group-id="2536271038-5">&gt;</span></code></pre>
+</span><span class="p" data-group-id="7236067812-5">#</span><span class="nc" data-group-id="7236067812-5">Nx.Tensor</span><span class="p" data-group-id="7236067812-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7236067812-6">[</span><span class="mi">2</span><span class="p" data-group-id="7236067812-6">]</span><span class="p" data-group-id="7236067812-7">[</span><span class="mi">2</span><span class="p" data-group-id="7236067812-7">]</span><span class="w">
+  </span><span class="p" data-group-id="7236067812-8">[</span><span class="w">
+    </span><span class="p" data-group-id="7236067812-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7236067812-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="7236067812-10">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7236067812-10">]</span><span class="w">
+  </span><span class="p" data-group-id="7236067812-8">]</span><span class="w">
+</span><span class="p" data-group-id="7236067812-5">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="lecun_normal/1">
@@ -659,19 +659,19 @@ <h1 class="signature" translate="no">lecun_normal(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_normal</span><span class="p" data-group-id="8987117485-1">(</span><span class="p" data-group-id="8987117485-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8987117485-2">(</span><span class="p" data-group-id="8987117485-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8987117485-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8987117485-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8987117485-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="8987117485-5">(</span><span class="mi">1</span><span class="p" data-group-id="8987117485-5">)</span><span class="p" data-group-id="8987117485-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="8987117485-6">(</span><span class="n">t</span><span class="p" data-group-id="8987117485-6">)</span><span class="w">
-</span><span class="p" data-group-id="8987117485-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8987117485-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="8987117485-8">(</span><span class="n">t</span><span class="p" data-group-id="8987117485-8">)</span><span class="w">
-</span><span class="p" data-group-id="8987117485-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8987117485-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_normal</span><span class="p" data-group-id="8987117485-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="8987117485-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8987117485-11">(</span><span class="p" data-group-id="8987117485-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8987117485-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8987117485-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8987117485-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="8987117485-14">(</span><span class="mi">1</span><span class="p" data-group-id="8987117485-14">)</span><span class="p" data-group-id="8987117485-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="8987117485-15">(</span><span class="n">t</span><span class="p" data-group-id="8987117485-15">)</span><span class="w">
-</span><span class="p" data-group-id="8987117485-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8987117485-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="8987117485-17">(</span><span class="n">t</span><span class="p" data-group-id="8987117485-17">)</span><span class="w">
-</span><span class="p" data-group-id="8987117485-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="8987117485-18">}</span></code></pre><h2 id="lecun_normal/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_normal</span><span class="p" data-group-id="4773924850-1">(</span><span class="p" data-group-id="4773924850-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4773924850-2">(</span><span class="p" data-group-id="4773924850-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4773924850-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4773924850-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4773924850-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4773924850-5">(</span><span class="mi">1</span><span class="p" data-group-id="4773924850-5">)</span><span class="p" data-group-id="4773924850-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4773924850-6">(</span><span class="n">t</span><span class="p" data-group-id="4773924850-6">)</span><span class="w">
+</span><span class="p" data-group-id="4773924850-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4773924850-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4773924850-8">(</span><span class="n">t</span><span class="p" data-group-id="4773924850-8">)</span><span class="w">
+</span><span class="p" data-group-id="4773924850-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4773924850-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_normal</span><span class="p" data-group-id="4773924850-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="4773924850-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4773924850-11">(</span><span class="p" data-group-id="4773924850-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4773924850-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4773924850-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4773924850-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4773924850-14">(</span><span class="mi">1</span><span class="p" data-group-id="4773924850-14">)</span><span class="p" data-group-id="4773924850-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4773924850-15">(</span><span class="n">t</span><span class="p" data-group-id="4773924850-15">)</span><span class="w">
+</span><span class="p" data-group-id="4773924850-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4773924850-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4773924850-17">(</span><span class="n">t</span><span class="p" data-group-id="4773924850-17">)</span><span class="w">
+</span><span class="p" data-group-id="4773924850-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4773924850-18">}</span></code></pre><h2 id="lecun_normal/1-references" class="section-heading">
   <a href="#lecun_normal/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -715,19 +715,19 @@ <h1 class="signature" translate="no">lecun_uniform(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_uniform</span><span class="p" data-group-id="3629492382-1">(</span><span class="p" data-group-id="3629492382-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3629492382-2">(</span><span class="p" data-group-id="3629492382-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3629492382-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3629492382-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3629492382-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3629492382-5">(</span><span class="mi">1</span><span class="p" data-group-id="3629492382-5">)</span><span class="p" data-group-id="3629492382-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3629492382-6">(</span><span class="n">t</span><span class="p" data-group-id="3629492382-6">)</span><span class="w">
-</span><span class="p" data-group-id="3629492382-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3629492382-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3629492382-8">(</span><span class="n">t</span><span class="p" data-group-id="3629492382-8">)</span><span class="w">
-</span><span class="p" data-group-id="3629492382-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3629492382-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_uniform</span><span class="p" data-group-id="3629492382-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="3629492382-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3629492382-11">(</span><span class="p" data-group-id="3629492382-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3629492382-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3629492382-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3629492382-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3629492382-14">(</span><span class="mi">1</span><span class="p" data-group-id="3629492382-14">)</span><span class="p" data-group-id="3629492382-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3629492382-15">(</span><span class="n">t</span><span class="p" data-group-id="3629492382-15">)</span><span class="w">
-</span><span class="p" data-group-id="3629492382-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3629492382-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3629492382-17">(</span><span class="n">t</span><span class="p" data-group-id="3629492382-17">)</span><span class="w">
-</span><span class="p" data-group-id="3629492382-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3629492382-18">}</span></code></pre><h2 id="lecun_uniform/1-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_uniform</span><span class="p" data-group-id="3079400644-1">(</span><span class="p" data-group-id="3079400644-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3079400644-2">(</span><span class="p" data-group-id="3079400644-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3079400644-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3079400644-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3079400644-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3079400644-5">(</span><span class="mi">1</span><span class="p" data-group-id="3079400644-5">)</span><span class="p" data-group-id="3079400644-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3079400644-6">(</span><span class="n">t</span><span class="p" data-group-id="3079400644-6">)</span><span class="w">
+</span><span class="p" data-group-id="3079400644-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3079400644-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3079400644-8">(</span><span class="n">t</span><span class="p" data-group-id="3079400644-8">)</span><span class="w">
+</span><span class="p" data-group-id="3079400644-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3079400644-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">lecun_uniform</span><span class="p" data-group-id="3079400644-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="3079400644-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3079400644-11">(</span><span class="p" data-group-id="3079400644-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3079400644-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3079400644-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3079400644-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3079400644-14">(</span><span class="mi">1</span><span class="p" data-group-id="3079400644-14">)</span><span class="p" data-group-id="3079400644-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3079400644-15">(</span><span class="n">t</span><span class="p" data-group-id="3079400644-15">)</span><span class="w">
+</span><span class="p" data-group-id="3079400644-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3079400644-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3079400644-17">(</span><span class="n">t</span><span class="p" data-group-id="3079400644-17">)</span><span class="w">
+</span><span class="p" data-group-id="3079400644-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3079400644-18">}</span></code></pre><h2 id="lecun_uniform/1-references" class="section-heading">
   <a href="#lecun_uniform/1-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -769,19 +769,19 @@ <h1 class="signature" translate="no">normal(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="9062873301-1">(</span><span class="p" data-group-id="9062873301-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9062873301-2">(</span><span class="p" data-group-id="9062873301-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9062873301-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9062873301-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9062873301-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9062873301-5">(</span><span class="mi">1</span><span class="p" data-group-id="9062873301-5">)</span><span class="p" data-group-id="9062873301-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="9062873301-6">(</span><span class="n">t</span><span class="p" data-group-id="9062873301-6">)</span><span class="w">
-</span><span class="p" data-group-id="9062873301-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9062873301-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="9062873301-8">(</span><span class="n">t</span><span class="p" data-group-id="9062873301-8">)</span><span class="w">
-</span><span class="p" data-group-id="9062873301-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9062873301-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="9062873301-10">(</span><span class="ss">mean</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9062873301-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9062873301-11">(</span><span class="p" data-group-id="9062873301-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9062873301-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9062873301-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9062873301-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9062873301-14">(</span><span class="mi">1</span><span class="p" data-group-id="9062873301-14">)</span><span class="p" data-group-id="9062873301-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="9062873301-15">(</span><span class="n">t</span><span class="p" data-group-id="9062873301-15">)</span><span class="w">
-</span><span class="p" data-group-id="9062873301-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9062873301-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="9062873301-17">(</span><span class="n">t</span><span class="p" data-group-id="9062873301-17">)</span><span class="w">
-</span><span class="p" data-group-id="9062873301-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9062873301-18">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="7595572444-1">(</span><span class="p" data-group-id="7595572444-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7595572444-2">(</span><span class="p" data-group-id="7595572444-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7595572444-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7595572444-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7595572444-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7595572444-5">(</span><span class="mi">1</span><span class="p" data-group-id="7595572444-5">)</span><span class="p" data-group-id="7595572444-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="7595572444-6">(</span><span class="n">t</span><span class="p" data-group-id="7595572444-6">)</span><span class="w">
+</span><span class="p" data-group-id="7595572444-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7595572444-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="7595572444-8">(</span><span class="n">t</span><span class="p" data-group-id="7595572444-8">)</span><span class="w">
+</span><span class="p" data-group-id="7595572444-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7595572444-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="7595572444-10">(</span><span class="ss">mean</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7595572444-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7595572444-11">(</span><span class="p" data-group-id="7595572444-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7595572444-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7595572444-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7595572444-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7595572444-14">(</span><span class="mi">1</span><span class="p" data-group-id="7595572444-14">)</span><span class="p" data-group-id="7595572444-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="7595572444-15">(</span><span class="n">t</span><span class="p" data-group-id="7595572444-15">)</span><span class="w">
+</span><span class="p" data-group-id="7595572444-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7595572444-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="7595572444-17">(</span><span class="n">t</span><span class="p" data-group-id="7595572444-17">)</span><span class="w">
+</span><span class="p" data-group-id="7595572444-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7595572444-18">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="ones/0">
@@ -809,16 +809,16 @@ <h1 class="signature" translate="no">ones()</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">ones</span><span class="p" data-group-id="0889223116-1">(</span><span class="p" data-group-id="0889223116-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0889223116-2">(</span><span class="p" data-group-id="0889223116-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0889223116-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0889223116-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0889223116-4">}</span><span class="p" data-group-id="0889223116-2">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">ones</span><span class="p" data-group-id="6908698039-1">(</span><span class="p" data-group-id="6908698039-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6908698039-2">(</span><span class="p" data-group-id="6908698039-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6908698039-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6908698039-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6908698039-4">}</span><span class="p" data-group-id="6908698039-2">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w">
-</span><span class="p" data-group-id="0889223116-5">#</span><span class="nc" data-group-id="0889223116-5">Nx.Tensor</span><span class="p" data-group-id="0889223116-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0889223116-6">[</span><span class="mi">2</span><span class="p" data-group-id="0889223116-6">]</span><span class="p" data-group-id="0889223116-7">[</span><span class="mi">2</span><span class="p" data-group-id="0889223116-7">]</span><span class="w">
-  </span><span class="p" data-group-id="0889223116-8">[</span><span class="w">
-    </span><span class="p" data-group-id="0889223116-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0889223116-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="0889223116-10">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0889223116-10">]</span><span class="w">
-  </span><span class="p" data-group-id="0889223116-8">]</span><span class="w">
-</span><span class="p" data-group-id="0889223116-5">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6908698039-5">#</span><span class="nc" data-group-id="6908698039-5">Nx.Tensor</span><span class="p" data-group-id="6908698039-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6908698039-6">[</span><span class="mi">2</span><span class="p" data-group-id="6908698039-6">]</span><span class="p" data-group-id="6908698039-7">[</span><span class="mi">2</span><span class="p" data-group-id="6908698039-7">]</span><span class="w">
+  </span><span class="p" data-group-id="6908698039-8">[</span><span class="w">
+    </span><span class="p" data-group-id="6908698039-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6908698039-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6908698039-10">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6908698039-10">]</span><span class="w">
+  </span><span class="p" data-group-id="6908698039-8">]</span><span class="w">
+</span><span class="p" data-group-id="6908698039-5">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="orthogonal/1">
@@ -857,19 +857,19 @@ <h1 class="signature" translate="no">orthogonal(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p" data-group-id="6334912356-1">(</span><span class="p" data-group-id="6334912356-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6334912356-2">(</span><span class="p" data-group-id="6334912356-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6334912356-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6334912356-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6334912356-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="6334912356-5">(</span><span class="mi">1</span><span class="p" data-group-id="6334912356-5">)</span><span class="p" data-group-id="6334912356-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="6334912356-6">(</span><span class="n">t</span><span class="p" data-group-id="6334912356-6">)</span><span class="w">
-</span><span class="p" data-group-id="6334912356-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6334912356-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6334912356-8">(</span><span class="n">t</span><span class="p" data-group-id="6334912356-8">)</span><span class="w">
-</span><span class="p" data-group-id="6334912356-9">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6334912356-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p" data-group-id="6334912356-10">(</span><span class="p" data-group-id="6334912356-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6334912356-11">(</span><span class="p" data-group-id="6334912356-12">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="6334912356-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6334912356-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="6334912356-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="6334912356-14">(</span><span class="mi">1</span><span class="p" data-group-id="6334912356-14">)</span><span class="p" data-group-id="6334912356-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="6334912356-15">(</span><span class="n">t</span><span class="p" data-group-id="6334912356-15">)</span><span class="w">
-</span><span class="p" data-group-id="6334912356-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="6334912356-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6334912356-17">(</span><span class="n">t</span><span class="p" data-group-id="6334912356-17">)</span><span class="w">
-</span><span class="p" data-group-id="6334912356-18">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="6334912356-18">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p" data-group-id="3538779675-1">(</span><span class="p" data-group-id="3538779675-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3538779675-2">(</span><span class="p" data-group-id="3538779675-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3538779675-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3538779675-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3538779675-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3538779675-5">(</span><span class="mi">1</span><span class="p" data-group-id="3538779675-5">)</span><span class="p" data-group-id="3538779675-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3538779675-6">(</span><span class="n">t</span><span class="p" data-group-id="3538779675-6">)</span><span class="w">
+</span><span class="p" data-group-id="3538779675-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3538779675-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3538779675-8">(</span><span class="n">t</span><span class="p" data-group-id="3538779675-8">)</span><span class="w">
+</span><span class="p" data-group-id="3538779675-9">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3538779675-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p" data-group-id="3538779675-10">(</span><span class="p" data-group-id="3538779675-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3538779675-11">(</span><span class="p" data-group-id="3538779675-12">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="3538779675-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3538779675-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="3538779675-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3538779675-14">(</span><span class="mi">1</span><span class="p" data-group-id="3538779675-14">)</span><span class="p" data-group-id="3538779675-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3538779675-15">(</span><span class="n">t</span><span class="p" data-group-id="3538779675-15">)</span><span class="w">
+</span><span class="p" data-group-id="3538779675-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="3538779675-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3538779675-17">(</span><span class="n">t</span><span class="p" data-group-id="3538779675-17">)</span><span class="w">
+</span><span class="p" data-group-id="3538779675-18">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="3538779675-18">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="uniform/1">
@@ -905,19 +905,19 @@ <h1 class="signature" translate="no">uniform(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="3878823469-1">(</span><span class="p" data-group-id="3878823469-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3878823469-2">(</span><span class="p" data-group-id="3878823469-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3878823469-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3878823469-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3878823469-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3878823469-5">(</span><span class="mi">1</span><span class="p" data-group-id="3878823469-5">)</span><span class="p" data-group-id="3878823469-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3878823469-6">(</span><span class="n">t</span><span class="p" data-group-id="3878823469-6">)</span><span class="w">
-</span><span class="p" data-group-id="3878823469-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3878823469-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3878823469-8">(</span><span class="n">t</span><span class="p" data-group-id="3878823469-8">)</span><span class="w">
-</span><span class="p" data-group-id="3878823469-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3878823469-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="3878823469-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="3878823469-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3878823469-11">(</span><span class="p" data-group-id="3878823469-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3878823469-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3878823469-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3878823469-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3878823469-14">(</span><span class="mi">1</span><span class="p" data-group-id="3878823469-14">)</span><span class="p" data-group-id="3878823469-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3878823469-15">(</span><span class="n">t</span><span class="p" data-group-id="3878823469-15">)</span><span class="w">
-</span><span class="p" data-group-id="3878823469-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3878823469-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3878823469-17">(</span><span class="n">t</span><span class="p" data-group-id="3878823469-17">)</span><span class="w">
-</span><span class="p" data-group-id="3878823469-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3878823469-18">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="3389044541-1">(</span><span class="p" data-group-id="3389044541-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3389044541-2">(</span><span class="p" data-group-id="3389044541-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3389044541-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3389044541-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3389044541-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3389044541-5">(</span><span class="mi">1</span><span class="p" data-group-id="3389044541-5">)</span><span class="p" data-group-id="3389044541-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3389044541-6">(</span><span class="n">t</span><span class="p" data-group-id="3389044541-6">)</span><span class="w">
+</span><span class="p" data-group-id="3389044541-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3389044541-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3389044541-8">(</span><span class="n">t</span><span class="p" data-group-id="3389044541-8">)</span><span class="w">
+</span><span class="p" data-group-id="3389044541-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3389044541-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="3389044541-10">(</span><span class="ss">scale</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="3389044541-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3389044541-11">(</span><span class="p" data-group-id="3389044541-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3389044541-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3389044541-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3389044541-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3389044541-14">(</span><span class="mi">1</span><span class="p" data-group-id="3389044541-14">)</span><span class="p" data-group-id="3389044541-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="3389044541-15">(</span><span class="n">t</span><span class="p" data-group-id="3389044541-15">)</span><span class="w">
+</span><span class="p" data-group-id="3389044541-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3389044541-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="3389044541-17">(</span><span class="n">t</span><span class="p" data-group-id="3389044541-17">)</span><span class="w">
+</span><span class="p" data-group-id="3389044541-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3389044541-18">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="variance_scaling/1">
@@ -957,26 +957,26 @@ <h1 class="signature" translate="no">variance_scaling(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="9844450078-1">(</span><span class="p" data-group-id="9844450078-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9844450078-2">(</span><span class="p" data-group-id="9844450078-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9844450078-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9844450078-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9844450078-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9844450078-5">(</span><span class="mi">1</span><span class="p" data-group-id="9844450078-5">)</span><span class="p" data-group-id="9844450078-2">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="9844450078-6">(</span><span class="n">t</span><span class="p" data-group-id="9844450078-6">)</span><span class="w">
-</span><span class="p" data-group-id="9844450078-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9844450078-7">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="9844450078-8">(</span><span class="n">t</span><span class="p" data-group-id="9844450078-8">)</span><span class="w">
-</span><span class="p" data-group-id="9844450078-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9844450078-9">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="9844450078-10">(</span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:fan_out</span><span class="p">,</span><span class="w"> </span><span class="ss">distribution</span><span class="p">:</span><span class="w"> </span><span class="ss">:truncated_normal</span><span class="p" data-group-id="9844450078-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9844450078-11">(</span><span class="p" data-group-id="9844450078-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9844450078-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9844450078-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9844450078-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9844450078-14">(</span><span class="mi">1</span><span class="p" data-group-id="9844450078-14">)</span><span class="p" data-group-id="9844450078-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="9844450078-15">(</span><span class="n">t</span><span class="p" data-group-id="9844450078-15">)</span><span class="w">
-</span><span class="p" data-group-id="9844450078-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9844450078-16">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="9844450078-17">(</span><span class="n">t</span><span class="p" data-group-id="9844450078-17">)</span><span class="w">
-</span><span class="p" data-group-id="9844450078-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9844450078-18">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="9844450078-19">(</span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:fan_out</span><span class="p">,</span><span class="w"> </span><span class="ss">distribution</span><span class="p">:</span><span class="w"> </span><span class="ss">:normal</span><span class="p" data-group-id="9844450078-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9844450078-20">(</span><span class="p" data-group-id="9844450078-21">{</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9844450078-21">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9844450078-22">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9844450078-22">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9844450078-23">(</span><span class="mi">1</span><span class="p" data-group-id="9844450078-23">)</span><span class="p" data-group-id="9844450078-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="9844450078-24">(</span><span class="n">t</span><span class="p" data-group-id="9844450078-24">)</span><span class="w">
-</span><span class="p" data-group-id="9844450078-25">{</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9844450078-25">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="9844450078-26">(</span><span class="n">t</span><span class="p" data-group-id="9844450078-26">)</span><span class="w">
-</span><span class="p" data-group-id="9844450078-27">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9844450078-27">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="4475045686-1">(</span><span class="p" data-group-id="4475045686-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4475045686-2">(</span><span class="p" data-group-id="4475045686-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4475045686-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4475045686-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4475045686-4">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4475045686-5">(</span><span class="mi">1</span><span class="p" data-group-id="4475045686-5">)</span><span class="p" data-group-id="4475045686-2">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4475045686-6">(</span><span class="n">t</span><span class="p" data-group-id="4475045686-6">)</span><span class="w">
+</span><span class="p" data-group-id="4475045686-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4475045686-7">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4475045686-8">(</span><span class="n">t</span><span class="p" data-group-id="4475045686-8">)</span><span class="w">
+</span><span class="p" data-group-id="4475045686-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4475045686-9">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="4475045686-10">(</span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:fan_out</span><span class="p">,</span><span class="w"> </span><span class="ss">distribution</span><span class="p">:</span><span class="w"> </span><span class="ss">:truncated_normal</span><span class="p" data-group-id="4475045686-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4475045686-11">(</span><span class="p" data-group-id="4475045686-12">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4475045686-12">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4475045686-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4475045686-13">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4475045686-14">(</span><span class="mi">1</span><span class="p" data-group-id="4475045686-14">)</span><span class="p" data-group-id="4475045686-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4475045686-15">(</span><span class="n">t</span><span class="p" data-group-id="4475045686-15">)</span><span class="w">
+</span><span class="p" data-group-id="4475045686-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4475045686-16">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4475045686-17">(</span><span class="n">t</span><span class="p" data-group-id="4475045686-17">)</span><span class="w">
+</span><span class="p" data-group-id="4475045686-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="4475045686-18">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">variance_scaling</span><span class="p" data-group-id="4475045686-19">(</span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:fan_out</span><span class="p">,</span><span class="w"> </span><span class="ss">distribution</span><span class="p">:</span><span class="w"> </span><span class="ss">:normal</span><span class="p" data-group-id="4475045686-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4475045686-20">(</span><span class="p" data-group-id="4475045686-21">{</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4475045686-21">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4475045686-22">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4475045686-22">}</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="4475045686-23">(</span><span class="mi">1</span><span class="p" data-group-id="4475045686-23">)</span><span class="p" data-group-id="4475045686-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="4475045686-24">(</span><span class="n">t</span><span class="p" data-group-id="4475045686-24">)</span><span class="w">
+</span><span class="p" data-group-id="4475045686-25">{</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4475045686-25">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="4475045686-26">(</span><span class="n">t</span><span class="p" data-group-id="4475045686-26">)</span><span class="w">
+</span><span class="p" data-group-id="4475045686-27">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4475045686-27">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="zeros/0">
@@ -1004,16 +1004,16 @@ <h1 class="signature" translate="no">zeros()</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">zeros</span><span class="p" data-group-id="9570459018-1">(</span><span class="p" data-group-id="9570459018-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9570459018-2">(</span><span class="p" data-group-id="9570459018-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9570459018-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9570459018-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9570459018-4">}</span><span class="p" data-group-id="9570459018-2">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Initializers</span><span class="o">.</span><span class="n">zeros</span><span class="p" data-group-id="2604320088-1">(</span><span class="p" data-group-id="2604320088-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2604320088-2">(</span><span class="p" data-group-id="2604320088-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2604320088-3">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2604320088-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2604320088-4">}</span><span class="p" data-group-id="2604320088-2">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">out</span><span class="w">
-</span><span class="p" data-group-id="9570459018-5">#</span><span class="nc" data-group-id="9570459018-5">Nx.Tensor</span><span class="p" data-group-id="9570459018-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9570459018-6">[</span><span class="mi">2</span><span class="p" data-group-id="9570459018-6">]</span><span class="p" data-group-id="9570459018-7">[</span><span class="mi">2</span><span class="p" data-group-id="9570459018-7">]</span><span class="w">
-  </span><span class="p" data-group-id="9570459018-8">[</span><span class="w">
-    </span><span class="p" data-group-id="9570459018-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9570459018-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9570459018-10">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9570459018-10">]</span><span class="w">
-  </span><span class="p" data-group-id="9570459018-8">]</span><span class="w">
-</span><span class="p" data-group-id="9570459018-5">&gt;</span></code></pre>
+</span><span class="p" data-group-id="2604320088-5">#</span><span class="nc" data-group-id="2604320088-5">Nx.Tensor</span><span class="p" data-group-id="2604320088-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2604320088-6">[</span><span class="mi">2</span><span class="p" data-group-id="2604320088-6">]</span><span class="p" data-group-id="2604320088-7">[</span><span class="mi">2</span><span class="p" data-group-id="2604320088-7">]</span><span class="w">
+  </span><span class="p" data-group-id="2604320088-8">[</span><span class="w">
+    </span><span class="p" data-group-id="2604320088-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2604320088-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2604320088-10">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2604320088-10">]</span><span class="w">
+  </span><span class="p" data-group-id="2604320088-8">]</span><span class="w">
+</span><span class="p" data-group-id="2604320088-5">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.Layers.html b/Axon.Layers.html
index 726026f0..defaea03 100644
--- a/Axon.Layers.html
+++ b/Axon.Layers.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -141,16 +141,16 @@ <h1>
 These implementations do not assume the responsibility of
 managing state - instead opting to delegate this responsibility
 to the caller.</p><p>Basic neural networks can be seen as a composition of functions:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="4177607460-1">(</span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p" data-group-id="4177607460-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="4177607460-2">(</span><span class="p" data-group-id="4177607460-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="4177607460-3">(</span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="4177607460-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">softmax</span><span class="p" data-group-id="4177607460-4">(</span><span class="p" data-group-id="4177607460-4">)</span></code></pre><p>These kinds of models are often referred to as deep feedforward networks
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="0399496040-1">(</span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p" data-group-id="0399496040-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="0399496040-2">(</span><span class="p" data-group-id="0399496040-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="0399496040-3">(</span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="0399496040-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">softmax</span><span class="p" data-group-id="0399496040-4">(</span><span class="p" data-group-id="0399496040-4">)</span></code></pre><p>These kinds of models are often referred to as deep feedforward networks
 or multilayer perceptrons (MLPs) because information flows forward
 through the network with no feedback connections. Mathematically,
 a feedforward network can be represented as:</p><p>  $$
 f(x) = f^{(3)}(f^{(2)}(f^{(1)}(x)))
 $$</p><p>You can see a similar pattern emerge if we condense the call stack
-in the previous example:</p><pre><code class="makeup elixir" translate="no"><span class="n">softmax</span><span class="p" data-group-id="2074703311-1">(</span><span class="n">dense</span><span class="p" data-group-id="2074703311-2">(</span><span class="n">relu</span><span class="p" data-group-id="2074703311-3">(</span><span class="n">dense</span><span class="p" data-group-id="2074703311-4">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p" data-group-id="2074703311-4">)</span><span class="p" data-group-id="2074703311-3">)</span><span class="p">,</span><span class="w"> </span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="2074703311-2">)</span><span class="p" data-group-id="2074703311-1">)</span></code></pre><p>The chain structure shown here is the most common structure used
+in the previous example:</p><pre><code class="makeup elixir" translate="no"><span class="n">softmax</span><span class="p" data-group-id="4848408360-1">(</span><span class="n">dense</span><span class="p" data-group-id="4848408360-2">(</span><span class="n">relu</span><span class="p" data-group-id="4848408360-3">(</span><span class="n">dense</span><span class="p" data-group-id="4848408360-4">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p" data-group-id="4848408360-4">)</span><span class="p" data-group-id="4848408360-3">)</span><span class="p">,</span><span class="w"> </span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="4848408360-2">)</span><span class="p" data-group-id="4848408360-1">)</span></code></pre><p>The chain structure shown here is the most common structure used
 in neural networks. You can consider each function $f^{(n)}$ as a
 <em>layer</em> in the neural network - for example $f^{(2)} is the 2nd
 layer in the network. The number of function calls in the
@@ -158,7 +158,7 @@ <h1>
 <em>deep learning</em> comes from.</p><p>Neural networks are often written as the mapping:</p><p>  $$
 y = f(x; \theta)
 $$</p><p>Where $x$ is the input to the neural network and $\theta$ are the
-set of learned parameters. In Elixir, you would write this:</p><pre><code class="makeup elixir" translate="no"><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model</span><span class="p" data-group-id="3675151170-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="3675151170-1">)</span></code></pre><p>From the previous example, <code class="inline">params</code> would represent the collection:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7109996834-1">{</span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p">,</span><span class="w"> </span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="7109996834-1">}</span></code></pre><p>where <code class="inline">w1</code> and <code class="inline">w2</code> are layer <em>kernels</em>, and <code class="inline">b1</code> and <code class="inline">b2</code> are layer
+set of learned parameters. In Elixir, you would write this:</p><pre><code class="makeup elixir" translate="no"><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model</span><span class="p" data-group-id="0511417372-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="0511417372-1">)</span></code></pre><p>From the previous example, <code class="inline">params</code> would represent the collection:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8111909581-1">{</span><span class="n">w1</span><span class="p">,</span><span class="w"> </span><span class="n">b1</span><span class="p">,</span><span class="w"> </span><span class="n">w2</span><span class="p">,</span><span class="w"> </span><span class="n">b2</span><span class="p" data-group-id="8111909581-1">}</span></code></pre><p>where <code class="inline">w1</code> and <code class="inline">w2</code> are layer <em>kernels</em>, and <code class="inline">b1</code> and <code class="inline">b2</code> are layer
 <em>biases</em>.</p>
   </section>
 
@@ -735,19 +735,19 @@ <h1 class="signature" translate="no">bilinear(input1, input2, kernel, bias \\ 0,
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9385056940-1">(</span><span class="p" data-group-id="9385056940-2">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9385056940-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9385056940-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9385056940-3">}</span><span class="p" data-group-id="9385056940-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9385056940-4">(</span><span class="p" data-group-id="9385056940-5">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="9385056940-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9385056940-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9385056940-6">}</span><span class="p" data-group-id="9385056940-4">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9385056940-7">(</span><span class="p" data-group-id="9385056940-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="9385056940-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9385056940-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9385056940-9">}</span><span class="p" data-group-id="9385056940-7">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9385056940-10">(</span><span class="mf">1.0</span><span class="p" data-group-id="9385056940-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">bilinear</span><span class="p" data-group-id="9385056940-11">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="9385056940-11">)</span><span class="w">
-</span><span class="p" data-group-id="9385056940-12">#</span><span class="nc" data-group-id="9385056940-12">Nx.Tensor</span><span class="p" data-group-id="9385056940-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9385056940-13">[</span><span class="mi">3</span><span class="p" data-group-id="9385056940-13">]</span><span class="p" data-group-id="9385056940-14">[</span><span class="mi">1</span><span class="p" data-group-id="9385056940-14">]</span><span class="w">
-  </span><span class="p" data-group-id="9385056940-15">[</span><span class="w">
-    </span><span class="p" data-group-id="9385056940-16">[</span><span class="mf">39.0</span><span class="p" data-group-id="9385056940-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9385056940-17">[</span><span class="mf">455.0</span><span class="p" data-group-id="9385056940-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9385056940-18">[</span><span class="mf">1319.0</span><span class="p" data-group-id="9385056940-18">]</span><span class="w">
-  </span><span class="p" data-group-id="9385056940-15">]</span><span class="w">
-</span><span class="p" data-group-id="9385056940-12">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2111981180-1">(</span><span class="p" data-group-id="2111981180-2">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2111981180-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2111981180-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2111981180-3">}</span><span class="p" data-group-id="2111981180-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2111981180-4">(</span><span class="p" data-group-id="2111981180-5">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="2111981180-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2111981180-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2111981180-6">}</span><span class="p" data-group-id="2111981180-4">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2111981180-7">(</span><span class="p" data-group-id="2111981180-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="2111981180-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2111981180-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2111981180-9">}</span><span class="p" data-group-id="2111981180-7">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2111981180-10">(</span><span class="mf">1.0</span><span class="p" data-group-id="2111981180-10">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">bilinear</span><span class="p" data-group-id="2111981180-11">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="2111981180-11">)</span><span class="w">
+</span><span class="p" data-group-id="2111981180-12">#</span><span class="nc" data-group-id="2111981180-12">Nx.Tensor</span><span class="p" data-group-id="2111981180-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2111981180-13">[</span><span class="mi">3</span><span class="p" data-group-id="2111981180-13">]</span><span class="p" data-group-id="2111981180-14">[</span><span class="mi">1</span><span class="p" data-group-id="2111981180-14">]</span><span class="w">
+  </span><span class="p" data-group-id="2111981180-15">[</span><span class="w">
+    </span><span class="p" data-group-id="2111981180-16">[</span><span class="mf">39.0</span><span class="p" data-group-id="2111981180-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2111981180-17">[</span><span class="mf">455.0</span><span class="p" data-group-id="2111981180-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2111981180-18">[</span><span class="mf">1319.0</span><span class="p" data-group-id="2111981180-18">]</span><span class="w">
+  </span><span class="p" data-group-id="2111981180-15">]</span><span class="w">
+</span><span class="p" data-group-id="2111981180-12">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="dense/4">
@@ -777,7 +777,7 @@ <h1 class="signature" translate="no">dense(input, kernel, bias \\ 0, opts \\ [])
 y = xW^T + b
 $$</p><p>A dense layer or fully connected layer transforms
 the input using the given kernel matrix and bias
-to compute:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">dot</span><span class="p" data-group-id="1889267151-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="1889267151-1">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span></code></pre><p>Typically, both <code class="inline">kernel</code> and <code class="inline">bias</code> are learnable
+to compute:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">dot</span><span class="p" data-group-id="1109275143-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="1109275143-1">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span></code></pre><p>Typically, both <code class="inline">kernel</code> and <code class="inline">bias</code> are learnable
 parameters trained using gradient-based optimization.</p><h2 id="dense/4-parameter-shapes" class="section-heading">
   <a href="#dense/4-parameter-shapes" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -796,17 +796,17 @@ <h1 class="signature" translate="no">dense(input, kernel, bias \\ 0, opts \\ [])
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8440167322-1">(</span><span class="p" data-group-id="8440167322-2">[</span><span class="p" data-group-id="8440167322-3">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="8440167322-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8440167322-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8440167322-4">]</span><span class="p" data-group-id="8440167322-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8440167322-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8440167322-5">}</span><span class="p" data-group-id="8440167322-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8440167322-6">(</span><span class="p" data-group-id="8440167322-7">[</span><span class="p" data-group-id="8440167322-8">[</span><span class="mf">0.2</span><span class="p" data-group-id="8440167322-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8440167322-9">[</span><span class="mf">0.3</span><span class="p" data-group-id="8440167322-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8440167322-10">[</span><span class="mf">0.5</span><span class="p" data-group-id="8440167322-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8440167322-11">[</span><span class="mf">0.8</span><span class="p" data-group-id="8440167322-11">]</span><span class="p" data-group-id="8440167322-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8440167322-12">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8440167322-12">}</span><span class="p" data-group-id="8440167322-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8440167322-13">(</span><span class="p" data-group-id="8440167322-14">[</span><span class="mf">1.0</span><span class="p" data-group-id="8440167322-14">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8440167322-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8440167322-15">}</span><span class="p" data-group-id="8440167322-13">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8440167322-16">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="8440167322-16">)</span><span class="w">
-</span><span class="p" data-group-id="8440167322-17">#</span><span class="nc" data-group-id="8440167322-17">Nx.Tensor</span><span class="p" data-group-id="8440167322-17">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8440167322-18">[</span><span class="mi">2</span><span class="p" data-group-id="8440167322-18">]</span><span class="p" data-group-id="8440167322-19">[</span><span class="mi">1</span><span class="p" data-group-id="8440167322-19">]</span><span class="w">
-  </span><span class="p" data-group-id="8440167322-20">[</span><span class="w">
-    </span><span class="p" data-group-id="8440167322-21">[</span><span class="mf">2.25</span><span class="p" data-group-id="8440167322-21">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="8440167322-22">[</span><span class="mf">1.0</span><span class="p" data-group-id="8440167322-22">]</span><span class="w">
-  </span><span class="p" data-group-id="8440167322-20">]</span><span class="w">
-</span><span class="p" data-group-id="8440167322-17">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7103153145-1">(</span><span class="p" data-group-id="7103153145-2">[</span><span class="p" data-group-id="7103153145-3">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="7103153145-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7103153145-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7103153145-4">]</span><span class="p" data-group-id="7103153145-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7103153145-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7103153145-5">}</span><span class="p" data-group-id="7103153145-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7103153145-6">(</span><span class="p" data-group-id="7103153145-7">[</span><span class="p" data-group-id="7103153145-8">[</span><span class="mf">0.2</span><span class="p" data-group-id="7103153145-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7103153145-9">[</span><span class="mf">0.3</span><span class="p" data-group-id="7103153145-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7103153145-10">[</span><span class="mf">0.5</span><span class="p" data-group-id="7103153145-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7103153145-11">[</span><span class="mf">0.8</span><span class="p" data-group-id="7103153145-11">]</span><span class="p" data-group-id="7103153145-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7103153145-12">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7103153145-12">}</span><span class="p" data-group-id="7103153145-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7103153145-13">(</span><span class="p" data-group-id="7103153145-14">[</span><span class="mf">1.0</span><span class="p" data-group-id="7103153145-14">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7103153145-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7103153145-15">}</span><span class="p" data-group-id="7103153145-13">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7103153145-16">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="7103153145-16">)</span><span class="w">
+</span><span class="p" data-group-id="7103153145-17">#</span><span class="nc" data-group-id="7103153145-17">Nx.Tensor</span><span class="p" data-group-id="7103153145-17">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7103153145-18">[</span><span class="mi">2</span><span class="p" data-group-id="7103153145-18">]</span><span class="p" data-group-id="7103153145-19">[</span><span class="mi">1</span><span class="p" data-group-id="7103153145-19">]</span><span class="w">
+  </span><span class="p" data-group-id="7103153145-20">[</span><span class="w">
+    </span><span class="p" data-group-id="7103153145-21">[</span><span class="mf">2.25</span><span class="p" data-group-id="7103153145-21">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="7103153145-22">[</span><span class="mf">1.0</span><span class="p" data-group-id="7103153145-22">]</span><span class="w">
+  </span><span class="p" data-group-id="7103153145-20">]</span><span class="w">
+</span><span class="p" data-group-id="7103153145-17">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="embedding/3">
@@ -846,37 +846,37 @@ <h1 class="signature" translate="no">embedding(input, kernel, arg3 \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8380281296-1">(</span><span class="p" data-group-id="8380281296-2">[</span><span class="p" data-group-id="8380281296-3">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">5</span><span class="p" data-group-id="8380281296-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8380281296-4">[</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">9</span><span class="p" data-group-id="8380281296-4">]</span><span class="p" data-group-id="8380281296-2">]</span><span class="p" data-group-id="8380281296-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernels</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8380281296-5">(</span><span class="p" data-group-id="8380281296-6">[</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-7">[</span><span class="mf">0.46299999952316284</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5562999844551086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18170000612735748</span><span class="p" data-group-id="8380281296-7">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-8">[</span><span class="mf">0.9801999926567078</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09780000150203705</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333999991416931</span><span class="p" data-group-id="8380281296-8">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-9">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="8380281296-9">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-10">[</span><span class="mf">0.31929999589920044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42250001430511475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7865999937057495</span><span class="p" data-group-id="8380281296-10">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-11">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="8380281296-11">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-12">[</span><span class="mf">0.1898999959230423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9311000108718872</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8356000185012817</span><span class="p" data-group-id="8380281296-12">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-13">[</span><span class="mf">0.6383000016212463</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8794000148773193</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5282999873161316</span><span class="p" data-group-id="8380281296-13">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-14">[</span><span class="mf">0.9523000121116638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7597000002861023</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08250000327825546</span><span class="p" data-group-id="8380281296-14">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-15">[</span><span class="mf">0.6622999906539917</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02329999953508377</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8205999732017517</span><span class="p" data-group-id="8380281296-15">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8380281296-16">[</span><span class="mf">0.9855999946594238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36419999599456787</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5372999906539917</span><span class="p" data-group-id="8380281296-16">]</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="8380281296-6">]</span><span class="p" data-group-id="8380281296-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">embedding</span><span class="p" data-group-id="8380281296-17">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernels</span><span class="p" data-group-id="8380281296-17">)</span><span class="w">
-</span><span class="p" data-group-id="8380281296-18">#</span><span class="nc" data-group-id="8380281296-18">Nx.Tensor</span><span class="p" data-group-id="8380281296-18">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8380281296-19">[</span><span class="mi">2</span><span class="p" data-group-id="8380281296-19">]</span><span class="p" data-group-id="8380281296-20">[</span><span class="mi">4</span><span class="p" data-group-id="8380281296-20">]</span><span class="p" data-group-id="8380281296-21">[</span><span class="mi">3</span><span class="p" data-group-id="8380281296-21">]</span><span class="w">
-  </span><span class="p" data-group-id="8380281296-22">[</span><span class="w">
-    </span><span class="p" data-group-id="8380281296-23">[</span><span class="w">
-      </span><span class="p" data-group-id="8380281296-24">[</span><span class="mf">0.9801999926567078</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09780000150203705</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333999991416931</span><span class="p" data-group-id="8380281296-24">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8380281296-25">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="8380281296-25">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8380281296-26">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="8380281296-26">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8380281296-27">[</span><span class="mf">0.1898999959230423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9311000108718872</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8356000185012817</span><span class="p" data-group-id="8380281296-27">]</span><span class="w">
-    </span><span class="p" data-group-id="8380281296-23">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="8380281296-28">[</span><span class="w">
-      </span><span class="p" data-group-id="8380281296-29">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="8380281296-29">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8380281296-30">[</span><span class="mf">0.31929999589920044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42250001430511475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7865999937057495</span><span class="p" data-group-id="8380281296-30">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8380281296-31">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="8380281296-31">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8380281296-32">[</span><span class="mf">0.9855999946594238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36419999599456787</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5372999906539917</span><span class="p" data-group-id="8380281296-32">]</span><span class="w">
-    </span><span class="p" data-group-id="8380281296-28">]</span><span class="w">
-  </span><span class="p" data-group-id="8380281296-22">]</span><span class="w">
-</span><span class="p" data-group-id="8380281296-18">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3117823194-1">(</span><span class="p" data-group-id="3117823194-2">[</span><span class="p" data-group-id="3117823194-3">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">5</span><span class="p" data-group-id="3117823194-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3117823194-4">[</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">9</span><span class="p" data-group-id="3117823194-4">]</span><span class="p" data-group-id="3117823194-2">]</span><span class="p" data-group-id="3117823194-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernels</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3117823194-5">(</span><span class="p" data-group-id="3117823194-6">[</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-7">[</span><span class="mf">0.46299999952316284</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5562999844551086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18170000612735748</span><span class="p" data-group-id="3117823194-7">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-8">[</span><span class="mf">0.9801999926567078</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09780000150203705</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333999991416931</span><span class="p" data-group-id="3117823194-8">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-9">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="3117823194-9">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-10">[</span><span class="mf">0.31929999589920044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42250001430511475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7865999937057495</span><span class="p" data-group-id="3117823194-10">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-11">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="3117823194-11">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-12">[</span><span class="mf">0.1898999959230423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9311000108718872</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8356000185012817</span><span class="p" data-group-id="3117823194-12">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-13">[</span><span class="mf">0.6383000016212463</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8794000148773193</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5282999873161316</span><span class="p" data-group-id="3117823194-13">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-14">[</span><span class="mf">0.9523000121116638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7597000002861023</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08250000327825546</span><span class="p" data-group-id="3117823194-14">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-15">[</span><span class="mf">0.6622999906539917</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02329999953508377</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8205999732017517</span><span class="p" data-group-id="3117823194-15">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3117823194-16">[</span><span class="mf">0.9855999946594238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36419999599456787</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5372999906539917</span><span class="p" data-group-id="3117823194-16">]</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3117823194-6">]</span><span class="p" data-group-id="3117823194-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">embedding</span><span class="p" data-group-id="3117823194-17">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernels</span><span class="p" data-group-id="3117823194-17">)</span><span class="w">
+</span><span class="p" data-group-id="3117823194-18">#</span><span class="nc" data-group-id="3117823194-18">Nx.Tensor</span><span class="p" data-group-id="3117823194-18">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3117823194-19">[</span><span class="mi">2</span><span class="p" data-group-id="3117823194-19">]</span><span class="p" data-group-id="3117823194-20">[</span><span class="mi">4</span><span class="p" data-group-id="3117823194-20">]</span><span class="p" data-group-id="3117823194-21">[</span><span class="mi">3</span><span class="p" data-group-id="3117823194-21">]</span><span class="w">
+  </span><span class="p" data-group-id="3117823194-22">[</span><span class="w">
+    </span><span class="p" data-group-id="3117823194-23">[</span><span class="w">
+      </span><span class="p" data-group-id="3117823194-24">[</span><span class="mf">0.9801999926567078</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09780000150203705</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5333999991416931</span><span class="p" data-group-id="3117823194-24">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3117823194-25">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="3117823194-25">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3117823194-26">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="3117823194-26">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3117823194-27">[</span><span class="mf">0.1898999959230423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9311000108718872</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8356000185012817</span><span class="p" data-group-id="3117823194-27">]</span><span class="w">
+    </span><span class="p" data-group-id="3117823194-23">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3117823194-28">[</span><span class="w">
+      </span><span class="p" data-group-id="3117823194-29">[</span><span class="mf">0.5519000291824341</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5662999749183655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20559999346733093</span><span class="p" data-group-id="3117823194-29">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3117823194-30">[</span><span class="mf">0.31929999589920044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42250001430511475</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7865999937057495</span><span class="p" data-group-id="3117823194-30">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3117823194-31">[</span><span class="mf">0.6980000138282776</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9240999817848206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23479999601840973</span><span class="p" data-group-id="3117823194-31">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3117823194-32">[</span><span class="mf">0.9855999946594238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36419999599456787</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5372999906539917</span><span class="p" data-group-id="3117823194-32">]</span><span class="w">
+    </span><span class="p" data-group-id="3117823194-28">]</span><span class="w">
+  </span><span class="p" data-group-id="3117823194-22">]</span><span class="w">
+</span><span class="p" data-group-id="3117823194-18">&gt;</span></code></pre>
   </section>
 </section>
 
@@ -1303,33 +1303,33 @@ <h1 class="signature" translate="no">global_avg_pool(input, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_avg_pool</span><span class="p" data-group-id="9039544340-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9039544340-2">(</span><span class="p" data-group-id="9039544340-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9039544340-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9039544340-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9039544340-4">}</span><span class="p" data-group-id="9039544340-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="9039544340-1">)</span><span class="w">
-</span><span class="p" data-group-id="9039544340-5">#</span><span class="nc" data-group-id="9039544340-5">Nx.Tensor</span><span class="p" data-group-id="9039544340-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9039544340-6">[</span><span class="mi">3</span><span class="p" data-group-id="9039544340-6">]</span><span class="p" data-group-id="9039544340-7">[</span><span class="mi">2</span><span class="p" data-group-id="9039544340-7">]</span><span class="w">
-  </span><span class="p" data-group-id="9039544340-8">[</span><span class="w">
-    </span><span class="p" data-group-id="9039544340-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p" data-group-id="9039544340-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9039544340-10">[</span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.0</span><span class="p" data-group-id="9039544340-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9039544340-11">[</span><span class="mf">13.0</span><span class="p">,</span><span class="w"> </span><span class="mf">16.0</span><span class="p" data-group-id="9039544340-11">]</span><span class="w">
-  </span><span class="p" data-group-id="9039544340-8">]</span><span class="w">
-</span><span class="p" data-group-id="9039544340-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_avg_pool</span><span class="p" data-group-id="9039544340-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9039544340-13">(</span><span class="p" data-group-id="9039544340-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9039544340-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9039544340-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9039544340-15">}</span><span class="p" data-group-id="9039544340-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9039544340-12">)</span><span class="w">
-</span><span class="p" data-group-id="9039544340-16">#</span><span class="nc" data-group-id="9039544340-16">Nx.Tensor</span><span class="p" data-group-id="9039544340-16">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9039544340-17">[</span><span class="mi">1</span><span class="p" data-group-id="9039544340-17">]</span><span class="p" data-group-id="9039544340-18">[</span><span class="mi">3</span><span class="p" data-group-id="9039544340-18">]</span><span class="p" data-group-id="9039544340-19">[</span><span class="mi">1</span><span class="p" data-group-id="9039544340-19">]</span><span class="p" data-group-id="9039544340-20">[</span><span class="mi">1</span><span class="p" data-group-id="9039544340-20">]</span><span class="w">
-  </span><span class="p" data-group-id="9039544340-21">[</span><span class="w">
-    </span><span class="p" data-group-id="9039544340-22">[</span><span class="w">
-      </span><span class="p" data-group-id="9039544340-23">[</span><span class="w">
-        </span><span class="p" data-group-id="9039544340-24">[</span><span class="mf">1.5</span><span class="p" data-group-id="9039544340-24">]</span><span class="w">
-      </span><span class="p" data-group-id="9039544340-23">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9039544340-25">[</span><span class="w">
-        </span><span class="p" data-group-id="9039544340-26">[</span><span class="mf">5.5</span><span class="p" data-group-id="9039544340-26">]</span><span class="w">
-      </span><span class="p" data-group-id="9039544340-25">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9039544340-27">[</span><span class="w">
-        </span><span class="p" data-group-id="9039544340-28">[</span><span class="mf">9.5</span><span class="p" data-group-id="9039544340-28">]</span><span class="w">
-      </span><span class="p" data-group-id="9039544340-27">]</span><span class="w">
-    </span><span class="p" data-group-id="9039544340-22">]</span><span class="w">
-  </span><span class="p" data-group-id="9039544340-21">]</span><span class="w">
-</span><span class="p" data-group-id="9039544340-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_avg_pool</span><span class="p" data-group-id="1592587733-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1592587733-2">(</span><span class="p" data-group-id="1592587733-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1592587733-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1592587733-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1592587733-4">}</span><span class="p" data-group-id="1592587733-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="1592587733-1">)</span><span class="w">
+</span><span class="p" data-group-id="1592587733-5">#</span><span class="nc" data-group-id="1592587733-5">Nx.Tensor</span><span class="p" data-group-id="1592587733-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1592587733-6">[</span><span class="mi">3</span><span class="p" data-group-id="1592587733-6">]</span><span class="p" data-group-id="1592587733-7">[</span><span class="mi">2</span><span class="p" data-group-id="1592587733-7">]</span><span class="w">
+  </span><span class="p" data-group-id="1592587733-8">[</span><span class="w">
+    </span><span class="p" data-group-id="1592587733-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p" data-group-id="1592587733-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1592587733-10">[</span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.0</span><span class="p" data-group-id="1592587733-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1592587733-11">[</span><span class="mf">13.0</span><span class="p">,</span><span class="w"> </span><span class="mf">16.0</span><span class="p" data-group-id="1592587733-11">]</span><span class="w">
+  </span><span class="p" data-group-id="1592587733-8">]</span><span class="w">
+</span><span class="p" data-group-id="1592587733-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_avg_pool</span><span class="p" data-group-id="1592587733-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1592587733-13">(</span><span class="p" data-group-id="1592587733-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="1592587733-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1592587733-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1592587733-15">}</span><span class="p" data-group-id="1592587733-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1592587733-12">)</span><span class="w">
+</span><span class="p" data-group-id="1592587733-16">#</span><span class="nc" data-group-id="1592587733-16">Nx.Tensor</span><span class="p" data-group-id="1592587733-16">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1592587733-17">[</span><span class="mi">1</span><span class="p" data-group-id="1592587733-17">]</span><span class="p" data-group-id="1592587733-18">[</span><span class="mi">3</span><span class="p" data-group-id="1592587733-18">]</span><span class="p" data-group-id="1592587733-19">[</span><span class="mi">1</span><span class="p" data-group-id="1592587733-19">]</span><span class="p" data-group-id="1592587733-20">[</span><span class="mi">1</span><span class="p" data-group-id="1592587733-20">]</span><span class="w">
+  </span><span class="p" data-group-id="1592587733-21">[</span><span class="w">
+    </span><span class="p" data-group-id="1592587733-22">[</span><span class="w">
+      </span><span class="p" data-group-id="1592587733-23">[</span><span class="w">
+        </span><span class="p" data-group-id="1592587733-24">[</span><span class="mf">1.5</span><span class="p" data-group-id="1592587733-24">]</span><span class="w">
+      </span><span class="p" data-group-id="1592587733-23">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1592587733-25">[</span><span class="w">
+        </span><span class="p" data-group-id="1592587733-26">[</span><span class="mf">5.5</span><span class="p" data-group-id="1592587733-26">]</span><span class="w">
+      </span><span class="p" data-group-id="1592587733-25">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1592587733-27">[</span><span class="w">
+        </span><span class="p" data-group-id="1592587733-28">[</span><span class="mf">9.5</span><span class="p" data-group-id="1592587733-28">]</span><span class="w">
+      </span><span class="p" data-group-id="1592587733-27">]</span><span class="w">
+    </span><span class="p" data-group-id="1592587733-22">]</span><span class="w">
+  </span><span class="p" data-group-id="1592587733-21">]</span><span class="w">
+</span><span class="p" data-group-id="1592587733-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="global_lp_pool/2">
@@ -1376,33 +1376,33 @@ <h1 class="signature" translate="no">global_lp_pool(input, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_lp_pool</span><span class="p" data-group-id="7767619321-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7767619321-2">(</span><span class="p" data-group-id="7767619321-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7767619321-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7767619321-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7767619321-4">}</span><span class="p" data-group-id="7767619321-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">norm</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="7767619321-1">)</span><span class="w">
-</span><span class="p" data-group-id="7767619321-5">#</span><span class="nc" data-group-id="7767619321-5">Nx.Tensor</span><span class="p" data-group-id="7767619321-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7767619321-6">[</span><span class="mi">3</span><span class="p" data-group-id="7767619321-6">]</span><span class="p" data-group-id="7767619321-7">[</span><span class="mi">2</span><span class="p" data-group-id="7767619321-7">]</span><span class="w">
-  </span><span class="p" data-group-id="7767619321-8">[</span><span class="w">
-    </span><span class="p" data-group-id="7767619321-9">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.0</span><span class="p" data-group-id="7767619321-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7767619321-10">[</span><span class="mf">21.0</span><span class="p">,</span><span class="w"> </span><span class="mf">30.0</span><span class="p" data-group-id="7767619321-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7767619321-11">[</span><span class="mf">39.0</span><span class="p">,</span><span class="w"> </span><span class="mf">48.0</span><span class="p" data-group-id="7767619321-11">]</span><span class="w">
-  </span><span class="p" data-group-id="7767619321-8">]</span><span class="w">
-</span><span class="p" data-group-id="7767619321-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_lp_pool</span><span class="p" data-group-id="7767619321-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7767619321-13">(</span><span class="p" data-group-id="7767619321-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7767619321-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7767619321-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7767619321-15">}</span><span class="p" data-group-id="7767619321-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="7767619321-12">)</span><span class="w">
-</span><span class="p" data-group-id="7767619321-16">#</span><span class="nc" data-group-id="7767619321-16">Nx.Tensor</span><span class="p" data-group-id="7767619321-16">&lt;</span><span class="w">
-  </span><span class="n">f16</span><span class="p" data-group-id="7767619321-17">[</span><span class="mi">1</span><span class="p" data-group-id="7767619321-17">]</span><span class="p" data-group-id="7767619321-18">[</span><span class="mi">3</span><span class="p" data-group-id="7767619321-18">]</span><span class="p" data-group-id="7767619321-19">[</span><span class="mi">1</span><span class="p" data-group-id="7767619321-19">]</span><span class="p" data-group-id="7767619321-20">[</span><span class="mi">1</span><span class="p" data-group-id="7767619321-20">]</span><span class="w">
-  </span><span class="p" data-group-id="7767619321-21">[</span><span class="w">
-    </span><span class="p" data-group-id="7767619321-22">[</span><span class="w">
-      </span><span class="p" data-group-id="7767619321-23">[</span><span class="w">
-        </span><span class="p" data-group-id="7767619321-24">[</span><span class="mf">3.7421875</span><span class="p" data-group-id="7767619321-24">]</span><span class="w">
-      </span><span class="p" data-group-id="7767619321-23">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="7767619321-25">[</span><span class="w">
-        </span><span class="p" data-group-id="7767619321-26">[</span><span class="mf">11.2265625</span><span class="p" data-group-id="7767619321-26">]</span><span class="w">
-      </span><span class="p" data-group-id="7767619321-25">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="7767619321-27">[</span><span class="w">
-        </span><span class="p" data-group-id="7767619321-28">[</span><span class="mf">19.125</span><span class="p" data-group-id="7767619321-28">]</span><span class="w">
-      </span><span class="p" data-group-id="7767619321-27">]</span><span class="w">
-    </span><span class="p" data-group-id="7767619321-22">]</span><span class="w">
-  </span><span class="p" data-group-id="7767619321-21">]</span><span class="w">
-</span><span class="p" data-group-id="7767619321-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_lp_pool</span><span class="p" data-group-id="9262231449-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9262231449-2">(</span><span class="p" data-group-id="9262231449-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9262231449-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9262231449-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9262231449-4">}</span><span class="p" data-group-id="9262231449-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">norm</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="9262231449-1">)</span><span class="w">
+</span><span class="p" data-group-id="9262231449-5">#</span><span class="nc" data-group-id="9262231449-5">Nx.Tensor</span><span class="p" data-group-id="9262231449-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9262231449-6">[</span><span class="mi">3</span><span class="p" data-group-id="9262231449-6">]</span><span class="p" data-group-id="9262231449-7">[</span><span class="mi">2</span><span class="p" data-group-id="9262231449-7">]</span><span class="w">
+  </span><span class="p" data-group-id="9262231449-8">[</span><span class="w">
+    </span><span class="p" data-group-id="9262231449-9">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.0</span><span class="p" data-group-id="9262231449-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9262231449-10">[</span><span class="mf">21.0</span><span class="p">,</span><span class="w"> </span><span class="mf">30.0</span><span class="p" data-group-id="9262231449-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9262231449-11">[</span><span class="mf">39.0</span><span class="p">,</span><span class="w"> </span><span class="mf">48.0</span><span class="p" data-group-id="9262231449-11">]</span><span class="w">
+  </span><span class="p" data-group-id="9262231449-8">]</span><span class="w">
+</span><span class="p" data-group-id="9262231449-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_lp_pool</span><span class="p" data-group-id="9262231449-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9262231449-13">(</span><span class="p" data-group-id="9262231449-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9262231449-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9262231449-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9262231449-15">}</span><span class="p" data-group-id="9262231449-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="9262231449-12">)</span><span class="w">
+</span><span class="p" data-group-id="9262231449-16">#</span><span class="nc" data-group-id="9262231449-16">Nx.Tensor</span><span class="p" data-group-id="9262231449-16">&lt;</span><span class="w">
+  </span><span class="n">f16</span><span class="p" data-group-id="9262231449-17">[</span><span class="mi">1</span><span class="p" data-group-id="9262231449-17">]</span><span class="p" data-group-id="9262231449-18">[</span><span class="mi">3</span><span class="p" data-group-id="9262231449-18">]</span><span class="p" data-group-id="9262231449-19">[</span><span class="mi">1</span><span class="p" data-group-id="9262231449-19">]</span><span class="p" data-group-id="9262231449-20">[</span><span class="mi">1</span><span class="p" data-group-id="9262231449-20">]</span><span class="w">
+  </span><span class="p" data-group-id="9262231449-21">[</span><span class="w">
+    </span><span class="p" data-group-id="9262231449-22">[</span><span class="w">
+      </span><span class="p" data-group-id="9262231449-23">[</span><span class="w">
+        </span><span class="p" data-group-id="9262231449-24">[</span><span class="mf">3.7421875</span><span class="p" data-group-id="9262231449-24">]</span><span class="w">
+      </span><span class="p" data-group-id="9262231449-23">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="9262231449-25">[</span><span class="w">
+        </span><span class="p" data-group-id="9262231449-26">[</span><span class="mf">11.2265625</span><span class="p" data-group-id="9262231449-26">]</span><span class="w">
+      </span><span class="p" data-group-id="9262231449-25">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="9262231449-27">[</span><span class="w">
+        </span><span class="p" data-group-id="9262231449-28">[</span><span class="mf">19.125</span><span class="p" data-group-id="9262231449-28">]</span><span class="w">
+      </span><span class="p" data-group-id="9262231449-27">]</span><span class="w">
+    </span><span class="p" data-group-id="9262231449-22">]</span><span class="w">
+  </span><span class="p" data-group-id="9262231449-21">]</span><span class="w">
+</span><span class="p" data-group-id="9262231449-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="global_max_pool/2">
@@ -1447,33 +1447,33 @@ <h1 class="signature" translate="no">global_max_pool(input, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_max_pool</span><span class="p" data-group-id="4128347724-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4128347724-2">(</span><span class="p" data-group-id="4128347724-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="4128347724-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4128347724-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4128347724-4">}</span><span class="p" data-group-id="4128347724-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="4128347724-1">)</span><span class="w">
-</span><span class="p" data-group-id="4128347724-5">#</span><span class="nc" data-group-id="4128347724-5">Nx.Tensor</span><span class="p" data-group-id="4128347724-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4128347724-6">[</span><span class="mi">3</span><span class="p" data-group-id="4128347724-6">]</span><span class="p" data-group-id="4128347724-7">[</span><span class="mi">2</span><span class="p" data-group-id="4128347724-7">]</span><span class="w">
-  </span><span class="p" data-group-id="4128347724-8">[</span><span class="w">
-    </span><span class="p" data-group-id="4128347724-9">[</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="4128347724-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4128347724-10">[</span><span class="mf">8.0</span><span class="p">,</span><span class="w"> </span><span class="mf">11.0</span><span class="p" data-group-id="4128347724-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4128347724-11">[</span><span class="mf">14.0</span><span class="p">,</span><span class="w"> </span><span class="mf">17.0</span><span class="p" data-group-id="4128347724-11">]</span><span class="w">
-  </span><span class="p" data-group-id="4128347724-8">]</span><span class="w">
-</span><span class="p" data-group-id="4128347724-5">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_max_pool</span><span class="p" data-group-id="4128347724-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4128347724-13">(</span><span class="p" data-group-id="4128347724-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4128347724-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4128347724-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4128347724-15">}</span><span class="p" data-group-id="4128347724-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="4128347724-12">)</span><span class="w">
-</span><span class="p" data-group-id="4128347724-16">#</span><span class="nc" data-group-id="4128347724-16">Nx.Tensor</span><span class="p" data-group-id="4128347724-16">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4128347724-17">[</span><span class="mi">1</span><span class="p" data-group-id="4128347724-17">]</span><span class="p" data-group-id="4128347724-18">[</span><span class="mi">3</span><span class="p" data-group-id="4128347724-18">]</span><span class="p" data-group-id="4128347724-19">[</span><span class="mi">1</span><span class="p" data-group-id="4128347724-19">]</span><span class="p" data-group-id="4128347724-20">[</span><span class="mi">1</span><span class="p" data-group-id="4128347724-20">]</span><span class="w">
-  </span><span class="p" data-group-id="4128347724-21">[</span><span class="w">
-    </span><span class="p" data-group-id="4128347724-22">[</span><span class="w">
-      </span><span class="p" data-group-id="4128347724-23">[</span><span class="w">
-        </span><span class="p" data-group-id="4128347724-24">[</span><span class="mf">3.0</span><span class="p" data-group-id="4128347724-24">]</span><span class="w">
-      </span><span class="p" data-group-id="4128347724-23">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4128347724-25">[</span><span class="w">
-        </span><span class="p" data-group-id="4128347724-26">[</span><span class="mf">7.0</span><span class="p" data-group-id="4128347724-26">]</span><span class="w">
-      </span><span class="p" data-group-id="4128347724-25">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4128347724-27">[</span><span class="w">
-        </span><span class="p" data-group-id="4128347724-28">[</span><span class="mf">11.0</span><span class="p" data-group-id="4128347724-28">]</span><span class="w">
-      </span><span class="p" data-group-id="4128347724-27">]</span><span class="w">
-    </span><span class="p" data-group-id="4128347724-22">]</span><span class="w">
-  </span><span class="p" data-group-id="4128347724-21">]</span><span class="w">
-</span><span class="p" data-group-id="4128347724-16">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_max_pool</span><span class="p" data-group-id="6914277664-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6914277664-2">(</span><span class="p" data-group-id="6914277664-3">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6914277664-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6914277664-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6914277664-4">}</span><span class="p" data-group-id="6914277664-2">)</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="6914277664-1">)</span><span class="w">
+</span><span class="p" data-group-id="6914277664-5">#</span><span class="nc" data-group-id="6914277664-5">Nx.Tensor</span><span class="p" data-group-id="6914277664-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6914277664-6">[</span><span class="mi">3</span><span class="p" data-group-id="6914277664-6">]</span><span class="p" data-group-id="6914277664-7">[</span><span class="mi">2</span><span class="p" data-group-id="6914277664-7">]</span><span class="w">
+  </span><span class="p" data-group-id="6914277664-8">[</span><span class="w">
+    </span><span class="p" data-group-id="6914277664-9">[</span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="6914277664-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6914277664-10">[</span><span class="mf">8.0</span><span class="p">,</span><span class="w"> </span><span class="mf">11.0</span><span class="p" data-group-id="6914277664-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6914277664-11">[</span><span class="mf">14.0</span><span class="p">,</span><span class="w"> </span><span class="mf">17.0</span><span class="p" data-group-id="6914277664-11">]</span><span class="w">
+  </span><span class="p" data-group-id="6914277664-8">]</span><span class="w">
+</span><span class="p" data-group-id="6914277664-5">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">global_max_pool</span><span class="p" data-group-id="6914277664-12">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6914277664-13">(</span><span class="p" data-group-id="6914277664-14">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6914277664-14">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6914277664-15">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6914277664-15">}</span><span class="p" data-group-id="6914277664-13">)</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="6914277664-12">)</span><span class="w">
+</span><span class="p" data-group-id="6914277664-16">#</span><span class="nc" data-group-id="6914277664-16">Nx.Tensor</span><span class="p" data-group-id="6914277664-16">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6914277664-17">[</span><span class="mi">1</span><span class="p" data-group-id="6914277664-17">]</span><span class="p" data-group-id="6914277664-18">[</span><span class="mi">3</span><span class="p" data-group-id="6914277664-18">]</span><span class="p" data-group-id="6914277664-19">[</span><span class="mi">1</span><span class="p" data-group-id="6914277664-19">]</span><span class="p" data-group-id="6914277664-20">[</span><span class="mi">1</span><span class="p" data-group-id="6914277664-20">]</span><span class="w">
+  </span><span class="p" data-group-id="6914277664-21">[</span><span class="w">
+    </span><span class="p" data-group-id="6914277664-22">[</span><span class="w">
+      </span><span class="p" data-group-id="6914277664-23">[</span><span class="w">
+        </span><span class="p" data-group-id="6914277664-24">[</span><span class="mf">3.0</span><span class="p" data-group-id="6914277664-24">]</span><span class="w">
+      </span><span class="p" data-group-id="6914277664-23">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="6914277664-25">[</span><span class="w">
+        </span><span class="p" data-group-id="6914277664-26">[</span><span class="mf">7.0</span><span class="p" data-group-id="6914277664-26">]</span><span class="w">
+      </span><span class="p" data-group-id="6914277664-25">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="6914277664-27">[</span><span class="w">
+        </span><span class="p" data-group-id="6914277664-28">[</span><span class="mf">11.0</span><span class="p" data-group-id="6914277664-28">]</span><span class="w">
+      </span><span class="p" data-group-id="6914277664-27">]</span><span class="w">
+    </span><span class="p" data-group-id="6914277664-22">]</span><span class="w">
+  </span><span class="p" data-group-id="6914277664-21">]</span><span class="w">
+</span><span class="p" data-group-id="6914277664-16">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="lp_pool/2">
@@ -1527,18 +1527,18 @@ <h1 class="signature" translate="no">lp_pool(input, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9349372413-1">(</span><span class="p" data-group-id="9349372413-2">[</span><span class="p" data-group-id="9349372413-3">[</span><span class="p" data-group-id="9349372413-4">[</span><span class="mf">0.9450</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4684</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8146</span><span class="p" data-group-id="9349372413-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9349372413-5">[</span><span class="mf">1.2663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4354</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0781</span><span class="p" data-group-id="9349372413-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9349372413-6">[</span><span class="o">-</span><span class="mf">0.4759</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8742</span><span class="p" data-group-id="9349372413-6">]</span><span class="p" data-group-id="9349372413-3">]</span><span class="p" data-group-id="9349372413-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9349372413-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9349372413-7">}</span><span class="p" data-group-id="9349372413-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">lp_pool</span><span class="p" data-group-id="9349372413-8">(</span><span class="n">t</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">norm</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="9349372413-8">)</span><span class="w">
-</span><span class="p" data-group-id="9349372413-9">#</span><span class="nc" data-group-id="9349372413-9">Nx.Tensor</span><span class="p" data-group-id="9349372413-9">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9349372413-10">[</span><span class="mi">1</span><span class="p" data-group-id="9349372413-10">]</span><span class="p" data-group-id="9349372413-11">[</span><span class="mi">3</span><span class="p" data-group-id="9349372413-11">]</span><span class="p" data-group-id="9349372413-12">[</span><span class="mi">1</span><span class="p" data-group-id="9349372413-12">]</span><span class="w">
-  </span><span class="p" data-group-id="9349372413-13">[</span><span class="w">
-    </span><span class="p" data-group-id="9349372413-14">[</span><span class="w">
-      </span><span class="p" data-group-id="9349372413-15">[</span><span class="mf">1.0547149181365967</span><span class="p" data-group-id="9349372413-15">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9349372413-16">[</span><span class="mf">1.3390626907348633</span><span class="p" data-group-id="9349372413-16">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9349372413-17">[</span><span class="mf">0.5763426423072815</span><span class="p" data-group-id="9349372413-17">]</span><span class="w">
-    </span><span class="p" data-group-id="9349372413-14">]</span><span class="w">
-  </span><span class="p" data-group-id="9349372413-13">]</span><span class="w">
-</span><span class="p" data-group-id="9349372413-9">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3267548809-1">(</span><span class="p" data-group-id="3267548809-2">[</span><span class="p" data-group-id="3267548809-3">[</span><span class="p" data-group-id="3267548809-4">[</span><span class="mf">0.9450</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4684</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8146</span><span class="p" data-group-id="3267548809-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3267548809-5">[</span><span class="mf">1.2663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4354</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0781</span><span class="p" data-group-id="3267548809-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3267548809-6">[</span><span class="o">-</span><span class="mf">0.4759</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3251</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8742</span><span class="p" data-group-id="3267548809-6">]</span><span class="p" data-group-id="3267548809-3">]</span><span class="p" data-group-id="3267548809-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3267548809-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3267548809-7">}</span><span class="p" data-group-id="3267548809-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">lp_pool</span><span class="p" data-group-id="3267548809-8">(</span><span class="n">t</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">norm</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3267548809-8">)</span><span class="w">
+</span><span class="p" data-group-id="3267548809-9">#</span><span class="nc" data-group-id="3267548809-9">Nx.Tensor</span><span class="p" data-group-id="3267548809-9">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3267548809-10">[</span><span class="mi">1</span><span class="p" data-group-id="3267548809-10">]</span><span class="p" data-group-id="3267548809-11">[</span><span class="mi">3</span><span class="p" data-group-id="3267548809-11">]</span><span class="p" data-group-id="3267548809-12">[</span><span class="mi">1</span><span class="p" data-group-id="3267548809-12">]</span><span class="w">
+  </span><span class="p" data-group-id="3267548809-13">[</span><span class="w">
+    </span><span class="p" data-group-id="3267548809-14">[</span><span class="w">
+      </span><span class="p" data-group-id="3267548809-15">[</span><span class="mf">1.0547149181365967</span><span class="p" data-group-id="3267548809-15">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3267548809-16">[</span><span class="mf">1.3390626907348633</span><span class="p" data-group-id="3267548809-16">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3267548809-17">[</span><span class="mf">0.5763426423072815</span><span class="p" data-group-id="3267548809-17">]</span><span class="w">
+    </span><span class="p" data-group-id="3267548809-14">]</span><span class="w">
+  </span><span class="p" data-group-id="3267548809-13">]</span><span class="w">
+</span><span class="p" data-group-id="3267548809-9">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="max_pool/2">
@@ -1589,21 +1589,21 @@ <h1 class="signature" translate="no">max_pool(input, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4462152440-1">(</span><span class="p" data-group-id="4462152440-2">[</span><span class="p" data-group-id="4462152440-3">[</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="4462152440-4">[</span><span class="mf">0.051500000059604645</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7042999863624573</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.32899999618530273</span><span class="p" data-group-id="4462152440-4">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="4462152440-5">[</span><span class="o">-</span><span class="mf">0.37130001187324524</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6191999912261963</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11829999834299088</span><span class="p" data-group-id="4462152440-5">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="4462152440-6">[</span><span class="mf">0.7099999785423279</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7282999753952026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18639999628067017</span><span class="p" data-group-id="4462152440-6">]</span><span class="p" data-group-id="4462152440-3">]</span><span class="p" data-group-id="4462152440-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4462152440-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4462152440-7">}</span><span class="p" data-group-id="4462152440-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="4462152440-8">(</span><span class="n">t</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="4462152440-8">)</span><span class="w">
-</span><span class="p" data-group-id="4462152440-9">#</span><span class="nc" data-group-id="4462152440-9">Nx.Tensor</span><span class="p" data-group-id="4462152440-9">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4462152440-10">[</span><span class="mi">1</span><span class="p" data-group-id="4462152440-10">]</span><span class="p" data-group-id="4462152440-11">[</span><span class="mi">3</span><span class="p" data-group-id="4462152440-11">]</span><span class="p" data-group-id="4462152440-12">[</span><span class="mi">1</span><span class="p" data-group-id="4462152440-12">]</span><span class="w">
-  </span><span class="p" data-group-id="4462152440-13">[</span><span class="w">
-    </span><span class="p" data-group-id="4462152440-14">[</span><span class="w">
-      </span><span class="p" data-group-id="4462152440-15">[</span><span class="mf">0.051500000059604645</span><span class="p" data-group-id="4462152440-15">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4462152440-16">[</span><span class="mf">1.6191999912261963</span><span class="p" data-group-id="4462152440-16">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4462152440-17">[</span><span class="mf">0.7282999753952026</span><span class="p" data-group-id="4462152440-17">]</span><span class="w">
-    </span><span class="p" data-group-id="4462152440-14">]</span><span class="w">
-  </span><span class="p" data-group-id="4462152440-13">]</span><span class="w">
-</span><span class="p" data-group-id="4462152440-9">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">t</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3197587788-1">(</span><span class="p" data-group-id="3197587788-2">[</span><span class="p" data-group-id="3197587788-3">[</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3197587788-4">[</span><span class="mf">0.051500000059604645</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7042999863624573</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.32899999618530273</span><span class="p" data-group-id="3197587788-4">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3197587788-5">[</span><span class="o">-</span><span class="mf">0.37130001187324524</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6191999912261963</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11829999834299088</span><span class="p" data-group-id="3197587788-5">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3197587788-6">[</span><span class="mf">0.7099999785423279</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7282999753952026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18639999628067017</span><span class="p" data-group-id="3197587788-6">]</span><span class="p" data-group-id="3197587788-3">]</span><span class="p" data-group-id="3197587788-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3197587788-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3197587788-7">}</span><span class="p" data-group-id="3197587788-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="3197587788-8">(</span><span class="n">t</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3197587788-8">)</span><span class="w">
+</span><span class="p" data-group-id="3197587788-9">#</span><span class="nc" data-group-id="3197587788-9">Nx.Tensor</span><span class="p" data-group-id="3197587788-9">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3197587788-10">[</span><span class="mi">1</span><span class="p" data-group-id="3197587788-10">]</span><span class="p" data-group-id="3197587788-11">[</span><span class="mi">3</span><span class="p" data-group-id="3197587788-11">]</span><span class="p" data-group-id="3197587788-12">[</span><span class="mi">1</span><span class="p" data-group-id="3197587788-12">]</span><span class="w">
+  </span><span class="p" data-group-id="3197587788-13">[</span><span class="w">
+    </span><span class="p" data-group-id="3197587788-14">[</span><span class="w">
+      </span><span class="p" data-group-id="3197587788-15">[</span><span class="mf">0.051500000059604645</span><span class="p" data-group-id="3197587788-15">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3197587788-16">[</span><span class="mf">1.6191999912261963</span><span class="p" data-group-id="3197587788-16">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3197587788-17">[</span><span class="mf">0.7282999753952026</span><span class="p" data-group-id="3197587788-17">]</span><span class="w">
+    </span><span class="p" data-group-id="3197587788-14">]</span><span class="w">
+  </span><span class="p" data-group-id="3197587788-13">]</span><span class="w">
+</span><span class="p" data-group-id="3197587788-9">&gt;</span></code></pre>
   </section>
 </section>
 
@@ -1826,13 +1826,13 @@ <h1 class="signature" translate="no">flatten(input, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="5450359357-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5450359357-2">(</span><span class="p" data-group-id="5450359357-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5450359357-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5450359357-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5450359357-4">}</span><span class="p" data-group-id="5450359357-2">)</span><span class="p" data-group-id="5450359357-1">)</span><span class="w">
-</span><span class="p" data-group-id="5450359357-5">#</span><span class="nc" data-group-id="5450359357-5">Nx.Tensor</span><span class="p" data-group-id="5450359357-5">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5450359357-6">[</span><span class="mi">1</span><span class="p" data-group-id="5450359357-6">]</span><span class="p" data-group-id="5450359357-7">[</span><span class="mi">4</span><span class="p" data-group-id="5450359357-7">]</span><span class="w">
-  </span><span class="p" data-group-id="5450359357-8">[</span><span class="w">
-    </span><span class="p" data-group-id="5450359357-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="5450359357-9">]</span><span class="w">
-  </span><span class="p" data-group-id="5450359357-8">]</span><span class="w">
-</span><span class="p" data-group-id="5450359357-5">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="3962776820-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3962776820-2">(</span><span class="p" data-group-id="3962776820-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="3962776820-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3962776820-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3962776820-4">}</span><span class="p" data-group-id="3962776820-2">)</span><span class="p" data-group-id="3962776820-1">)</span><span class="w">
+</span><span class="p" data-group-id="3962776820-5">#</span><span class="nc" data-group-id="3962776820-5">Nx.Tensor</span><span class="p" data-group-id="3962776820-5">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3962776820-6">[</span><span class="mi">1</span><span class="p" data-group-id="3962776820-6">]</span><span class="p" data-group-id="3962776820-7">[</span><span class="mi">4</span><span class="p" data-group-id="3962776820-7">]</span><span class="w">
+  </span><span class="p" data-group-id="3962776820-8">[</span><span class="w">
+    </span><span class="p" data-group-id="3962776820-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="3962776820-9">]</span><span class="w">
+  </span><span class="p" data-group-id="3962776820-8">]</span><span class="w">
+</span><span class="p" data-group-id="3962776820-5">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="resize/2">
@@ -1878,28 +1878,28 @@ <h1 class="signature" translate="no">resize(input, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">img</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1116224464-1">(</span><span class="p" data-group-id="1116224464-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1116224464-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1116224464-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1116224464-3">}</span><span class="p" data-group-id="1116224464-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="1116224464-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="ss">size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1116224464-5">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="1116224464-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="1116224464-4">)</span><span class="w">
-</span><span class="p" data-group-id="1116224464-6">#</span><span class="nc" data-group-id="1116224464-6">Nx.Tensor</span><span class="p" data-group-id="1116224464-6">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1116224464-7">[</span><span class="mi">1</span><span class="p" data-group-id="1116224464-7">]</span><span class="p" data-group-id="1116224464-8">[</span><span class="mi">1</span><span class="p" data-group-id="1116224464-8">]</span><span class="p" data-group-id="1116224464-9">[</span><span class="mi">4</span><span class="p" data-group-id="1116224464-9">]</span><span class="p" data-group-id="1116224464-10">[</span><span class="mi">4</span><span class="p" data-group-id="1116224464-10">]</span><span class="w">
-  </span><span class="p" data-group-id="1116224464-11">[</span><span class="w">
-    </span><span class="p" data-group-id="1116224464-12">[</span><span class="w">
-      </span><span class="p" data-group-id="1116224464-13">[</span><span class="w">
-        </span><span class="p" data-group-id="1116224464-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="1116224464-14">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1116224464-15">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="1116224464-15">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1116224464-16">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="1116224464-16">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1116224464-17">[</span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.0</span><span class="p" data-group-id="1116224464-17">]</span><span class="w">
-      </span><span class="p" data-group-id="1116224464-13">]</span><span class="w">
-    </span><span class="p" data-group-id="1116224464-12">]</span><span class="w">
-  </span><span class="p" data-group-id="1116224464-11">]</span><span class="w">
-</span><span class="p" data-group-id="1116224464-6">&gt;</span></code></pre><h3 id="resize/2-error-cases" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">img</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0725465966-1">(</span><span class="p" data-group-id="0725465966-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0725465966-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0725465966-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0725465966-3">}</span><span class="p" data-group-id="0725465966-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="0725465966-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="ss">size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0725465966-5">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="0725465966-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="0725465966-4">)</span><span class="w">
+</span><span class="p" data-group-id="0725465966-6">#</span><span class="nc" data-group-id="0725465966-6">Nx.Tensor</span><span class="p" data-group-id="0725465966-6">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0725465966-7">[</span><span class="mi">1</span><span class="p" data-group-id="0725465966-7">]</span><span class="p" data-group-id="0725465966-8">[</span><span class="mi">1</span><span class="p" data-group-id="0725465966-8">]</span><span class="p" data-group-id="0725465966-9">[</span><span class="mi">4</span><span class="p" data-group-id="0725465966-9">]</span><span class="p" data-group-id="0725465966-10">[</span><span class="mi">4</span><span class="p" data-group-id="0725465966-10">]</span><span class="w">
+  </span><span class="p" data-group-id="0725465966-11">[</span><span class="w">
+    </span><span class="p" data-group-id="0725465966-12">[</span><span class="w">
+      </span><span class="p" data-group-id="0725465966-13">[</span><span class="w">
+        </span><span class="p" data-group-id="0725465966-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="0725465966-14">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0725465966-15">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="0725465966-15">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0725465966-16">[</span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p" data-group-id="0725465966-16">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0725465966-17">[</span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.0</span><span class="p" data-group-id="0725465966-17">]</span><span class="w">
+      </span><span class="p" data-group-id="0725465966-13">]</span><span class="w">
+    </span><span class="p" data-group-id="0725465966-12">]</span><span class="w">
+  </span><span class="p" data-group-id="0725465966-11">]</span><span class="w">
+</span><span class="p" data-group-id="0725465966-6">&gt;</span></code></pre><h3 id="resize/2-error-cases" class="section-heading">
   <a href="#resize/2-error-cases" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Error cases</span>
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">img</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="8680057109-1">(</span><span class="p" data-group-id="8680057109-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8680057109-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8680057109-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8680057109-3">}</span><span class="p" data-group-id="8680057109-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="8680057109-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="ss">size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8680057109-5">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="8680057109-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">method</span><span class="p">:</span><span class="w"> </span><span class="ss">:foo</span><span class="p" data-group-id="8680057109-4">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">img</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0900042089-1">(</span><span class="p" data-group-id="0900042089-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0900042089-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0900042089-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0900042089-3">}</span><span class="p" data-group-id="0900042089-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="0900042089-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="ss">size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0900042089-5">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="0900042089-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">method</span><span class="p">:</span><span class="w"> </span><span class="ss">:foo</span><span class="p" data-group-id="0900042089-4">)</span><span class="w">
 </span><span class="gt">** (ArgumentError) expected :method to be either of :nearest, :bilinear, :bicubic, :lanczos3, :lanczos5, got: :foo</span></code></pre>
   </section>
 </section>
@@ -1979,83 +1979,83 @@ <h3 id="conv/4-one-dimensional-convolution" class="section-heading">
   </a>
   <span class="text">One-dimensional convolution</span>
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4988350686-1">(</span><span class="p" data-group-id="4988350686-2">[</span><span class="p" data-group-id="4988350686-3">[</span><span class="p" data-group-id="4988350686-4">[</span><span class="mf">0.1294</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6638</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0251</span><span class="p" data-group-id="4988350686-4">]</span><span class="p" data-group-id="4988350686-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4988350686-5">[</span><span class="p" data-group-id="4988350686-6">[</span><span class="w"> </span><span class="mf">0.9182</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1512</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6149</span><span class="p" data-group-id="4988350686-6">]</span><span class="p" data-group-id="4988350686-5">]</span><span class="p" data-group-id="4988350686-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4988350686-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4988350686-7">}</span><span class="p" data-group-id="4988350686-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4988350686-8">(</span><span class="p" data-group-id="4988350686-9">[</span><span class="p" data-group-id="4988350686-10">[</span><span class="p" data-group-id="4988350686-11">[</span><span class="o">-</span><span class="mf">1.5475</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2425</span><span class="p" data-group-id="4988350686-11">]</span><span class="p" data-group-id="4988350686-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4988350686-12">[</span><span class="p" data-group-id="4988350686-13">[</span><span class="mf">0.1871</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5458</span><span class="p" data-group-id="4988350686-13">]</span><span class="p" data-group-id="4988350686-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4988350686-14">[</span><span class="p" data-group-id="4988350686-15">[</span><span class="o">-</span><span class="mf">0.4488</span><span class="p">,</span><span class="w">  </span><span class="mf">0.8879</span><span class="p" data-group-id="4988350686-15">]</span><span class="p" data-group-id="4988350686-14">]</span><span class="p" data-group-id="4988350686-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4988350686-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4988350686-16">}</span><span class="p" data-group-id="4988350686-8">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4988350686-17">(</span><span class="p" data-group-id="4988350686-18">[</span><span class="mf">0.7791</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1676</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5971</span><span class="p" data-group-id="4988350686-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4988350686-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4988350686-19">}</span><span class="p" data-group-id="4988350686-17">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="4988350686-20">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="4988350686-20">)</span><span class="w">
-</span><span class="p" data-group-id="4988350686-21">#</span><span class="nc" data-group-id="4988350686-21">Nx.Tensor</span><span class="p" data-group-id="4988350686-21">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="4988350686-22">[</span><span class="mi">2</span><span class="p" data-group-id="4988350686-22">]</span><span class="p" data-group-id="4988350686-23">[</span><span class="mi">3</span><span class="p" data-group-id="4988350686-23">]</span><span class="p" data-group-id="4988350686-24">[</span><span class="mi">2</span><span class="p" data-group-id="4988350686-24">]</span><span class="w">
-  </span><span class="p" data-group-id="4988350686-25">[</span><span class="w">
-    </span><span class="p" data-group-id="4988350686-26">[</span><span class="w">
-      </span><span class="p" data-group-id="4988350686-27">[</span><span class="o">-</span><span class="mf">0.24591797590255737</span><span class="p">,</span><span class="w"> </span><span class="mf">3.08001708984375</span><span class="p" data-group-id="4988350686-27">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4988350686-28">[</span><span class="o">-</span><span class="mf">0.1704912781715393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6029025316238403</span><span class="p" data-group-id="4988350686-28">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4988350686-29">[</span><span class="mf">0.9496372938156128</span><span class="p">,</span><span class="w"> </span><span class="mf">2.80519962310791</span><span class="p" data-group-id="4988350686-29">]</span><span class="w">
-    </span><span class="p" data-group-id="4988350686-26">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="4988350686-30">[</span><span class="w">
-      </span><span class="p" data-group-id="4988350686-31">[</span><span class="mf">0.7885514497756958</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0088953971862793</span><span class="p" data-group-id="4988350686-31">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4988350686-32">[</span><span class="mf">0.9677201509475708</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4984228312969208</span><span class="p" data-group-id="4988350686-32">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4988350686-33">[</span><span class="mf">2.207162380218506</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3534282445907593</span><span class="p" data-group-id="4988350686-33">]</span><span class="w">
-    </span><span class="p" data-group-id="4988350686-30">]</span><span class="w">
-  </span><span class="p" data-group-id="4988350686-25">]</span><span class="w">
-</span><span class="p" data-group-id="4988350686-21">&gt;</span></code></pre><h3 id="conv/4-two-dimensional-convolution" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3882566485-1">(</span><span class="p" data-group-id="3882566485-2">[</span><span class="p" data-group-id="3882566485-3">[</span><span class="p" data-group-id="3882566485-4">[</span><span class="mf">0.1294</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6638</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0251</span><span class="p" data-group-id="3882566485-4">]</span><span class="p" data-group-id="3882566485-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3882566485-5">[</span><span class="p" data-group-id="3882566485-6">[</span><span class="w"> </span><span class="mf">0.9182</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1512</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.6149</span><span class="p" data-group-id="3882566485-6">]</span><span class="p" data-group-id="3882566485-5">]</span><span class="p" data-group-id="3882566485-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3882566485-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3882566485-7">}</span><span class="p" data-group-id="3882566485-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3882566485-8">(</span><span class="p" data-group-id="3882566485-9">[</span><span class="p" data-group-id="3882566485-10">[</span><span class="p" data-group-id="3882566485-11">[</span><span class="o">-</span><span class="mf">1.5475</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2425</span><span class="p" data-group-id="3882566485-11">]</span><span class="p" data-group-id="3882566485-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3882566485-12">[</span><span class="p" data-group-id="3882566485-13">[</span><span class="mf">0.1871</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5458</span><span class="p" data-group-id="3882566485-13">]</span><span class="p" data-group-id="3882566485-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3882566485-14">[</span><span class="p" data-group-id="3882566485-15">[</span><span class="o">-</span><span class="mf">0.4488</span><span class="p">,</span><span class="w">  </span><span class="mf">0.8879</span><span class="p" data-group-id="3882566485-15">]</span><span class="p" data-group-id="3882566485-14">]</span><span class="p" data-group-id="3882566485-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3882566485-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3882566485-16">}</span><span class="p" data-group-id="3882566485-8">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3882566485-17">(</span><span class="p" data-group-id="3882566485-18">[</span><span class="mf">0.7791</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1676</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5971</span><span class="p" data-group-id="3882566485-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3882566485-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3882566485-19">}</span><span class="p" data-group-id="3882566485-17">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="3882566485-20">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3882566485-20">)</span><span class="w">
+</span><span class="p" data-group-id="3882566485-21">#</span><span class="nc" data-group-id="3882566485-21">Nx.Tensor</span><span class="p" data-group-id="3882566485-21">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3882566485-22">[</span><span class="mi">2</span><span class="p" data-group-id="3882566485-22">]</span><span class="p" data-group-id="3882566485-23">[</span><span class="mi">3</span><span class="p" data-group-id="3882566485-23">]</span><span class="p" data-group-id="3882566485-24">[</span><span class="mi">2</span><span class="p" data-group-id="3882566485-24">]</span><span class="w">
+  </span><span class="p" data-group-id="3882566485-25">[</span><span class="w">
+    </span><span class="p" data-group-id="3882566485-26">[</span><span class="w">
+      </span><span class="p" data-group-id="3882566485-27">[</span><span class="o">-</span><span class="mf">0.24591797590255737</span><span class="p">,</span><span class="w"> </span><span class="mf">3.08001708984375</span><span class="p" data-group-id="3882566485-27">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3882566485-28">[</span><span class="o">-</span><span class="mf">0.1704912781715393</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6029025316238403</span><span class="p" data-group-id="3882566485-28">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3882566485-29">[</span><span class="mf">0.9496372938156128</span><span class="p">,</span><span class="w"> </span><span class="mf">2.80519962310791</span><span class="p" data-group-id="3882566485-29">]</span><span class="w">
+    </span><span class="p" data-group-id="3882566485-26">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3882566485-30">[</span><span class="w">
+      </span><span class="p" data-group-id="3882566485-31">[</span><span class="mf">0.7885514497756958</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.0088953971862793</span><span class="p" data-group-id="3882566485-31">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3882566485-32">[</span><span class="mf">0.9677201509475708</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4984228312969208</span><span class="p" data-group-id="3882566485-32">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3882566485-33">[</span><span class="mf">2.207162380218506</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3534282445907593</span><span class="p" data-group-id="3882566485-33">]</span><span class="w">
+    </span><span class="p" data-group-id="3882566485-30">]</span><span class="w">
+  </span><span class="p" data-group-id="3882566485-25">]</span><span class="w">
+</span><span class="p" data-group-id="3882566485-21">&gt;</span></code></pre><h3 id="conv/4-two-dimensional-convolution" class="section-heading">
   <a href="#conv/4-two-dimensional-convolution" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Two-dimensional convolution</span>
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6869497844-1">(</span><span class="p" data-group-id="6869497844-2">[</span><span class="p" data-group-id="6869497844-3">[</span><span class="p" data-group-id="6869497844-4">[</span><span class="p" data-group-id="6869497844-5">[</span><span class="o">-</span><span class="mf">1.0476</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5041</span><span class="p" data-group-id="6869497844-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6869497844-6">[</span><span class="o">-</span><span class="mf">0.9336</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5907</span><span class="p" data-group-id="6869497844-6">]</span><span class="p" data-group-id="6869497844-4">]</span><span class="p" data-group-id="6869497844-3">]</span><span class="p" data-group-id="6869497844-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6869497844-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6869497844-7">}</span><span class="p" data-group-id="6869497844-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6869497844-8">(</span><span class="p" data-group-id="6869497844-9">[</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="6869497844-10">[</span><span class="p" data-group-id="6869497844-11">[</span><span class="p" data-group-id="6869497844-12">[</span><span class="mf">0.7514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7356</span><span class="p" data-group-id="6869497844-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6869497844-13">[</span><span class="mf">1.3909</span><span class="p">,</span><span class="w">  </span><span class="mf">0.6800</span><span class="p" data-group-id="6869497844-13">]</span><span class="p" data-group-id="6869497844-11">]</span><span class="p" data-group-id="6869497844-10">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="6869497844-14">[</span><span class="p" data-group-id="6869497844-15">[</span><span class="p" data-group-id="6869497844-16">[</span><span class="o">-</span><span class="mf">0.3450</span><span class="p">,</span><span class="w">  </span><span class="mf">0.4551</span><span class="p" data-group-id="6869497844-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6869497844-17">[</span><span class="o">-</span><span class="mf">0.6275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9875</span><span class="p" data-group-id="6869497844-17">]</span><span class="p" data-group-id="6869497844-15">]</span><span class="p" data-group-id="6869497844-14">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="6869497844-18">[</span><span class="p" data-group-id="6869497844-19">[</span><span class="p" data-group-id="6869497844-20">[</span><span class="mf">1.8587</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4722</span><span class="p" data-group-id="6869497844-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6869497844-21">[</span><span class="mf">0.6058</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0301</span><span class="p" data-group-id="6869497844-21">]</span><span class="p" data-group-id="6869497844-19">]</span><span class="p" data-group-id="6869497844-18">]</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="6869497844-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6869497844-22">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6869497844-22">}</span><span class="p" data-group-id="6869497844-8">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6869497844-23">(</span><span class="p" data-group-id="6869497844-24">[</span><span class="mf">1.9564</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5385</span><span class="p" data-group-id="6869497844-24">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6869497844-25">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6869497844-25">}</span><span class="p" data-group-id="6869497844-23">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="6869497844-26">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="6869497844-26">)</span><span class="w">
-</span><span class="p" data-group-id="6869497844-27">#</span><span class="nc" data-group-id="6869497844-27">Nx.Tensor</span><span class="p" data-group-id="6869497844-27">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6869497844-28">[</span><span class="mi">1</span><span class="p" data-group-id="6869497844-28">]</span><span class="p" data-group-id="6869497844-29">[</span><span class="mi">3</span><span class="p" data-group-id="6869497844-29">]</span><span class="p" data-group-id="6869497844-30">[</span><span class="mi">1</span><span class="p" data-group-id="6869497844-30">]</span><span class="p" data-group-id="6869497844-31">[</span><span class="mi">1</span><span class="p" data-group-id="6869497844-31">]</span><span class="w">
-  </span><span class="p" data-group-id="6869497844-32">[</span><span class="w">
-    </span><span class="p" data-group-id="6869497844-33">[</span><span class="w">
-      </span><span class="p" data-group-id="6869497844-34">[</span><span class="w">
-        </span><span class="p" data-group-id="6869497844-35">[</span><span class="mf">0.5815491676330566</span><span class="p" data-group-id="6869497844-35">]</span><span class="w">
-      </span><span class="p" data-group-id="6869497844-34">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="6869497844-36">[</span><span class="w">
-        </span><span class="p" data-group-id="6869497844-37">[</span><span class="o">-</span><span class="mf">0.5707762241363525</span><span class="p" data-group-id="6869497844-37">]</span><span class="w">
-      </span><span class="p" data-group-id="6869497844-36">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="6869497844-38">[</span><span class="w">
-        </span><span class="p" data-group-id="6869497844-39">[</span><span class="o">-</span><span class="mf">4.927865028381348</span><span class="p" data-group-id="6869497844-39">]</span><span class="w">
-      </span><span class="p" data-group-id="6869497844-38">]</span><span class="w">
-    </span><span class="p" data-group-id="6869497844-33">]</span><span class="w">
-  </span><span class="p" data-group-id="6869497844-32">]</span><span class="w">
-</span><span class="p" data-group-id="6869497844-27">&gt;</span></code></pre><h3 id="conv/4-three-dimensional-convolution" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8925013934-1">(</span><span class="p" data-group-id="8925013934-2">[</span><span class="p" data-group-id="8925013934-3">[</span><span class="p" data-group-id="8925013934-4">[</span><span class="p" data-group-id="8925013934-5">[</span><span class="o">-</span><span class="mf">1.0476</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5041</span><span class="p" data-group-id="8925013934-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8925013934-6">[</span><span class="o">-</span><span class="mf">0.9336</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5907</span><span class="p" data-group-id="8925013934-6">]</span><span class="p" data-group-id="8925013934-4">]</span><span class="p" data-group-id="8925013934-3">]</span><span class="p" data-group-id="8925013934-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8925013934-7">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8925013934-7">}</span><span class="p" data-group-id="8925013934-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8925013934-8">(</span><span class="p" data-group-id="8925013934-9">[</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8925013934-10">[</span><span class="p" data-group-id="8925013934-11">[</span><span class="p" data-group-id="8925013934-12">[</span><span class="mf">0.7514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7356</span><span class="p" data-group-id="8925013934-12">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8925013934-13">[</span><span class="mf">1.3909</span><span class="p">,</span><span class="w">  </span><span class="mf">0.6800</span><span class="p" data-group-id="8925013934-13">]</span><span class="p" data-group-id="8925013934-11">]</span><span class="p" data-group-id="8925013934-10">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8925013934-14">[</span><span class="p" data-group-id="8925013934-15">[</span><span class="p" data-group-id="8925013934-16">[</span><span class="o">-</span><span class="mf">0.3450</span><span class="p">,</span><span class="w">  </span><span class="mf">0.4551</span><span class="p" data-group-id="8925013934-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8925013934-17">[</span><span class="o">-</span><span class="mf">0.6275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9875</span><span class="p" data-group-id="8925013934-17">]</span><span class="p" data-group-id="8925013934-15">]</span><span class="p" data-group-id="8925013934-14">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="8925013934-18">[</span><span class="p" data-group-id="8925013934-19">[</span><span class="p" data-group-id="8925013934-20">[</span><span class="mf">1.8587</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4722</span><span class="p" data-group-id="8925013934-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8925013934-21">[</span><span class="mf">0.6058</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0301</span><span class="p" data-group-id="8925013934-21">]</span><span class="p" data-group-id="8925013934-19">]</span><span class="p" data-group-id="8925013934-18">]</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="8925013934-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8925013934-22">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8925013934-22">}</span><span class="p" data-group-id="8925013934-8">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8925013934-23">(</span><span class="p" data-group-id="8925013934-24">[</span><span class="mf">1.9564</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5385</span><span class="p" data-group-id="8925013934-24">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8925013934-25">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8925013934-25">}</span><span class="p" data-group-id="8925013934-23">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="8925013934-26">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="8925013934-26">)</span><span class="w">
+</span><span class="p" data-group-id="8925013934-27">#</span><span class="nc" data-group-id="8925013934-27">Nx.Tensor</span><span class="p" data-group-id="8925013934-27">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8925013934-28">[</span><span class="mi">1</span><span class="p" data-group-id="8925013934-28">]</span><span class="p" data-group-id="8925013934-29">[</span><span class="mi">3</span><span class="p" data-group-id="8925013934-29">]</span><span class="p" data-group-id="8925013934-30">[</span><span class="mi">1</span><span class="p" data-group-id="8925013934-30">]</span><span class="p" data-group-id="8925013934-31">[</span><span class="mi">1</span><span class="p" data-group-id="8925013934-31">]</span><span class="w">
+  </span><span class="p" data-group-id="8925013934-32">[</span><span class="w">
+    </span><span class="p" data-group-id="8925013934-33">[</span><span class="w">
+      </span><span class="p" data-group-id="8925013934-34">[</span><span class="w">
+        </span><span class="p" data-group-id="8925013934-35">[</span><span class="mf">0.5815491676330566</span><span class="p" data-group-id="8925013934-35">]</span><span class="w">
+      </span><span class="p" data-group-id="8925013934-34">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="8925013934-36">[</span><span class="w">
+        </span><span class="p" data-group-id="8925013934-37">[</span><span class="o">-</span><span class="mf">0.5707762241363525</span><span class="p" data-group-id="8925013934-37">]</span><span class="w">
+      </span><span class="p" data-group-id="8925013934-36">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="8925013934-38">[</span><span class="w">
+        </span><span class="p" data-group-id="8925013934-39">[</span><span class="o">-</span><span class="mf">4.927865028381348</span><span class="p" data-group-id="8925013934-39">]</span><span class="w">
+      </span><span class="p" data-group-id="8925013934-38">]</span><span class="w">
+    </span><span class="p" data-group-id="8925013934-33">]</span><span class="w">
+  </span><span class="p" data-group-id="8925013934-32">]</span><span class="w">
+</span><span class="p" data-group-id="8925013934-27">&gt;</span></code></pre><h3 id="conv/4-three-dimensional-convolution" class="section-heading">
   <a href="#conv/4-three-dimensional-convolution" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Three-dimensional convolution</span>
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9471037078-1">(</span><span class="p" data-group-id="9471037078-2">[</span><span class="p" data-group-id="9471037078-3">[</span><span class="p" data-group-id="9471037078-4">[</span><span class="p" data-group-id="9471037078-5">[</span><span class="p" data-group-id="9471037078-6">[</span><span class="o">-</span><span class="mf">0.6497</span><span class="p" data-group-id="9471037078-6">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-7">[</span><span class="mf">1.0939</span><span class="p" data-group-id="9471037078-7">]</span><span class="p" data-group-id="9471037078-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-8">[</span><span class="p" data-group-id="9471037078-9">[</span><span class="o">-</span><span class="mf">2.5465</span><span class="p" data-group-id="9471037078-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-10">[</span><span class="mf">0.7801</span><span class="p" data-group-id="9471037078-10">]</span><span class="p" data-group-id="9471037078-8">]</span><span class="p" data-group-id="9471037078-4">]</span><span class="p" data-group-id="9471037078-3">]</span><span class="p" data-group-id="9471037078-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9471037078-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9471037078-11">}</span><span class="p" data-group-id="9471037078-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9471037078-12">(</span><span class="p" data-group-id="9471037078-13">[</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9471037078-14">[</span><span class="p" data-group-id="9471037078-15">[</span><span class="p" data-group-id="9471037078-16">[</span><span class="p" data-group-id="9471037078-17">[</span><span class="w"> </span><span class="mf">0.7390</span><span class="p" data-group-id="9471037078-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-18">[</span><span class="o">-</span><span class="mf">0.0927</span><span class="p" data-group-id="9471037078-18">]</span><span class="p" data-group-id="9471037078-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-19">[</span><span class="p" data-group-id="9471037078-20">[</span><span class="o">-</span><span class="mf">0.8675</span><span class="p" data-group-id="9471037078-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-21">[</span><span class="o">-</span><span class="mf">0.9209</span><span class="p" data-group-id="9471037078-21">]</span><span class="p" data-group-id="9471037078-19">]</span><span class="p" data-group-id="9471037078-15">]</span><span class="p" data-group-id="9471037078-14">]</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="9471037078-22">[</span><span class="p" data-group-id="9471037078-23">[</span><span class="p" data-group-id="9471037078-24">[</span><span class="p" data-group-id="9471037078-25">[</span><span class="o">-</span><span class="mf">0.6638</span><span class="p" data-group-id="9471037078-25">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-26">[</span><span class="mf">0.4341</span><span class="p" data-group-id="9471037078-26">]</span><span class="p" data-group-id="9471037078-24">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-27">[</span><span class="p" data-group-id="9471037078-28">[</span><span class="mf">0.6368</span><span class="p" data-group-id="9471037078-28">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9471037078-29">[</span><span class="mf">1.1846</span><span class="p" data-group-id="9471037078-29">]</span><span class="p" data-group-id="9471037078-27">]</span><span class="p" data-group-id="9471037078-23">]</span><span class="p" data-group-id="9471037078-22">]</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="9471037078-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9471037078-30">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9471037078-30">}</span><span class="p" data-group-id="9471037078-12">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9471037078-31">(</span><span class="p" data-group-id="9471037078-32">[</span><span class="o">-</span><span class="mf">0.4101</span><span class="p">,</span><span class="w">  </span><span class="mf">0.1776</span><span class="p" data-group-id="9471037078-32">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9471037078-33">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9471037078-33">}</span><span class="p" data-group-id="9471037078-31">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9471037078-34">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="9471037078-34">)</span><span class="w">
-</span><span class="p" data-group-id="9471037078-35">#</span><span class="nc" data-group-id="9471037078-35">Nx.Tensor</span><span class="p" data-group-id="9471037078-35">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9471037078-36">[</span><span class="mi">1</span><span class="p" data-group-id="9471037078-36">]</span><span class="p" data-group-id="9471037078-37">[</span><span class="mi">2</span><span class="p" data-group-id="9471037078-37">]</span><span class="p" data-group-id="9471037078-38">[</span><span class="mi">1</span><span class="p" data-group-id="9471037078-38">]</span><span class="p" data-group-id="9471037078-39">[</span><span class="mi">1</span><span class="p" data-group-id="9471037078-39">]</span><span class="p" data-group-id="9471037078-40">[</span><span class="mi">1</span><span class="p" data-group-id="9471037078-40">]</span><span class="w">
-  </span><span class="p" data-group-id="9471037078-41">[</span><span class="w">
-    </span><span class="p" data-group-id="9471037078-42">[</span><span class="w">
-      </span><span class="p" data-group-id="9471037078-43">[</span><span class="w">
-        </span><span class="p" data-group-id="9471037078-44">[</span><span class="w">
-          </span><span class="p" data-group-id="9471037078-45">[</span><span class="mf">0.49906185269355774</span><span class="p" data-group-id="9471037078-45">]</span><span class="w">
-        </span><span class="p" data-group-id="9471037078-44">]</span><span class="w">
-      </span><span class="p" data-group-id="9471037078-43">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="9471037078-46">[</span><span class="w">
-        </span><span class="p" data-group-id="9471037078-47">[</span><span class="w">
-          </span><span class="p" data-group-id="9471037078-48">[</span><span class="mf">0.38622811436653137</span><span class="p" data-group-id="9471037078-48">]</span><span class="w">
-        </span><span class="p" data-group-id="9471037078-47">]</span><span class="w">
-      </span><span class="p" data-group-id="9471037078-46">]</span><span class="w">
-    </span><span class="p" data-group-id="9471037078-42">]</span><span class="w">
-  </span><span class="p" data-group-id="9471037078-41">]</span><span class="w">
-</span><span class="p" data-group-id="9471037078-35">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3270254097-1">(</span><span class="p" data-group-id="3270254097-2">[</span><span class="p" data-group-id="3270254097-3">[</span><span class="p" data-group-id="3270254097-4">[</span><span class="p" data-group-id="3270254097-5">[</span><span class="p" data-group-id="3270254097-6">[</span><span class="o">-</span><span class="mf">0.6497</span><span class="p" data-group-id="3270254097-6">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-7">[</span><span class="mf">1.0939</span><span class="p" data-group-id="3270254097-7">]</span><span class="p" data-group-id="3270254097-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-8">[</span><span class="p" data-group-id="3270254097-9">[</span><span class="o">-</span><span class="mf">2.5465</span><span class="p" data-group-id="3270254097-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-10">[</span><span class="mf">0.7801</span><span class="p" data-group-id="3270254097-10">]</span><span class="p" data-group-id="3270254097-8">]</span><span class="p" data-group-id="3270254097-4">]</span><span class="p" data-group-id="3270254097-3">]</span><span class="p" data-group-id="3270254097-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3270254097-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3270254097-11">}</span><span class="p" data-group-id="3270254097-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3270254097-12">(</span><span class="p" data-group-id="3270254097-13">[</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3270254097-14">[</span><span class="p" data-group-id="3270254097-15">[</span><span class="p" data-group-id="3270254097-16">[</span><span class="p" data-group-id="3270254097-17">[</span><span class="w"> </span><span class="mf">0.7390</span><span class="p" data-group-id="3270254097-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-18">[</span><span class="o">-</span><span class="mf">0.0927</span><span class="p" data-group-id="3270254097-18">]</span><span class="p" data-group-id="3270254097-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-19">[</span><span class="p" data-group-id="3270254097-20">[</span><span class="o">-</span><span class="mf">0.8675</span><span class="p" data-group-id="3270254097-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-21">[</span><span class="o">-</span><span class="mf">0.9209</span><span class="p" data-group-id="3270254097-21">]</span><span class="p" data-group-id="3270254097-19">]</span><span class="p" data-group-id="3270254097-15">]</span><span class="p" data-group-id="3270254097-14">]</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w"> </span><span class="p" data-group-id="3270254097-22">[</span><span class="p" data-group-id="3270254097-23">[</span><span class="p" data-group-id="3270254097-24">[</span><span class="p" data-group-id="3270254097-25">[</span><span class="o">-</span><span class="mf">0.6638</span><span class="p" data-group-id="3270254097-25">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-26">[</span><span class="mf">0.4341</span><span class="p" data-group-id="3270254097-26">]</span><span class="p" data-group-id="3270254097-24">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-27">[</span><span class="p" data-group-id="3270254097-28">[</span><span class="mf">0.6368</span><span class="p" data-group-id="3270254097-28">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3270254097-29">[</span><span class="mf">1.1846</span><span class="p" data-group-id="3270254097-29">]</span><span class="p" data-group-id="3270254097-27">]</span><span class="p" data-group-id="3270254097-23">]</span><span class="p" data-group-id="3270254097-22">]</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="3270254097-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3270254097-30">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3270254097-30">}</span><span class="p" data-group-id="3270254097-12">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3270254097-31">(</span><span class="p" data-group-id="3270254097-32">[</span><span class="o">-</span><span class="mf">0.4101</span><span class="p">,</span><span class="w">  </span><span class="mf">0.1776</span><span class="p" data-group-id="3270254097-32">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3270254097-33">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3270254097-33">}</span><span class="p" data-group-id="3270254097-31">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="3270254097-34">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="3270254097-34">)</span><span class="w">
+</span><span class="p" data-group-id="3270254097-35">#</span><span class="nc" data-group-id="3270254097-35">Nx.Tensor</span><span class="p" data-group-id="3270254097-35">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3270254097-36">[</span><span class="mi">1</span><span class="p" data-group-id="3270254097-36">]</span><span class="p" data-group-id="3270254097-37">[</span><span class="mi">2</span><span class="p" data-group-id="3270254097-37">]</span><span class="p" data-group-id="3270254097-38">[</span><span class="mi">1</span><span class="p" data-group-id="3270254097-38">]</span><span class="p" data-group-id="3270254097-39">[</span><span class="mi">1</span><span class="p" data-group-id="3270254097-39">]</span><span class="p" data-group-id="3270254097-40">[</span><span class="mi">1</span><span class="p" data-group-id="3270254097-40">]</span><span class="w">
+  </span><span class="p" data-group-id="3270254097-41">[</span><span class="w">
+    </span><span class="p" data-group-id="3270254097-42">[</span><span class="w">
+      </span><span class="p" data-group-id="3270254097-43">[</span><span class="w">
+        </span><span class="p" data-group-id="3270254097-44">[</span><span class="w">
+          </span><span class="p" data-group-id="3270254097-45">[</span><span class="mf">0.49906185269355774</span><span class="p" data-group-id="3270254097-45">]</span><span class="w">
+        </span><span class="p" data-group-id="3270254097-44">]</span><span class="w">
+      </span><span class="p" data-group-id="3270254097-43">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="3270254097-46">[</span><span class="w">
+        </span><span class="p" data-group-id="3270254097-47">[</span><span class="w">
+          </span><span class="p" data-group-id="3270254097-48">[</span><span class="mf">0.38622811436653137</span><span class="p" data-group-id="3270254097-48">]</span><span class="w">
+        </span><span class="p" data-group-id="3270254097-47">]</span><span class="w">
+      </span><span class="p" data-group-id="3270254097-46">]</span><span class="w">
+    </span><span class="p" data-group-id="3270254097-42">]</span><span class="w">
+  </span><span class="p" data-group-id="3270254097-41">]</span><span class="w">
+</span><span class="p" data-group-id="3270254097-35">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="conv_transpose/4">
@@ -2113,23 +2113,23 @@ <h1 class="signature" translate="no">conv_transpose(input, kernel, bias \\ 0, op
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5100106406-1">(</span><span class="p" data-group-id="5100106406-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5100106406-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5100106406-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5100106406-3">}</span><span class="p" data-group-id="5100106406-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5100106406-4">(</span><span class="p" data-group-id="5100106406-5">{</span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5100106406-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5100106406-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5100106406-6">}</span><span class="p" data-group-id="5100106406-4">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5100106406-7">(</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5100106406-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5100106406-8">}</span><span class="p" data-group-id="5100106406-7">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv_transpose</span><span class="p" data-group-id="5100106406-9">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="5100106406-9">)</span><span class="w">
-</span><span class="p" data-group-id="5100106406-10">#</span><span class="nc" data-group-id="5100106406-10">Nx.Tensor</span><span class="p" data-group-id="5100106406-10">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5100106406-11">[</span><span class="mi">1</span><span class="p" data-group-id="5100106406-11">]</span><span class="p" data-group-id="5100106406-12">[</span><span class="mi">6</span><span class="p" data-group-id="5100106406-12">]</span><span class="p" data-group-id="5100106406-13">[</span><span class="mi">4</span><span class="p" data-group-id="5100106406-13">]</span><span class="w">
-  </span><span class="p" data-group-id="5100106406-14">[</span><span class="w">
-    </span><span class="p" data-group-id="5100106406-15">[</span><span class="w">
-      </span><span class="p" data-group-id="5100106406-16">[</span><span class="mf">40.0</span><span class="p">,</span><span class="w"> </span><span class="mf">79.0</span><span class="p">,</span><span class="w"> </span><span class="mf">94.0</span><span class="p">,</span><span class="w"> </span><span class="mf">43.0</span><span class="p" data-group-id="5100106406-16">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5100106406-17">[</span><span class="mf">94.0</span><span class="p">,</span><span class="w"> </span><span class="mf">205.0</span><span class="p">,</span><span class="w"> </span><span class="mf">256.0</span><span class="p">,</span><span class="w"> </span><span class="mf">133.0</span><span class="p" data-group-id="5100106406-17">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5100106406-18">[</span><span class="mf">148.0</span><span class="p">,</span><span class="w"> </span><span class="mf">331.0</span><span class="p">,</span><span class="w"> </span><span class="mf">418.0</span><span class="p">,</span><span class="w"> </span><span class="mf">223.0</span><span class="p" data-group-id="5100106406-18">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5100106406-19">[</span><span class="mf">202.0</span><span class="p">,</span><span class="w"> </span><span class="mf">457.0</span><span class="p">,</span><span class="w"> </span><span class="mf">580.0</span><span class="p">,</span><span class="w"> </span><span class="mf">313.0</span><span class="p" data-group-id="5100106406-19">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5100106406-20">[</span><span class="mf">256.0</span><span class="p">,</span><span class="w"> </span><span class="mf">583.0</span><span class="p">,</span><span class="w"> </span><span class="mf">742.0</span><span class="p">,</span><span class="w"> </span><span class="mf">403.0</span><span class="p" data-group-id="5100106406-20">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5100106406-21">[</span><span class="mf">310.0</span><span class="p">,</span><span class="w"> </span><span class="mf">709.0</span><span class="p">,</span><span class="w"> </span><span class="mf">904.0</span><span class="p">,</span><span class="w"> </span><span class="mf">493.0</span><span class="p" data-group-id="5100106406-21">]</span><span class="w">
-    </span><span class="p" data-group-id="5100106406-15">]</span><span class="w">
-  </span><span class="p" data-group-id="5100106406-14">]</span><span class="w">
-</span><span class="p" data-group-id="5100106406-10">&gt;</span></code></pre><h2 id="conv_transpose/4-references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0490869590-1">(</span><span class="p" data-group-id="0490869590-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0490869590-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0490869590-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0490869590-3">}</span><span class="p" data-group-id="0490869590-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">kernel</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0490869590-4">(</span><span class="p" data-group-id="0490869590-5">{</span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0490869590-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0490869590-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0490869590-6">}</span><span class="p" data-group-id="0490869590-4">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">bias</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0490869590-7">(</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0490869590-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0490869590-8">}</span><span class="p" data-group-id="0490869590-7">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Layers</span><span class="o">.</span><span class="n">conv_transpose</span><span class="p" data-group-id="0490869590-9">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="ss">channels</span><span class="p">:</span><span class="w"> </span><span class="ss">:first</span><span class="p" data-group-id="0490869590-9">)</span><span class="w">
+</span><span class="p" data-group-id="0490869590-10">#</span><span class="nc" data-group-id="0490869590-10">Nx.Tensor</span><span class="p" data-group-id="0490869590-10">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0490869590-11">[</span><span class="mi">1</span><span class="p" data-group-id="0490869590-11">]</span><span class="p" data-group-id="0490869590-12">[</span><span class="mi">6</span><span class="p" data-group-id="0490869590-12">]</span><span class="p" data-group-id="0490869590-13">[</span><span class="mi">4</span><span class="p" data-group-id="0490869590-13">]</span><span class="w">
+  </span><span class="p" data-group-id="0490869590-14">[</span><span class="w">
+    </span><span class="p" data-group-id="0490869590-15">[</span><span class="w">
+      </span><span class="p" data-group-id="0490869590-16">[</span><span class="mf">40.0</span><span class="p">,</span><span class="w"> </span><span class="mf">79.0</span><span class="p">,</span><span class="w"> </span><span class="mf">94.0</span><span class="p">,</span><span class="w"> </span><span class="mf">43.0</span><span class="p" data-group-id="0490869590-16">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="0490869590-17">[</span><span class="mf">94.0</span><span class="p">,</span><span class="w"> </span><span class="mf">205.0</span><span class="p">,</span><span class="w"> </span><span class="mf">256.0</span><span class="p">,</span><span class="w"> </span><span class="mf">133.0</span><span class="p" data-group-id="0490869590-17">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="0490869590-18">[</span><span class="mf">148.0</span><span class="p">,</span><span class="w"> </span><span class="mf">331.0</span><span class="p">,</span><span class="w"> </span><span class="mf">418.0</span><span class="p">,</span><span class="w"> </span><span class="mf">223.0</span><span class="p" data-group-id="0490869590-18">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="0490869590-19">[</span><span class="mf">202.0</span><span class="p">,</span><span class="w"> </span><span class="mf">457.0</span><span class="p">,</span><span class="w"> </span><span class="mf">580.0</span><span class="p">,</span><span class="w"> </span><span class="mf">313.0</span><span class="p" data-group-id="0490869590-19">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="0490869590-20">[</span><span class="mf">256.0</span><span class="p">,</span><span class="w"> </span><span class="mf">583.0</span><span class="p">,</span><span class="w"> </span><span class="mf">742.0</span><span class="p">,</span><span class="w"> </span><span class="mf">403.0</span><span class="p" data-group-id="0490869590-20">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="0490869590-21">[</span><span class="mf">310.0</span><span class="p">,</span><span class="w"> </span><span class="mf">709.0</span><span class="p">,</span><span class="w"> </span><span class="mf">904.0</span><span class="p">,</span><span class="w"> </span><span class="mf">493.0</span><span class="p" data-group-id="0490869590-21">]</span><span class="w">
+    </span><span class="p" data-group-id="0490869590-15">]</span><span class="w">
+  </span><span class="p" data-group-id="0490869590-14">]</span><span class="w">
+</span><span class="p" data-group-id="0490869590-10">&gt;</span></code></pre><h2 id="conv_transpose/4-references" class="section-heading">
   <a href="#conv_transpose/4-references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
diff --git a/Axon.Loop.State.html b/Axon.Loop.State.html
index e0d3fc32..e70b01e3 100644
--- a/Axon.Loop.State.html
+++ b/Axon.Loop.State.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -133,16 +133,16 @@ <h1>
 
 
   <section id="moduledoc">
-<p>Accumulated state in an Axon.Loop.</p><p>Loop state is a struct:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4645259915-1">%</span><span class="nc" data-group-id="4645259915-1">State</span><span class="p" data-group-id="4645259915-1">{</span><span class="w">
-  </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="4645259915-2">(</span><span class="p" data-group-id="4645259915-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">max_epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="4645259915-3">(</span><span class="p" data-group-id="4645259915-3">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="4645259915-4">(</span><span class="p" data-group-id="4645259915-4">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">max_iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="4645259915-5">(</span><span class="p" data-group-id="4645259915-5">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="4645259915-6">(</span><span class="n">string</span><span class="p" data-group-id="4645259915-7">(</span><span class="p" data-group-id="4645259915-7">)</span><span class="p">,</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="4645259915-8">(</span><span class="p" data-group-id="4645259915-8">)</span><span class="p" data-group-id="4645259915-6">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">times</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="4645259915-9">(</span><span class="n">integer</span><span class="p" data-group-id="4645259915-10">(</span><span class="p" data-group-id="4645259915-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="4645259915-11">(</span><span class="p" data-group-id="4645259915-11">)</span><span class="p" data-group-id="4645259915-9">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="4645259915-12">(</span><span class="p" data-group-id="4645259915-12">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handler_metadata</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="4645259915-13">(</span><span class="p" data-group-id="4645259915-13">)</span><span class="w">
-</span><span class="p" data-group-id="4645259915-1">}</span></code></pre><p><code class="inline">epoch</code> is the current epoch, starting at 0, of the nested loop.
+<p>Accumulated state in an Axon.Loop.</p><p>Loop state is a struct:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6038210625-1">%</span><span class="nc" data-group-id="6038210625-1">State</span><span class="p" data-group-id="6038210625-1">{</span><span class="w">
+  </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6038210625-2">(</span><span class="p" data-group-id="6038210625-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">max_epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6038210625-3">(</span><span class="p" data-group-id="6038210625-3">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6038210625-4">(</span><span class="p" data-group-id="6038210625-4">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">max_iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6038210625-5">(</span><span class="p" data-group-id="6038210625-5">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="6038210625-6">(</span><span class="n">string</span><span class="p" data-group-id="6038210625-7">(</span><span class="p" data-group-id="6038210625-7">)</span><span class="p">,</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6038210625-8">(</span><span class="p" data-group-id="6038210625-8">)</span><span class="p" data-group-id="6038210625-6">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">times</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="6038210625-9">(</span><span class="n">integer</span><span class="p" data-group-id="6038210625-10">(</span><span class="p" data-group-id="6038210625-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="6038210625-11">(</span><span class="p" data-group-id="6038210625-11">)</span><span class="p" data-group-id="6038210625-9">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6038210625-12">(</span><span class="p" data-group-id="6038210625-12">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handler_metadata</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6038210625-13">(</span><span class="p" data-group-id="6038210625-13">)</span><span class="w">
+</span><span class="p" data-group-id="6038210625-1">}</span></code></pre><p><code class="inline">epoch</code> is the current epoch, starting at 0, of the nested loop.
 Defaults to 0.</p><p><code class="inline">max_epoch</code> is the maximum number of epochs the loop should run
 for. Defaults to 1.</p><p><code class="inline">iteration</code> is the current iteration of the inner loop. In supervised
 settings, this will be the current batch. Defaults to 0.</p><p><code class="inline">max_iteration</code> is the maximum number of iterations the loop should
diff --git a/Axon.Loop.html b/Axon.Loop.html
index e954b64d..6260d82e 100644
--- a/Axon.Loop.html
+++ b/Axon.Loop.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -135,66 +135,66 @@ <h1>
   <section id="moduledoc">
 <p>Abstraction for modeling a reduction of a dataset with an accumulated
 state for a number of epochs.</p><p>Inspired heavily by <a href="https://pytorch.org/ignite/index.html">PyTorch Ignite</a>.</p><p>The main abstraction is the <code class="inline">%Axon.Loop{}</code> struct, which controls a nested
-reduction of the form:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="4479453714-1">(</span><span class="mi">1</span><span class="o">..</span><span class="n">max_epochs</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="4479453714-2">fn</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="4479453714-3">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">batch_step</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="4479453714-3">)</span><span class="w">
-</span><span class="k" data-group-id="4479453714-2">end</span><span class="p" data-group-id="4479453714-1">)</span></code></pre><p><code class="inline">data</code> is assumed to be an <a href="https://hexdocs.pm/elixir/Enumerable.html"><code class="inline">Enumerable</code></a> or <a href="https://hexdocs.pm/elixir/Stream.html"><code class="inline">Stream</code></a> of input data which is
+reduction of the form:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="4809560337-1">(</span><span class="mi">1</span><span class="o">..</span><span class="n">max_epochs</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="4809560337-2">fn</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="4809560337-3">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">batch_step</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="4809560337-3">)</span><span class="w">
+</span><span class="k" data-group-id="4809560337-2">end</span><span class="p" data-group-id="4809560337-1">)</span></code></pre><p><code class="inline">data</code> is assumed to be an <a href="https://hexdocs.pm/elixir/Enumerable.html"><code class="inline">Enumerable</code></a> or <a href="https://hexdocs.pm/elixir/Stream.html"><code class="inline">Stream</code></a> of input data which is
 handled by a processing function, <code class="inline">batch_step</code>. The purpose of the loop
 abstraction is to take away much of the boilerplate code used in solving machine
 learning tasks. Tasks such as normalizing a dataset, hyperparameter optimization,
-or training machine learning models boil down to writing one function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="5349574115-1">(</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="5349574115-1">)</span><span class="w"> </span><span class="k" data-group-id="5349574115-2">do</span><span class="w">
+or training machine learning models boil down to writing one function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="6062302788-1">(</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6062302788-1">)</span><span class="w"> </span><span class="k" data-group-id="6062302788-2">do</span><span class="w">
   </span><span class="c1"># ...do something with batch...</span><span class="w">
   </span><span class="n">updated_state</span><span class="w">
-</span><span class="k" data-group-id="5349574115-2">end</span></code></pre><p>For tasks such as training a neural network, <code class="inline">state</code> will encapsulate things
+</span><span class="k" data-group-id="6062302788-2">end</span></code></pre><p>For tasks such as training a neural network, <code class="inline">state</code> will encapsulate things
 such as model and optimizer state. For supervised learning tasks, <code class="inline">batch_step</code>
-might look something like:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="4820768690-1">(</span><span class="p" data-group-id="4820768690-2">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="4820768690-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="4820768690-1">)</span><span class="w"> </span><span class="k" data-group-id="4820768690-3">do</span><span class="w">
-  </span><span class="p" data-group-id="4820768690-4">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="4820768690-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
+might look something like:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="0050374856-1">(</span><span class="p" data-group-id="0050374856-2">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="0050374856-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="0050374856-1">)</span><span class="w"> </span><span class="k" data-group-id="0050374856-3">do</span><span class="w">
+  </span><span class="p" data-group-id="0050374856-4">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="0050374856-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
 
-  </span><span class="n">gradients</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">grad</span><span class="p" data-group-id="4820768690-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">objective_fn</span><span class="o">.</span><span class="p" data-group-id="4820768690-6">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="4820768690-6">)</span><span class="p" data-group-id="4820768690-5">)</span><span class="w">
-  </span><span class="p" data-group-id="4820768690-7">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optim_state</span><span class="p" data-group-id="4820768690-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">optimizer</span><span class="o">.</span><span class="p" data-group-id="4820768690-8">(</span><span class="n">optim_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">gradients</span><span class="p" data-group-id="4820768690-8">)</span><span class="w">
+  </span><span class="n">gradients</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">grad</span><span class="p" data-group-id="0050374856-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">objective_fn</span><span class="o">.</span><span class="p" data-group-id="0050374856-6">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="0050374856-6">)</span><span class="p" data-group-id="0050374856-5">)</span><span class="w">
+  </span><span class="p" data-group-id="0050374856-7">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optim_state</span><span class="p" data-group-id="0050374856-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">optimizer</span><span class="o">.</span><span class="p" data-group-id="0050374856-8">(</span><span class="n">optim_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">gradients</span><span class="p" data-group-id="0050374856-8">)</span><span class="w">
 
-  </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">apply_updates</span><span class="p" data-group-id="4820768690-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">updates</span><span class="p" data-group-id="4820768690-9">)</span><span class="w">
+  </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">apply_updates</span><span class="p" data-group-id="0050374856-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">updates</span><span class="p" data-group-id="0050374856-9">)</span><span class="w">
 
-  </span><span class="p" data-group-id="4820768690-10">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="4820768690-10">}</span><span class="w">
-</span><span class="k" data-group-id="4820768690-3">end</span></code></pre><p><code class="inline">batch_step</code> takes a batch of <code class="inline">{input, target}</code> pairs and the current state,
+  </span><span class="p" data-group-id="0050374856-10">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="0050374856-10">}</span><span class="w">
+</span><span class="k" data-group-id="0050374856-3">end</span></code></pre><p><code class="inline">batch_step</code> takes a batch of <code class="inline">{input, target}</code> pairs and the current state,
 and updates the model parameters based on the gradients received from some arbitrary
 objective function. This function will run in a nested loop, iterating over the entire
 dataset for <code class="inline">N</code> epochs before finally returning the trained model state. By defining
 1 function, we've created a training loop that works for most machine learning models.</p><p>In actuality, the loop abstraction accumulates a struct, <code class="inline">%Axon.Loop.State{}</code>, which looks
-like (assuming <code class="inline">container</code> is a generic Elixir container of tensors, e.g. map, tuple, etc.):</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8766446591-1">%</span><span class="nc" data-group-id="8766446591-1">Axon.Loop.State</span><span class="p" data-group-id="8766446591-1">{</span><span class="w">
-  </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="8766446591-2">(</span><span class="p" data-group-id="8766446591-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">max_epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="8766446591-3">(</span><span class="p" data-group-id="8766446591-3">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="8766446591-4">(</span><span class="p" data-group-id="8766446591-4">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">max_iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="8766446591-5">(</span><span class="p" data-group-id="8766446591-5">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="8766446591-6">(</span><span class="n">string</span><span class="p" data-group-id="8766446591-7">(</span><span class="p" data-group-id="8766446591-7">)</span><span class="p">,</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="8766446591-8">(</span><span class="p" data-group-id="8766446591-8">)</span><span class="p" data-group-id="8766446591-6">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">times</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="8766446591-9">(</span><span class="n">integer</span><span class="p" data-group-id="8766446591-10">(</span><span class="p" data-group-id="8766446591-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="8766446591-11">(</span><span class="p" data-group-id="8766446591-11">)</span><span class="p" data-group-id="8766446591-9">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="8766446591-12">(</span><span class="p" data-group-id="8766446591-12">)</span><span class="w">
-</span><span class="p" data-group-id="8766446591-1">}</span></code></pre><p><code class="inline">batch_step</code> takes in the batch and the step state field and returns a <code class="inline">step_state</code>,
+like (assuming <code class="inline">container</code> is a generic Elixir container of tensors, e.g. map, tuple, etc.):</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1537881036-1">%</span><span class="nc" data-group-id="1537881036-1">Axon.Loop.State</span><span class="p" data-group-id="1537881036-1">{</span><span class="w">
+  </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1537881036-2">(</span><span class="p" data-group-id="1537881036-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">max_epoch</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1537881036-3">(</span><span class="p" data-group-id="1537881036-3">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1537881036-4">(</span><span class="p" data-group-id="1537881036-4">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">max_iteration</span><span class="p">:</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1537881036-5">(</span><span class="p" data-group-id="1537881036-5">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="1537881036-6">(</span><span class="n">string</span><span class="p" data-group-id="1537881036-7">(</span><span class="p" data-group-id="1537881036-7">)</span><span class="p">,</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="1537881036-8">(</span><span class="p" data-group-id="1537881036-8">)</span><span class="p" data-group-id="1537881036-6">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">times</span><span class="p">:</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="1537881036-9">(</span><span class="n">integer</span><span class="p" data-group-id="1537881036-10">(</span><span class="p" data-group-id="1537881036-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">integer</span><span class="p" data-group-id="1537881036-11">(</span><span class="p" data-group-id="1537881036-11">)</span><span class="p" data-group-id="1537881036-9">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="1537881036-12">(</span><span class="p" data-group-id="1537881036-12">)</span><span class="w">
+</span><span class="p" data-group-id="1537881036-1">}</span></code></pre><p><code class="inline">batch_step</code> takes in the batch and the step state field and returns a <code class="inline">step_state</code>,
 which is a generic container of state accumulated at each iteration. The rest of the fields
 in the state struct are updated automatically behind the scenes.</p><p>The loop must start from some initial step state, thus most tasks must also provide
 an additional initialization function to provide some starting point for the step
 state. For machine learning tasks, the initialization function will return things like
 initial model parameters and optimizer state.</p><p>Typically, the final output of the loop is the accumulated final state; however, you
 may optionally apply an output transform to extract specific values at the end of the
-loop. For example, <a href="#trainer/4"><code class="inline">Axon.Loop.trainer/4</code></a> by default extracts trained model state:</p><pre><code class="makeup elixir" translate="no"><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4154131168-1">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="4154131168-2">[</span><span class="ss">:model_state</span><span class="p" data-group-id="4154131168-2">]</span><span class="w">
-</span><span class="k" data-group-id="4154131168-1">end</span></code></pre><h2 id="module-initialize-and-step" class="section-heading">
+loop. For example, <a href="#trainer/4"><code class="inline">Axon.Loop.trainer/4</code></a> by default extracts trained model state:</p><pre><code class="makeup elixir" translate="no"><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6775504305-1">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="6775504305-2">[</span><span class="ss">:model_state</span><span class="p" data-group-id="6775504305-2">]</span><span class="w">
+</span><span class="k" data-group-id="6775504305-1">end</span></code></pre><h2 id="module-initialize-and-step" class="section-heading">
   <a href="#module-initialize-and-step" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Initialize and Step</span>
 </h2>
 <p>The core of the Axon loop are the init and step functions. The initialization is an
-arity-0 function which provides an initial step state:</p><pre><code class="makeup elixir" translate="no"><span class="n">init</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="0777859943-1">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="p" data-group-id="0777859943-2">%{</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">init</span><span class="p" data-group-id="0777859943-3">(</span><span class="n">model</span><span class="p" data-group-id="0777859943-3">)</span><span class="p" data-group-id="0777859943-2">}</span><span class="w">
-</span><span class="k" data-group-id="0777859943-1">end</span></code></pre><p>While the step function is the <code class="inline">batch_step</code> function mentioned earlier:</p><pre><code class="makeup elixir" translate="no"><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5560849143-1">fn</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+arity-0 function which provides an initial step state:</p><pre><code class="makeup elixir" translate="no"><span class="n">init</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9730988208-1">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9730988208-2">%{</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">init</span><span class="p" data-group-id="9730988208-3">(</span><span class="n">model</span><span class="p" data-group-id="9730988208-3">)</span><span class="p" data-group-id="9730988208-2">}</span><span class="w">
+</span><span class="k" data-group-id="9730988208-1">end</span></code></pre><p>While the step function is the <code class="inline">batch_step</code> function mentioned earlier:</p><pre><code class="makeup elixir" translate="no"><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="7194077969-1">fn</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">new_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="c1"># ...do something...</span><span class="w">
   </span><span class="n">new_state</span><span class="w">
-</span><span class="k" data-group-id="5560849143-1">end</span></code></pre><p>Note that any optimization and training anonymous functions that need to be used in the
-<code class="inline">batch_step</code> function can be passed as extra arguments. For example:</p><pre><code class="makeup elixir" translate="no"><span class="n">step_with_training_arguments</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2110798928-1">fn</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_update_fn</span><span class="p">,</span><span class="w"> </span><span class="n">state_update_fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="k" data-group-id="7194077969-1">end</span></code></pre><p>Note that any optimization and training anonymous functions that need to be used in the
+<code class="inline">batch_step</code> function can be passed as extra arguments. For example:</p><pre><code class="makeup elixir" translate="no"><span class="n">step_with_training_arguments</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="0041850520-1">fn</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer_update_fn</span><span class="p">,</span><span class="w"> </span><span class="n">state_update_fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="c1"># ...do something...</span><span class="w">
-</span><span class="k" data-group-id="2110798928-1">end</span><span class="w">
+</span><span class="k" data-group-id="0041850520-1">end</span><span class="w">
 
-</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="2110798928-2">(</span><span class="n">step_with_training_arguments</span><span class="o">.</span><span class="p" data-group-id="2110798928-3">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="n">actual_optimizer_update_fn</span><span class="p">,</span><span class="w"> </span><span class="n">actual_state_update_fn</span><span class="p" data-group-id="2110798928-3">)</span><span class="p" data-group-id="2110798928-2">)</span></code></pre><h2 id="module-metrics" class="section-heading">
+</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="0041850520-2">(</span><span class="n">step_with_training_arguments</span><span class="o">.</span><span class="p" data-group-id="0041850520-3">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="n">actual_optimizer_update_fn</span><span class="p">,</span><span class="w"> </span><span class="n">actual_state_update_fn</span><span class="p" data-group-id="0041850520-3">)</span><span class="p" data-group-id="0041850520-2">)</span></code></pre><h2 id="module-metrics" class="section-heading">
   <a href="#module-metrics" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -202,27 +202,27 @@ <h1>
 </h2>
 <p>Often times you want to compute metrics associated with your training iterations.
 To accomplish this, you can attach metrics to each <a href="Axon.Loop.html#content"><code class="inline">Axon.Loop</code></a>. Assuming a <code class="inline">batch_step</code>
-function which looks like:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="3349894082-1">(</span><span class="p" data-group-id="3349894082-2">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="3349894082-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="3349894082-1">)</span><span class="w"> </span><span class="k" data-group-id="3349894082-3">do</span><span class="w">
-  </span><span class="p" data-group-id="3349894082-4">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="3349894082-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
+function which looks like:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="4039685069-1">(</span><span class="p" data-group-id="4039685069-2">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="4039685069-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="4039685069-1">)</span><span class="w"> </span><span class="k" data-group-id="4039685069-3">do</span><span class="w">
+  </span><span class="p" data-group-id="4039685069-4">%{</span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="p" data-group-id="4039685069-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
 
-  </span><span class="n">gradients</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">grad</span><span class="p" data-group-id="3349894082-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">objective_fn</span><span class="o">.</span><span class="p" data-group-id="3349894082-6">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="3349894082-6">)</span><span class="p" data-group-id="3349894082-5">)</span><span class="w">
-  </span><span class="p" data-group-id="3349894082-7">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optim_state</span><span class="p" data-group-id="3349894082-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">optimizer</span><span class="o">.</span><span class="p" data-group-id="3349894082-8">(</span><span class="n">optim_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">gradients</span><span class="p" data-group-id="3349894082-8">)</span><span class="w">
+  </span><span class="n">gradients</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">grad</span><span class="p" data-group-id="4039685069-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">objective_fn</span><span class="o">.</span><span class="p" data-group-id="4039685069-6">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="4039685069-6">)</span><span class="p" data-group-id="4039685069-5">)</span><span class="w">
+  </span><span class="p" data-group-id="4039685069-7">{</span><span class="n">updates</span><span class="p">,</span><span class="w"> </span><span class="n">new_optim_state</span><span class="p" data-group-id="4039685069-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">optimizer</span><span class="o">.</span><span class="p" data-group-id="4039685069-8">(</span><span class="n">optim_state</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">gradients</span><span class="p" data-group-id="4039685069-8">)</span><span class="w">
 
-  </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">apply_updates</span><span class="p" data-group-id="3349894082-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">updates</span><span class="p" data-group-id="3349894082-9">)</span><span class="w">
+  </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">apply_updates</span><span class="p" data-group-id="4039685069-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">updates</span><span class="p" data-group-id="4039685069-9">)</span><span class="w">
 
   </span><span class="c1"># Shown for simplicity, you can optimize this by calculating preds</span><span class="w">
   </span><span class="c1"># along with the gradient calculation</span><span class="w">
-  </span><span class="n">preds</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model_fn</span><span class="o">.</span><span class="p" data-group-id="3349894082-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="3349894082-10">)</span><span class="w">
+  </span><span class="n">preds</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model_fn</span><span class="o">.</span><span class="p" data-group-id="4039685069-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="4039685069-10">)</span><span class="w">
 
-  </span><span class="p" data-group-id="3349894082-11">%{</span><span class="w">
+  </span><span class="p" data-group-id="4039685069-11">%{</span><span class="w">
     </span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">targets</span><span class="p">,</span><span class="w">
     </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">preds</span><span class="p">,</span><span class="w">
     </span><span class="ss">parameters</span><span class="p">:</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w">
     </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">optim_state</span><span class="w">
-  </span><span class="p" data-group-id="3349894082-11">}</span><span class="w">
-</span><span class="k" data-group-id="3349894082-3">end</span></code></pre><p>You can attach metrics to this by using <a href="#metric/4"><code class="inline">Axon.Loop.metric/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">loop</span><span class="p" data-group-id="4275780820-1">(</span><span class="o">&amp;</span><span class="n">batch_step</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="4275780820-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="4275780820-2">(</span><span class="s">&quot;Accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="4275780820-3">fn</span><span class="w"> </span><span class="p" data-group-id="4275780820-4">%{</span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">y_</span><span class="p">,</span><span class="w"> </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="4275780820-4">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="4275780820-5">[</span><span class="n">y_</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="4275780820-5">]</span><span class="w"> </span><span class="k" data-group-id="4275780820-3">end</span><span class="p" data-group-id="4275780820-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4275780820-6">(</span><span class="n">data</span><span class="p" data-group-id="4275780820-6">)</span></code></pre><p>Because metrics work directly on <code class="inline">step_state</code>, you typically need to provide an output
+  </span><span class="p" data-group-id="4039685069-11">}</span><span class="w">
+</span><span class="k" data-group-id="4039685069-3">end</span></code></pre><p>You can attach metrics to this by using <a href="#metric/4"><code class="inline">Axon.Loop.metric/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">loop</span><span class="p" data-group-id="7546290275-1">(</span><span class="o">&amp;</span><span class="n">batch_step</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="7546290275-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7546290275-2">(</span><span class="s">&quot;Accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="7546290275-3">fn</span><span class="w"> </span><span class="p" data-group-id="7546290275-4">%{</span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">y_</span><span class="p">,</span><span class="w"> </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="7546290275-4">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="7546290275-5">[</span><span class="n">y_</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="7546290275-5">]</span><span class="w"> </span><span class="k" data-group-id="7546290275-3">end</span><span class="p" data-group-id="7546290275-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7546290275-6">(</span><span class="n">data</span><span class="p" data-group-id="7546290275-6">)</span></code></pre><p>Because metrics work directly on <code class="inline">step_state</code>, you typically need to provide an output
 transform to indicate which values should be passed to your metric function. By default,
 Axon assumes a supervised training task with the fields <code class="inline">:y_true</code> and <code class="inline">:y_pred</code> present
 in the step state. See <a href="#metric/4"><code class="inline">Axon.Loop.metric/4</code></a> for more information.</p><p>Metrics will be tracked in the loop state using the user-provided key. Metrics integrate
@@ -234,24 +234,24 @@ <h1>
   <span class="text">Events and Handlers</span>
 </h2>
 <p>You can instrument several points in the loop using event handlers. By default, several events
-are fired when running a loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="3451444182-1">[</span><span class="w">
+are fired when running a loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2178738829-1">[</span><span class="w">
   </span><span class="ss">:started</span><span class="p">,</span><span class="w">             </span><span class="c1"># After loop state initialization</span><span class="w">
   </span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w">       </span><span class="c1"># On epoch start</span><span class="w">
   </span><span class="ss">:iteration_started</span><span class="p">,</span><span class="w">   </span><span class="c1"># On iteration start</span><span class="w">
   </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="c1"># On iteration complete</span><span class="w">
   </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w">     </span><span class="c1"># On epoch complete</span><span class="w">
   </span><span class="ss">:epoch_halted</span><span class="p">,</span><span class="w">        </span><span class="c1"># On epoch halt, if early halted</span><span class="w">
-</span><span class="p" data-group-id="3451444182-1">]</span></code></pre><p>You can attach event handlers to events using <a href="#handle_event/4"><code class="inline">Axon.Loop.handle_event/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="0969534194-1">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_metrics</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="0969534194-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0969534194-2">(</span><span class="n">data</span><span class="p" data-group-id="0969534194-2">)</span></code></pre><p>The above will trigger <code class="inline">log_metrics/1</code> every 100 times the <code class="inline">:iteration_completed</code> event
+</span><span class="p" data-group-id="2178738829-1">]</span></code></pre><p>You can attach event handlers to events using <a href="#handle_event/4"><code class="inline">Axon.Loop.handle_event/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="0464292033-1">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_metrics</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="0464292033-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0464292033-2">(</span><span class="n">data</span><span class="p" data-group-id="0464292033-2">)</span></code></pre><p>The above will trigger <code class="inline">log_metrics/1</code> every 100 times the <code class="inline">:iteration_completed</code> event
 is fired. Event handlers must return a tuple <code class="inline">{status, state}</code>, where <code class="inline">status</code> is an
 atom with one of the following values:</p><pre><code class="makeup elixir" translate="no"><span class="ss">:continue</span><span class="w">   </span><span class="c1"># Continue epoch, continue looping</span><span class="w">
 </span><span class="ss">:halt_epoch</span><span class="w"> </span><span class="c1"># Halt the epoch, continue looping</span><span class="w">
 </span><span class="ss">:halt_loop</span><span class="w">  </span><span class="c1"># Halt looping</span></code></pre><p>And <code class="inline">state</code> is an updated <a href="Axon.Loop.State.html"><code class="inline">Axon.Loop.State</code></a> struct. Handler functions take as input
 the current loop state.</p><p>It's important to note that event handlers are triggered in the order they are attached
 to the loop. If you have two handlers on the same event, they will trigger in order:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="9305076361-1">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">normalize_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9305076361-1">)</span><span class="w"> </span><span class="c1"># Runs first</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="9305076361-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9305076361-2">)</span><span class="w"> </span><span class="c1"># Runs second</span></code></pre><p>You may provide filters to filter when event handlers trigger. See <a href="#handle_event/4"><code class="inline">Axon.Loop.handle_event/4</code></a>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="7511338730-1">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">normalize_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7511338730-1">)</span><span class="w"> </span><span class="c1"># Runs first</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="7511338730-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7511338730-2">)</span><span class="w"> </span><span class="c1"># Runs second</span></code></pre><p>You may provide filters to filter when event handlers trigger. See <a href="#handle_event/4"><code class="inline">Axon.Loop.handle_event/4</code></a>
 for more details on valid filters.</p><h2 id="module-factories" class="section-heading">
   <a href="#module-factories" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -267,7 +267,7 @@ <h1>
   </a>
   <span class="text">Running loops</span>
 </h2>
-<p>In order to execute a loop, you should use <a href="#run/3"><code class="inline">Axon.Loop.run/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6331435217-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="6331435217-1">)</span></code></pre><h2 id="module-resuming-loops" class="section-heading">
+<p>In order to execute a loop, you should use <a href="#run/3"><code class="inline">Axon.Loop.run/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9669040352-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="9669040352-1">)</span></code></pre><h2 id="module-resuming-loops" class="section-heading">
   <a href="#module-resuming-loops" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -275,8 +275,8 @@ <h1>
 </h2>
 <p>At times you may want to resume a loop from some previous state. You can accomplish this
 with <a href="#from_state/2"><code class="inline">Axon.Loop.from_state/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">from_state</span><span class="p" data-group-id="3760689959-1">(</span><span class="n">state</span><span class="p" data-group-id="3760689959-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3760689959-2">(</span><span class="n">data</span><span class="p" data-group-id="3760689959-2">)</span></code></pre>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">from_state</span><span class="p" data-group-id="8077819216-1">(</span><span class="n">state</span><span class="p" data-group-id="8077819216-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8077819216-2">(</span><span class="n">data</span><span class="p" data-group-id="8077819216-2">)</span></code></pre>
   </section>
 
 
@@ -511,7 +511,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">checkpoint(loop, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1258" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1236" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -528,21 +528,21 @@ <h1 class="signature" translate="no">checkpoint(loop, opts \\ [])</h1>
 obtained from <a href="#serialize_state/2"><code class="inline">Axon.Loop.serialize_state/2</code></a>. Serialization
 options will be forwarded to <a href="#serialize_state/2"><code class="inline">Axon.Loop.serialize_state/2</code></a>.</p><p>You can customize checkpoint events by passing <code class="inline">:event</code> and <code class="inline">:filter</code>
 options:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="7413891448-1">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7413891448-2">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p" data-group-id="7413891448-2">]</span><span class="p" data-group-id="7413891448-1">)</span></code></pre><p>Checkpoints are saved under the <code class="inline">checkpoint/</code> directory with a pattern
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="8743912462-1">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8743912462-2">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p" data-group-id="8743912462-2">]</span><span class="p" data-group-id="8743912462-1">)</span></code></pre><p>Checkpoints are saved under the <code class="inline">checkpoint/</code> directory with a pattern
 of <code class="inline">checkpoint_{epoch}_{iteration}.ckpt</code>. You can customize the path and pattern
 with the <code class="inline">:path</code> and <code class="inline">:file_pattern</code> options:</p><pre><code class="makeup elixir" translate="no"><span class="n">my_file_pattern</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="k" data-group-id="6794209189-1">fn</span><span class="w"> </span><span class="p" data-group-id="6794209189-2">%</span><span class="nc" data-group-id="6794209189-2">Axon.Loop.State</span><span class="p" data-group-id="6794209189-2">{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">iter</span><span class="p" data-group-id="6794209189-2">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="s">&quot;checkpoint_</span><span class="si" data-group-id="6794209189-3">#{</span><span class="n">epoch</span><span class="si" data-group-id="6794209189-3">}</span><span class="s">_</span><span class="si" data-group-id="6794209189-4">#{</span><span class="n">iter</span><span class="si" data-group-id="6794209189-4">}</span><span class="s">&quot;</span><span class="w">
-  </span><span class="k" data-group-id="6794209189-1">end</span><span class="w">
+  </span><span class="k" data-group-id="1631335912-1">fn</span><span class="w"> </span><span class="p" data-group-id="1631335912-2">%</span><span class="nc" data-group-id="1631335912-2">Axon.Loop.State</span><span class="p" data-group-id="1631335912-2">{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">iteration</span><span class="p">:</span><span class="w"> </span><span class="n">iter</span><span class="p" data-group-id="1631335912-2">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="s">&quot;checkpoint_</span><span class="si" data-group-id="1631335912-3">#{</span><span class="n">epoch</span><span class="si" data-group-id="1631335912-3">}</span><span class="s">_</span><span class="si" data-group-id="1631335912-4">#{</span><span class="n">iter</span><span class="si" data-group-id="1631335912-4">}</span><span class="s">&quot;</span><span class="w">
+  </span><span class="k" data-group-id="1631335912-1">end</span><span class="w">
 
 </span><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="6794209189-5">(</span><span class="ss">path</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;my_checkpoints&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">file_pattern</span><span class="p">:</span><span class="w"> </span><span class="n">my_file_pattern</span><span class="p" data-group-id="6794209189-5">)</span></code></pre><p>If you'd like to only save checkpoints based on some metric criteria,
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="1631335912-5">(</span><span class="ss">path</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;my_checkpoints&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">file_pattern</span><span class="p">:</span><span class="w"> </span><span class="n">my_file_pattern</span><span class="p" data-group-id="1631335912-5">)</span></code></pre><p>If you'd like to only save checkpoints based on some metric criteria,
 you can specify the <code class="inline">:criteria</code> option. <code class="inline">:criteria</code> must be a valid key
 in metrics:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="0963014582-1">(</span><span class="ss">criteria</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation_loss&quot;</span><span class="p" data-group-id="0963014582-1">)</span></code></pre><p>The default criteria mode is <code class="inline">:min</code>, meaning the min score metric will
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="4750832528-1">(</span><span class="ss">criteria</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation_loss&quot;</span><span class="p" data-group-id="4750832528-1">)</span></code></pre><p>The default criteria mode is <code class="inline">:min</code>, meaning the min score metric will
 be considered &quot;best&quot; when deciding to save on a given event. Valid modes
 are <code class="inline">:min</code> and <code class="inline">:max</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="5282982461-1">(</span><span class="ss">criteria</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation_accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:max</span><span class="p" data-group-id="5282982461-1">)</span></code></pre><h2 id="checkpoint/2-options" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="8053796159-1">(</span><span class="ss">criteria</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation_accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:max</span><span class="p" data-group-id="8053796159-1">)</span></code></pre><h2 id="checkpoint/2-options" class="section-heading">
   <a href="#checkpoint/2-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -567,7 +567,7 @@ <h1 class="signature" translate="no">checkpoint(loop, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">deserialize_state(serialized, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1561" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1539" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -596,7 +596,7 @@ <h1 class="signature" translate="no">deserialize_state(serialized, opts \\ [])</
     </a>
     <h1 class="signature" translate="no">early_stop(loop, monitor, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1335" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1313" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -611,18 +611,18 @@ <h1 class="signature" translate="no">early_stop(loop, monitor, opts \\ [])</h1>
 improvement of a given metric.</p><p>You must specify a metric to monitor and the metric must
 be present in the loop state. Typically, this will be
 a validation metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8217468617-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="8217468617-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8217468617-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="8217468617-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="8217468617-3">(</span><span class="n">val_data</span><span class="p" data-group-id="8217468617-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">early_stop</span><span class="p" data-group-id="8217468617-4">(</span><span class="s">&quot;validation_accuracy&quot;</span><span class="p" data-group-id="8217468617-4">)</span></code></pre><p>It's important to remember that handlers are executed in the
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8329309137-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="8329309137-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8329309137-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="8329309137-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="8329309137-3">(</span><span class="n">val_data</span><span class="p" data-group-id="8329309137-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">early_stop</span><span class="p" data-group-id="8329309137-4">(</span><span class="s">&quot;validation_accuracy&quot;</span><span class="p" data-group-id="8329309137-4">)</span></code></pre><p>It's important to remember that handlers are executed in the
 order they are added to the loop. For example, if you'd like
 to checkpoint a loop after every epoch and use early stopping,
 most likely you want to add the checkpoint handler before
 the early stopping handler:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1807119040-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="1807119040-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1807119040-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="1807119040-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="1807119040-3">(</span><span class="p" data-group-id="1807119040-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">early_stop</span><span class="p" data-group-id="1807119040-4">(</span><span class="s">&quot;accuracy&quot;</span><span class="p" data-group-id="1807119040-4">)</span></code></pre><p>That will ensure checkpoint is always fired, even if the loop
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3804017159-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="3804017159-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="3804017159-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="3804017159-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="3804017159-3">(</span><span class="p" data-group-id="3804017159-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">early_stop</span><span class="p" data-group-id="3804017159-4">(</span><span class="s">&quot;accuracy&quot;</span><span class="p" data-group-id="3804017159-4">)</span></code></pre><p>That will ensure checkpoint is always fired, even if the loop
 exited early.</p>
   </section>
 </section>
@@ -635,7 +635,7 @@ <h1 class="signature" translate="no">early_stop(loop, monitor, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">eval_step(model)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L514" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L492" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -660,7 +660,7 @@ <h1 class="signature" translate="no">eval_step(model)</h1>
     </a>
     <h1 class="signature" translate="no">evaluator(model)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L796" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L774" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -673,18 +673,18 @@ <h1 class="signature" translate="no">evaluator(model)</h1>
 <p>Creates a supervised evaluator from a model.</p><p>An evaluator can be used for things such as testing and validation of models
 after or during training. It assumes <code class="inline">model</code> is an Axon struct, container of
 structs, or a tuple of <code class="inline">init</code> / <code class="inline">apply</code> functions. <code class="inline">model_state</code> must be a
-container usable from within <code class="inline">model</code>.</p><p>The evaluator returns a step state of the form:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9048652135-1">%{</span><span class="w">
+container usable from within <code class="inline">model</code>.</p><p>The evaluator returns a step state of the form:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5364729555-1">%{</span><span class="w">
   </span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">labels</span><span class="p">,</span><span class="w">
   </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">predictions</span><span class="w">
-</span><span class="p" data-group-id="9048652135-1">}</span></code></pre><p>Such that you can attach any number of supervised metrics to the evaluation
+</span><span class="p" data-group-id="5364729555-1">}</span></code></pre><p>Such that you can attach any number of supervised metrics to the evaluation
 loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="5505637897-1">(</span><span class="p" data-group-id="5505637897-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5505637897-2">(</span><span class="s">&quot;Accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:accuracy</span><span class="p" data-group-id="5505637897-2">)</span></code></pre><p>You must pass a compatible trained model state to <a href="#run/4"><code class="inline">Axon.Loop.run/4</code></a> when using
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="2823226910-1">(</span><span class="p" data-group-id="2823226910-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="2823226910-2">(</span><span class="s">&quot;Accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:accuracy</span><span class="p" data-group-id="2823226910-2">)</span></code></pre><p>You must pass a compatible trained model state to <a href="#run/4"><code class="inline">Axon.Loop.run/4</code></a> when using
 supervised evaluation loops. For example, if you've binded the result of a training
 run to <code class="inline">trained_model_state</code>, you can run the trained model through an evaluation
 run like this:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="3476306958-1">(</span><span class="p" data-group-id="3476306958-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3476306958-2">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">trained_model_state</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3476306958-2">)</span></code></pre><p>This function applies an output transform which returns the map of metrics accumulated
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="9907087841-1">(</span><span class="p" data-group-id="9907087841-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9907087841-2">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">trained_model_state</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9907087841-2">)</span></code></pre><p>This function applies an output transform which returns the map of metrics accumulated
 over the given loop.</p>
   </section>
 </section>
@@ -697,7 +697,7 @@ <h1 class="signature" translate="no">evaluator(model)</h1>
     </a>
     <h1 class="signature" translate="no">from_state(loop, state)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1519" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1497" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -709,7 +709,7 @@ <h1 class="signature" translate="no">from_state(loop, state)</h1>
 
 <p>Attaches <code class="inline">state</code> to the given loop in order to resume looping
 from a previous state.</p><p>It's important to note that a loop's attached state takes precedence
-over defined initialization functions. Given initialization function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">init_state</span><span class="p" data-group-id="5466043703-1">(</span><span class="p" data-group-id="5466043703-1">)</span><span class="p">,</span><span class="w"> </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5466043703-2">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5466043703-2">}</span></code></pre><p>And an attached state:</p><pre><code class="makeup elixir" translate="no"><span class="n">state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8055693473-1">%</span><span class="nc" data-group-id="8055693473-1">State</span><span class="p" data-group-id="8055693473-1">{</span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8055693473-2">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="8055693473-2">}</span><span class="p" data-group-id="8055693473-1">}</span></code></pre><p><code class="inline">init_state/0</code> will never execute, and instead the initial step state
+over defined initialization functions. Given initialization function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">init_state</span><span class="p" data-group-id="4485164474-1">(</span><span class="p" data-group-id="4485164474-1">)</span><span class="p">,</span><span class="w"> </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4485164474-2">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4485164474-2">}</span></code></pre><p>And an attached state:</p><pre><code class="makeup elixir" translate="no"><span class="n">state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2177351933-1">%</span><span class="nc" data-group-id="2177351933-1">State</span><span class="p" data-group-id="2177351933-1">{</span><span class="ss">step_state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2177351933-2">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2177351933-2">}</span><span class="p" data-group-id="2177351933-1">}</span></code></pre><p><code class="inline">init_state/0</code> will never execute, and instead the initial step state
 of <code class="inline">%{foo: 2, bar: 3}</code> will be used.</p>
   </section>
 </section>
@@ -724,7 +724,7 @@ <h1 class="signature" translate="no">from_state(loop, state)</h1>
     </a>
     <h1 class="signature" translate="no">handle_event(loop, event, handler, filter \\ :always)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L942" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L920" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -736,20 +736,20 @@ <h1 class="signature" translate="no">handle_event(loop, event, handler, filter \
 
 <p>Adds a handler function to the loop which will be triggered on <code class="inline">event</code>
 with an optional filter.</p><p>Events take place at different points during loop execution. The default
-events are:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="1152894155-1">[</span><span class="w">
+events are:</p><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2054767129-1">[</span><span class="w">
   </span><span class="ss">:started</span><span class="p">,</span><span class="w">             </span><span class="c1"># After loop state initialization</span><span class="w">
   </span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w">       </span><span class="c1"># On epoch start</span><span class="w">
   </span><span class="ss">:iteration_started</span><span class="p">,</span><span class="w">   </span><span class="c1"># On iteration start</span><span class="w">
   </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="c1"># On iteration complete</span><span class="w">
   </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w">     </span><span class="c1"># On epoch complete</span><span class="w">
   </span><span class="ss">:epoch_halted</span><span class="p">,</span><span class="w">        </span><span class="c1"># On epoch halt, if early halted</span><span class="w">
-</span><span class="p" data-group-id="1152894155-1">]</span></code></pre><p>Generally, event handlers are side-effecting operations which provide some
+</span><span class="p" data-group-id="2054767129-1">]</span></code></pre><p>Generally, event handlers are side-effecting operations which provide some
 sort of inspection into the loop's progress. It's important to note that
 if you define multiple handlers to be triggered on the same event, they
 will execute in order from when they were attached to the training
 loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="6401693441-1">(</span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">normalize_step_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6401693441-1">)</span><span class="w"> </span><span class="c1"># executes first</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="6401693441-2">(</span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_step_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6401693441-2">)</span><span class="w"> </span><span class="c1"># executes second</span></code></pre><p>Thus, if you have separate handlers which alter or depend on loop state,
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="2001093464-1">(</span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">normalize_step_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2001093464-1">)</span><span class="w"> </span><span class="c1"># executes first</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="2001093464-2">(</span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">log_step_state</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2001093464-2">)</span><span class="w"> </span><span class="c1"># executes second</span></code></pre><p>Thus, if you have separate handlers which alter or depend on loop state,
 you need to ensure they are ordered correctly, or combined into a single
 event handler for maximum control over execution.</p><p><code class="inline">event</code> must be an atom representing the event to trigger <code class="inline">handler</code> or a
 list of atoms indicating <code class="inline">handler</code> should be triggered on multiple events.
@@ -779,7 +779,7 @@ <h1 class="signature" translate="no">handle_event(loop, event, handler, filter \
     </a>
     <h1 class="signature" translate="no">kino_vega_lite_plot(loop, plot, metric, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1444" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1422" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -790,16 +790,16 @@ <h1 class="signature" translate="no">kino_vega_lite_plot(loop, plot, metric, opt
   <section class="docstring">
 
 <p>Adds a handler function which updates a <a href="https://hexdocs.pm/kino_vega_lite/0.1.11/Kino.VegaLite.html"><code class="inline">Kino.VegaLite</code></a> plot.</p><p>By default, this will run after every iteration.</p><p>You must specify a plot to push to and a metric to track. The <code class="inline">:x</code> axis will be the iteration count, labeled <code class="inline">&quot;step&quot;</code>. The metric must match the name given to the <code class="inline">:y</code> axis in your <a href="https://hexdocs.pm/vega_lite/0.1.8/VegaLite.html"><code class="inline">VegaLite</code></a> plot:</p><pre><code class="makeup elixir" translate="no"><span class="n">plot</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="0434064003-1">(</span><span class="p" data-group-id="0434064003-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="0434064003-2">(</span><span class="ss">:line</span><span class="p" data-group-id="0434064003-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="0434064003-3">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;step&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="0434064003-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="0434064003-4">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="0434064003-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="0434064003-5">(</span><span class="p" data-group-id="0434064003-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="0434064003-6">(</span><span class="p" data-group-id="0434064003-6">)</span><span class="w">
+  </span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2266411182-1">(</span><span class="p" data-group-id="2266411182-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="2266411182-2">(</span><span class="ss">:line</span><span class="p" data-group-id="2266411182-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="2266411182-3">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;step&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="2266411182-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="2266411182-4">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="2266411182-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2266411182-5">(</span><span class="p" data-group-id="2266411182-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2266411182-6">(</span><span class="p" data-group-id="2266411182-6">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0434064003-7">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="0434064003-7">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">kino_vega_lite_plot</span><span class="p" data-group-id="0434064003-8">(</span><span class="n">plot</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p" data-group-id="0434064003-8">)</span></code></pre><h2 id="kino_vega_lite_plot/4-options" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2266411182-7">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="2266411182-7">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">kino_vega_lite_plot</span><span class="p" data-group-id="2266411182-8">(</span><span class="n">plot</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p" data-group-id="2266411182-8">)</span></code></pre><h2 id="kino_vega_lite_plot/4-options" class="section-heading">
   <a href="#kino_vega_lite_plot/4-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -819,7 +819,7 @@ <h1 class="signature" translate="no">kino_vega_lite_plot(loop, plot, metric, opt
     </a>
     <h1 class="signature" translate="no">log(loop, message_fn, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L982" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L960" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -852,7 +852,7 @@ <h1 class="signature" translate="no">log(loop, message_fn, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">loop(step_fn, init_fn \\ &amp;default_init/2, output_transform \\ &amp; &amp;1)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L587" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L565" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -864,13 +864,13 @@ <h1 class="signature" translate="no">loop(step_fn, init_fn \\ &amp;default_init/
 
 <p>Creates a loop from <code class="inline">step_fn</code>, an optional <code class="inline">init_fn</code>, and an
 optional <code class="inline">output_transform</code>.</p><p><code class="inline">step_fn</code> is an arity-2 function which takes a batch and state
-and returns an updated step state:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="6092190576-1">(</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">step_state</span><span class="p" data-group-id="6092190576-1">)</span><span class="w"> </span><span class="k" data-group-id="6092190576-2">do</span><span class="w">
+and returns an updated step state:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">batch_step</span><span class="p" data-group-id="5214335741-1">(</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">step_state</span><span class="p" data-group-id="5214335741-1">)</span><span class="w"> </span><span class="k" data-group-id="5214335741-2">do</span><span class="w">
   </span><span class="n">step_state</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w">
-</span><span class="k" data-group-id="6092190576-2">end</span></code></pre><p><code class="inline">init_fn</code> by default is an identity function which forwards its
+</span><span class="k" data-group-id="5214335741-2">end</span></code></pre><p><code class="inline">init_fn</code> by default is an identity function which forwards its
 initial arguments as the model state. You should define a custom
-initialization function if you require a different behavior:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">init_step_state</span><span class="p" data-group-id="0596560019-1">(</span><span class="n">state</span><span class="p" data-group-id="0596560019-1">)</span><span class="w"> </span><span class="k" data-group-id="0596560019-2">do</span><span class="w">
-  </span><span class="nc">Map</span><span class="o">.</span><span class="n">merge</span><span class="p" data-group-id="0596560019-3">(</span><span class="p" data-group-id="0596560019-4">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0596560019-4">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="0596560019-3">)</span><span class="w">
-</span><span class="k" data-group-id="0596560019-2">end</span></code></pre><p>You may use <code class="inline">state</code> in conjunction with initialization functions in
+initialization function if you require a different behavior:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">init_step_state</span><span class="p" data-group-id="6334299503-1">(</span><span class="n">state</span><span class="p" data-group-id="6334299503-1">)</span><span class="w"> </span><span class="k" data-group-id="6334299503-2">do</span><span class="w">
+  </span><span class="nc">Map</span><span class="o">.</span><span class="n">merge</span><span class="p" data-group-id="6334299503-3">(</span><span class="p" data-group-id="6334299503-4">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6334299503-4">}</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6334299503-3">)</span><span class="w">
+</span><span class="k" data-group-id="6334299503-2">end</span></code></pre><p>You may use <code class="inline">state</code> in conjunction with initialization functions in
 <code class="inline">init_fn</code>. For example, <a href="#train_step/3"><code class="inline">train_step/3</code></a> uses initial state as initial
 model parameters to allow initializing models from partial parameterizations.</p><p><code class="inline">step_batch/2</code> and <code class="inline">init_step_state/1</code> are typically called from
 within <code class="inline">Nx.Defn.jit/3</code>. While JIT-compilation will work with anonymous functions,
@@ -895,7 +895,7 @@ <h1 class="signature" translate="no">loop(step_fn, init_fn \\ &amp;default_init/
     </a>
     <h1 class="signature" translate="no">metric(loop, metric, name \\ nil, accumulate \\ :running_average, transform_or_fields \\ [:y_true, :y_pred])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L846" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L824" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -908,20 +908,20 @@ <h1 class="signature" translate="no">metric(loop, metric, name \\ nil, accumulat
 <p>Adds a metric of the given name to the loop.</p><p>A metric is a function which tracks or measures some value with respect
 to values in the step state. For example, when training classification
 models, it's common to track the model's accuracy during training:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1253566615-1">(</span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Accuracy&quot;</span><span class="p" data-group-id="1253566615-1">)</span></code></pre><p>By default, metrics assume a supervised learning task and extract the fields
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1276502985-1">(</span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Accuracy&quot;</span><span class="p" data-group-id="1276502985-1">)</span></code></pre><p>By default, metrics assume a supervised learning task and extract the fields
 <code class="inline">[:y_true, :y_pred]</code> from the step state. If you wish to work on a different
 value, you can use an output transform. An output transform is a list of keys
 to extract from the output state, or a function which returns a flattened list
 of values to pass to the given metric function. Values received from output
-transforms are passed to the given metric using:</p><pre><code class="makeup elixir" translate="no"><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">output_transform</span><span class="o">.</span><span class="p" data-group-id="6602116513-1">(</span><span class="n">step_state</span><span class="p" data-group-id="6602116513-1">)</span><span class="w">
-</span><span class="n">apply</span><span class="p" data-group-id="6602116513-2">(</span><span class="n">metric</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p" data-group-id="6602116513-2">)</span></code></pre><p>Thus, even if you want your metric to work on a container, your output transform
+transforms are passed to the given metric using:</p><pre><code class="makeup elixir" translate="no"><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">output_transform</span><span class="o">.</span><span class="p" data-group-id="4422487800-1">(</span><span class="n">step_state</span><span class="p" data-group-id="4422487800-1">)</span><span class="w">
+</span><span class="n">apply</span><span class="p" data-group-id="4422487800-2">(</span><span class="n">metric</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p" data-group-id="4422487800-2">)</span></code></pre><p>Thus, even if you want your metric to work on a container, your output transform
 must return a list.</p><p><code class="inline">metric</code> must be an atom which matches the name of a metric in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>, or
 an arbitrary function which returns a tensor or container.</p><p><code class="inline">name</code> must be a string or atom used to store the computed metric in the loop
 state. If names conflict, the last attached metric will take precedence:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5024430393-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="5024430393-1">)</span><span class="w"> </span><span class="c1"># Will be overwritten</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5024430393-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="5024430393-2">)</span><span class="w"> </span><span class="c1"># Will be used</span></code></pre><p>By default, metrics keep a running average of the metric calculation. You can
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="4894107218-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="4894107218-1">)</span><span class="w"> </span><span class="c1"># Will be overwritten</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="4894107218-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="4894107218-2">)</span><span class="w"> </span><span class="c1"># Will be used</span></code></pre><p>By default, metrics keep a running average of the metric calculation. You can
 override this behavior by changing <code class="inline">accumulate</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1575332914-1">(</span><span class="ss">:true_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="1575332914-1">)</span></code></pre><p>Accumulation function can be one of the accumulation combinators in Axon.Metrics
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8373566631-1">(</span><span class="ss">:true_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="8373566631-1">)</span></code></pre><p>Accumulation function can be one of the accumulation combinators in Axon.Metrics
 or an arity-3 function of the form: <code class="inline">accumulate(acc, obs, i) :: new_acc</code>.</p>
   </section>
 </section>
@@ -936,7 +936,7 @@ <h1 class="signature" translate="no">metric(loop, metric, name \\ nil, accumulat
     </a>
     <h1 class="signature" translate="no">monitor(loop, metric, fun, name, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1113" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1091" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -981,7 +981,7 @@ <h1 class="signature" translate="no">monitor(loop, metric, fun, name, opts \\ []
     </a>
     <h1 class="signature" translate="no">reduce_lr_on_plateau(loop, monitor, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1383" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1361" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -997,10 +997,10 @@ <h1 class="signature" translate="no">reduce_lr_on_plateau(loop, monitor, opts \\
 improvement of a given metric.</p><p>You must specify a metric to monitor and the metric must
 be present in the loop state. Typically, this will be
 a validation metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3681145564-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="3681145564-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="3681145564-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="3681145564-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="3681145564-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">val_data</span><span class="p" data-group-id="3681145564-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">reduce_lr_on_plateau</span><span class="p" data-group-id="3681145564-4">(</span><span class="s">&quot;accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:max</span><span class="p" data-group-id="3681145564-4">)</span></code></pre><h2 id="reduce_lr_on_plateau/3-options" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2719222468-1">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optim</span><span class="p" data-group-id="2719222468-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="2719222468-2">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="2719222468-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="2719222468-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">val_data</span><span class="p" data-group-id="2719222468-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">reduce_lr_on_plateau</span><span class="p" data-group-id="2719222468-4">(</span><span class="s">&quot;accuracy&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:max</span><span class="p" data-group-id="2719222468-4">)</span></code></pre><h2 id="reduce_lr_on_plateau/3-options" class="section-heading">
   <a href="#reduce_lr_on_plateau/3-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -1024,7 +1024,7 @@ <h1 class="signature" translate="no">reduce_lr_on_plateau(loop, monitor, opts \\
     </a>
     <h1 class="signature" translate="no">run(loop, data, init_state \\ %{}, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1607" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1589" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1049,7 +1049,9 @@ <h1 class="signature" translate="no">run(loop, data, init_state \\ %{}, opts \\
 to true.</p></li><li><p><code class="inline">:garbage_collect</code> - whether or not to garbage collect after
 each loop iteration. This may prevent OOMs, but it will slow down training.</p></li><li><p><code class="inline">:strict?</code> - whether or not to compile step functions strictly. If this flag
 is set, the loop will raise on any cache miss during the training loop. Defaults
-to true.</p></li><li><p><code class="inline">:debug</code> - run loop in debug mode to trace loop progress. Defaults to
+to true.</p></li><li><p><code class="inline">:force_garbage_collect?</code> - whether or not to force garbage collection after each
+iteration. This may help avoid OOMs when training large models, but it will slow
+training down.</p></li><li><p><code class="inline">:debug</code> - run loop in debug mode to trace loop progress. Defaults to
 false.</p></li></ul><p>  Additional options are forwarded to <code class="inline">Nx.Defn.jit</code> as JIT-options. If no JIT
   options are set, the default options set with <code class="inline">Nx.Defn.default_options</code> are
   used.</p>
@@ -1066,7 +1068,7 @@ <h1 class="signature" translate="no">run(loop, data, init_state \\ %{}, opts \\
     </a>
     <h1 class="signature" translate="no">serialize_state(state, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1540" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1518" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1098,7 +1100,7 @@ <h1 class="signature" translate="no">serialize_state(state, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">train_step(model, loss, optimizer, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L332" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L330" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1155,7 +1157,7 @@ <h1 class="signature" translate="no">train_step(model, loss, optimizer, opts \\
     </a>
     <h1 class="signature" translate="no">trainer(model, loss, optimizer, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L695" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L673" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1186,13 +1188,13 @@ <h1 class="signature" translate="no">trainer(model, loss, optimizer, opts \\ [])
 arity-3 function which scales gradient updates with respect to input parameters,
 optimizer state, and gradients. See <a href="https://hexdocs.pm/polaris/0.1.0/Polaris.Updates.html"><code class="inline">Polaris.Updates</code></a> for more information on building
 optimizers.</p><p>This function creates a step function which outputs a map consisting of the following
-fields for <code class="inline">step_state</code>:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5460231559-1">%{</span><span class="w">
-  </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="5460231559-2">(</span><span class="p" data-group-id="5460231559-2">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="5460231559-3">(</span><span class="n">tensor</span><span class="p" data-group-id="5460231559-4">(</span><span class="p" data-group-id="5460231559-4">)</span><span class="p" data-group-id="5460231559-3">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Model predictions for use in metrics</span><span class="w">
-  </span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="5460231559-5">(</span><span class="p" data-group-id="5460231559-5">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="5460231559-6">(</span><span class="n">tensor</span><span class="p" data-group-id="5460231559-7">(</span><span class="p" data-group-id="5460231559-7">)</span><span class="p" data-group-id="5460231559-6">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># True labels for use in metrics</span><span class="w">
-  </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="5460231559-8">(</span><span class="p" data-group-id="5460231559-8">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Running average of loss over epoch</span><span class="w">
-  </span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="5460231559-9">(</span><span class="n">tensor</span><span class="p" data-group-id="5460231559-10">(</span><span class="p" data-group-id="5460231559-10">)</span><span class="p" data-group-id="5460231559-9">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Model parameters and state</span><span class="w">
-  </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="5460231559-11">(</span><span class="n">tensor</span><span class="p" data-group-id="5460231559-12">(</span><span class="p" data-group-id="5460231559-12">)</span><span class="p" data-group-id="5460231559-11">)</span><span class="w"> </span><span class="c1"># Optimizer state associated with each parameter</span><span class="w">
-</span><span class="p" data-group-id="5460231559-1">}</span></code></pre><h2 id="trainer/4-examples" class="section-heading">
+fields for <code class="inline">step_state</code>:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6677411623-1">%{</span><span class="w">
+  </span><span class="ss">y_pred</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="6677411623-2">(</span><span class="p" data-group-id="6677411623-2">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6677411623-3">(</span><span class="n">tensor</span><span class="p" data-group-id="6677411623-4">(</span><span class="p" data-group-id="6677411623-4">)</span><span class="p" data-group-id="6677411623-3">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Model predictions for use in metrics</span><span class="w">
+  </span><span class="ss">y_true</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="6677411623-5">(</span><span class="p" data-group-id="6677411623-5">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6677411623-6">(</span><span class="n">tensor</span><span class="p" data-group-id="6677411623-7">(</span><span class="p" data-group-id="6677411623-7">)</span><span class="p" data-group-id="6677411623-6">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># True labels for use in metrics</span><span class="w">
+  </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="6677411623-8">(</span><span class="p" data-group-id="6677411623-8">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Running average of loss over epoch</span><span class="w">
+  </span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6677411623-9">(</span><span class="n">tensor</span><span class="p" data-group-id="6677411623-10">(</span><span class="p" data-group-id="6677411623-10">)</span><span class="p" data-group-id="6677411623-9">)</span><span class="p">,</span><span class="w"> </span><span class="c1"># Model parameters and state</span><span class="w">
+  </span><span class="ss">optimizer_state</span><span class="p">:</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="6677411623-11">(</span><span class="n">tensor</span><span class="p" data-group-id="6677411623-12">(</span><span class="p" data-group-id="6677411623-12">)</span><span class="p" data-group-id="6677411623-11">)</span><span class="w"> </span><span class="c1"># Optimizer state associated with each parameter</span><span class="w">
+</span><span class="p" data-group-id="6677411623-1">}</span></code></pre><h2 id="trainer/4-examples" class="section-heading">
   <a href="#trainer/4-examples" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -1204,42 +1206,42 @@ <h3 id="trainer/4-basic-usage" class="section-heading">
   </a>
   <span class="text">Basic usage</span>
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="5937803039-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">target</span><span class="p" data-group-id="5937803039-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="6725466905-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">target</span><span class="p" data-group-id="6725466905-1">)</span><span class="w">
 
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5937803039-2">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5937803039-3">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5937803039-3">}</span><span class="p" data-group-id="5937803039-2">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5937803039-4">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="5937803039-4">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6725466905-2">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6725466905-3">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6725466905-3">}</span><span class="p" data-group-id="6725466905-2">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6725466905-4">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="6725466905-4">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5937803039-5">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="5937803039-5">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5937803039-6">(</span><span class="n">data</span><span class="p" data-group-id="5937803039-6">)</span></code></pre><h3 id="trainer/4-customizing-optimizer" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6725466905-5">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="6725466905-5">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6725466905-6">(</span><span class="n">data</span><span class="p" data-group-id="6725466905-6">)</span></code></pre><h3 id="trainer/4-customizing-optimizer" class="section-heading">
   <a href="#trainer/4-customizing-optimizer" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Customizing Optimizer</span>
 </h3>
 <pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8462546792-1">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="8462546792-2">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.05</span><span class="p" data-group-id="8462546792-2">)</span><span class="p" data-group-id="8462546792-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8462546792-3">(</span><span class="n">data</span><span class="p" data-group-id="8462546792-3">)</span></code></pre><h3 id="trainer/4-custom-loss" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9512510535-1">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="9512510535-2">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.05</span><span class="p" data-group-id="9512510535-2">)</span><span class="p" data-group-id="9512510535-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9512510535-3">(</span><span class="n">data</span><span class="p" data-group-id="9512510535-3">)</span></code></pre><h3 id="trainer/4-custom-loss" class="section-heading">
   <a href="#trainer/4-custom-loss" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Custom loss</span>
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6112982886-1">fn</span><span class="w"> </span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="6112982886-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6112982886-2">)</span><span class="w"> </span><span class="k" data-group-id="6112982886-1">end</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5405511420-1">fn</span><span class="w"> </span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="5405511420-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5405511420-2">)</span><span class="w"> </span><span class="k" data-group-id="5405511420-1">end</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6112982886-3">(</span><span class="n">loss_fn</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">rmsprop</span><span class="p" data-group-id="6112982886-4">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.01</span><span class="p" data-group-id="6112982886-4">)</span><span class="p" data-group-id="6112982886-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6112982886-5">(</span><span class="n">data</span><span class="p" data-group-id="6112982886-5">)</span></code></pre><h3 id="trainer/4-multiple-objectives-with-multi-output-model" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5405511420-3">(</span><span class="n">loss_fn</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">rmsprop</span><span class="p" data-group-id="5405511420-4">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.01</span><span class="p" data-group-id="5405511420-4">)</span><span class="p" data-group-id="5405511420-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5405511420-5">(</span><span class="n">data</span><span class="p" data-group-id="5405511420-5">)</span></code></pre><h3 id="trainer/4-multiple-objectives-with-multi-output-model" class="section-heading">
   <a href="#trainer/4-multiple-objectives-with-multi-output-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Multiple objectives with multi-output model</span>
 </h3>
-<pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0678253491-1">{</span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0678253491-2">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0678253491-3">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0678253491-3">}</span><span class="p" data-group-id="0678253491-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0678253491-4">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0678253491-5">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0678253491-5">}</span><span class="p" data-group-id="0678253491-4">)</span><span class="p" data-group-id="0678253491-1">}</span><span class="w">
-</span><span class="n">loss_weights</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0678253491-6">[</span><span class="ss">mean_squared_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="0678253491-6">]</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="4305612837-1">{</span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4305612837-2">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4305612837-3">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4305612837-3">}</span><span class="p" data-group-id="4305612837-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4305612837-4">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4305612837-5">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4305612837-5">}</span><span class="p" data-group-id="4305612837-4">)</span><span class="p" data-group-id="4305612837-1">}</span><span class="w">
+</span><span class="n">loss_weights</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="4305612837-6">[</span><span class="ss">mean_squared_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="4305612837-6">]</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0678253491-7">(</span><span class="n">loss_weights</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0678253491-7">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0678253491-8">(</span><span class="n">data</span><span class="p" data-group-id="0678253491-8">)</span></code></pre><h2 id="trainer/4-options" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4305612837-7">(</span><span class="n">loss_weights</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="4305612837-7">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4305612837-8">(</span><span class="n">data</span><span class="p" data-group-id="4305612837-8">)</span></code></pre><h2 id="trainer/4-options" class="section-heading">
   <a href="#trainer/4-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -1266,7 +1268,7 @@ <h3 id="trainer/4-basic-usage" class="section-heading">
     </a>
     <h1 class="signature" translate="no">validate(loop, model, validation_data, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1048" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/loop.ex#L1026" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1280,25 +1282,25 @@ <h1 class="signature" translate="no">validate(loop, model, validation_data, opts
 against the given validation set.</p><p>This handler assumes the loop state matches the state initialized
 in a supervised training loop. Typically, you'd call this immediately
 after creating a supervised training loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3280810769-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="3280810769-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="3280810769-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p" data-group-id="3280810769-2">)</span></code></pre><p>Please note that you must pass the same (or an equivalent) model
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9892940342-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9892940342-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="9892940342-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p" data-group-id="9892940342-2">)</span></code></pre><p>Please note that you must pass the same (or an equivalent) model
 into this method so it can be used during the validation loop. The
 metrics which are computed are those which are present BEFORE the
 validation handler was added to the loop. For the following loop:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7689126359-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7689126359-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7689126359-2">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="7689126359-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="7689126359-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p" data-group-id="7689126359-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7689126359-4">(</span><span class="ss">:binary_cross_entropy</span><span class="p" data-group-id="7689126359-4">)</span></code></pre><p>only <code class="inline">:mean_absolute_error</code> will be computed at validation time.</p><p>The returned loop state is altered to contain validation
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7103513007-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7103513007-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7103513007-2">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="7103513007-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="7103513007-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p" data-group-id="7103513007-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7103513007-4">(</span><span class="ss">:binary_cross_entropy</span><span class="p" data-group-id="7103513007-4">)</span></code></pre><p>only <code class="inline">:mean_absolute_error</code> will be computed at validation time.</p><p>The returned loop state is altered to contain validation
 metrics for use in later handlers such as early stopping and model
 checkpoints. Since the order of execution of event handlers is in
 the same order they are declared in the training loop, you MUST call
 this method before any other handler which expects or may use
 validation metrics.</p><p>By default the validation loop runs after every epoch; however, you
 can customize it by overriding the default event and event filters:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5094156494-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5094156494-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5094156494-2">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="5094156494-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="5094156494-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p">,</span><span class="w"> </span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5094156494-4">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">10_000</span><span class="p" data-group-id="5094156494-4">]</span><span class="p" data-group-id="5094156494-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5094156494-5">(</span><span class="ss">:binary_cross_entropy</span><span class="p" data-group-id="5094156494-5">)</span></code></pre>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8664906204-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8664906204-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8664906204-2">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="8664906204-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="8664906204-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">validation_data</span><span class="p">,</span><span class="w"> </span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8664906204-4">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">10_000</span><span class="p" data-group-id="8664906204-4">]</span><span class="p" data-group-id="8664906204-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8664906204-5">(</span><span class="ss">:binary_cross_entropy</span><span class="p" data-group-id="8664906204-5">)</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.LossScale.html b/Axon.LossScale.html
index 3f7303b1..93f9ea83 100644
--- a/Axon.LossScale.html
+++ b/Axon.LossScale.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,7 +136,7 @@ <h1>
 <p>Implementations of loss-scalers for use in mixed precision
 training.</p><p>Loss scaling is used to prevent underflow when using mixed
 precision during the model training process. Each loss-scale
-implementation here returns a 3-tuple of the functions:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9745136279-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">scale_fn</span><span class="p">,</span><span class="w"> </span><span class="n">unscale_fn</span><span class="p">,</span><span class="w"> </span><span class="n">adjust_fn</span><span class="p" data-group-id="9745136279-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.LossScale</span><span class="o">.</span><span class="n">static</span><span class="p" data-group-id="9745136279-2">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">pow</span><span class="p" data-group-id="9745136279-3">(</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">15</span><span class="p" data-group-id="9745136279-3">)</span><span class="p" data-group-id="9745136279-2">)</span></code></pre><p>You can use these to scale/unscale loss and gradients as well
+implementation here returns a 3-tuple of the functions:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3761076039-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">scale_fn</span><span class="p">,</span><span class="w"> </span><span class="n">unscale_fn</span><span class="p">,</span><span class="w"> </span><span class="n">adjust_fn</span><span class="p" data-group-id="3761076039-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.LossScale</span><span class="o">.</span><span class="n">static</span><span class="p" data-group-id="3761076039-2">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">pow</span><span class="p" data-group-id="3761076039-3">(</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">15</span><span class="p" data-group-id="3761076039-3">)</span><span class="p" data-group-id="3761076039-2">)</span></code></pre><p>You can use these to scale/unscale loss and gradients as well
 as adjust the loss scale state.</p><p><a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> builds loss-scaling in by default. You
 can reference the <a href="Axon.Loop.html#train_step/3"><code class="inline">Axon.Loop.train_step/3</code></a> implementation to
 see how loss-scaling is applied in practice.</p>
diff --git a/Axon.Losses.html b/Axon.Losses.html
index 33943727..3685fbd0 100644
--- a/Axon.Losses.html
+++ b/Axon.Losses.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -140,31 +140,31 @@ <h1>
 measuring the loss with respect to the input target <code class="inline">y_true</code>
 and input prediction <code class="inline">y_pred</code>. As an example, the <a href="#mean_squared_error/2"><code class="inline">mean_squared_error/2</code></a>
 loss function produces a tensor whose values are the mean squared
-error between targets and predictions:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5272350931-1">(</span><span class="p" data-group-id="5272350931-2">[</span><span class="p" data-group-id="5272350931-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5272350931-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5272350931-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5272350931-4">]</span><span class="p" data-group-id="5272350931-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5272350931-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5272350931-5">}</span><span class="p" data-group-id="5272350931-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5272350931-6">(</span><span class="p" data-group-id="5272350931-7">[</span><span class="p" data-group-id="5272350931-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5272350931-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5272350931-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5272350931-9">]</span><span class="p" data-group-id="5272350931-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5272350931-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5272350931-10">}</span><span class="p" data-group-id="5272350931-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="5272350931-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5272350931-11">)</span><span class="w">
-</span><span class="p" data-group-id="5272350931-12">#</span><span class="nc" data-group-id="5272350931-12">Nx.Tensor</span><span class="p" data-group-id="5272350931-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5272350931-13">[</span><span class="mi">2</span><span class="p" data-group-id="5272350931-13">]</span><span class="w">
-  </span><span class="p" data-group-id="5272350931-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="5272350931-14">]</span><span class="w">
-</span><span class="p" data-group-id="5272350931-12">&gt;</span></code></pre><p>It's common to compute the loss across an entire minibatch.
+error between targets and predictions:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9838312906-1">(</span><span class="p" data-group-id="9838312906-2">[</span><span class="p" data-group-id="9838312906-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9838312906-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9838312906-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9838312906-4">]</span><span class="p" data-group-id="9838312906-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9838312906-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9838312906-5">}</span><span class="p" data-group-id="9838312906-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9838312906-6">(</span><span class="p" data-group-id="9838312906-7">[</span><span class="p" data-group-id="9838312906-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="9838312906-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9838312906-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9838312906-9">]</span><span class="p" data-group-id="9838312906-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9838312906-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9838312906-10">}</span><span class="p" data-group-id="9838312906-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="9838312906-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="9838312906-11">)</span><span class="w">
+</span><span class="p" data-group-id="9838312906-12">#</span><span class="nc" data-group-id="9838312906-12">Nx.Tensor</span><span class="p" data-group-id="9838312906-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9838312906-13">[</span><span class="mi">2</span><span class="p" data-group-id="9838312906-13">]</span><span class="w">
+  </span><span class="p" data-group-id="9838312906-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="9838312906-14">]</span><span class="w">
+</span><span class="p" data-group-id="9838312906-12">&gt;</span></code></pre><p>It's common to compute the loss across an entire minibatch.
 You can easily do so by specifying a <code class="inline">:reduction</code> mode, or
-by composing one of these with an <a href="https://hexdocs.pm/nx/0.7.0/Nx.html"><code class="inline">Nx</code></a> reduction method:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4734535758-1">(</span><span class="p" data-group-id="4734535758-2">[</span><span class="p" data-group-id="4734535758-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4734535758-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4734535758-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4734535758-4">]</span><span class="p" data-group-id="4734535758-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4734535758-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4734535758-5">}</span><span class="p" data-group-id="4734535758-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4734535758-6">(</span><span class="p" data-group-id="4734535758-7">[</span><span class="p" data-group-id="4734535758-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4734535758-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4734535758-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4734535758-9">]</span><span class="p" data-group-id="4734535758-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4734535758-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4734535758-10">}</span><span class="p" data-group-id="4734535758-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="4734535758-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="4734535758-11">)</span><span class="w">
-</span><span class="p" data-group-id="4734535758-12">#</span><span class="nc" data-group-id="4734535758-12">Nx.Tensor</span><span class="p" data-group-id="4734535758-12">&lt;</span><span class="w">
+by composing one of these with an <a href="https://hexdocs.pm/nx/0.7.0/Nx.html"><code class="inline">Nx</code></a> reduction method:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0462080353-1">(</span><span class="p" data-group-id="0462080353-2">[</span><span class="p" data-group-id="0462080353-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0462080353-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0462080353-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0462080353-4">]</span><span class="p" data-group-id="0462080353-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0462080353-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0462080353-5">}</span><span class="p" data-group-id="0462080353-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0462080353-6">(</span><span class="p" data-group-id="0462080353-7">[</span><span class="p" data-group-id="0462080353-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="0462080353-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0462080353-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0462080353-9">]</span><span class="p" data-group-id="0462080353-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0462080353-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0462080353-10">}</span><span class="p" data-group-id="0462080353-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="0462080353-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="0462080353-11">)</span><span class="w">
+</span><span class="p" data-group-id="0462080353-12">#</span><span class="nc" data-group-id="0462080353-12">Nx.Tensor</span><span class="p" data-group-id="0462080353-12">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="4734535758-12">&gt;</span></code></pre><p>You can even compose loss functions:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">my_strange_loss</span><span class="p" data-group-id="3607405270-1">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3607405270-1">)</span><span class="w"> </span><span class="k" data-group-id="3607405270-2">do</span><span class="w">
+</span><span class="p" data-group-id="0462080353-12">&gt;</span></code></pre><p>You can even compose loss functions:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">my_strange_loss</span><span class="p" data-group-id="9786938340-1">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="9786938340-1">)</span><span class="w"> </span><span class="k" data-group-id="9786938340-2">do</span><span class="w">
   </span><span class="n">y_true</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="3607405270-3">(</span><span class="n">y_pred</span><span class="p" data-group-id="3607405270-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="3607405270-4">(</span><span class="n">y_pred</span><span class="p" data-group-id="3607405270-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="3607405270-5">(</span><span class="p" data-group-id="3607405270-5">)</span><span class="w">
-</span><span class="k" data-group-id="3607405270-2">end</span></code></pre><p>Or, more commonly, you can combine loss functions with penalties for
-regularization:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">regularized_loss</span><span class="p" data-group-id="6785783229-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6785783229-1">)</span><span class="w"> </span><span class="k" data-group-id="6785783229-2">do</span><span class="w">
-  </span><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="6785783229-3">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6785783229-3">)</span><span class="w">
-  </span><span class="n">penalty</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">l2_penalty</span><span class="p" data-group-id="6785783229-4">(</span><span class="n">params</span><span class="p" data-group-id="6785783229-4">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="6785783229-5">(</span><span class="n">loss</span><span class="p" data-group-id="6785783229-5">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">penalty</span><span class="w">
-</span><span class="k" data-group-id="6785783229-2">end</span></code></pre><p>All of the functions in this module are implemented as
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="9786938340-3">(</span><span class="n">y_pred</span><span class="p" data-group-id="9786938340-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="9786938340-4">(</span><span class="n">y_pred</span><span class="p" data-group-id="9786938340-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="9786938340-5">(</span><span class="p" data-group-id="9786938340-5">)</span><span class="w">
+</span><span class="k" data-group-id="9786938340-2">end</span></code></pre><p>Or, more commonly, you can combine loss functions with penalties for
+regularization:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">regularized_loss</span><span class="p" data-group-id="6761330808-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6761330808-1">)</span><span class="w"> </span><span class="k" data-group-id="6761330808-2">do</span><span class="w">
+  </span><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="6761330808-3">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6761330808-3">)</span><span class="w">
+  </span><span class="n">penalty</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">l2_penalty</span><span class="p" data-group-id="6761330808-4">(</span><span class="n">params</span><span class="p" data-group-id="6761330808-4">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="6761330808-5">(</span><span class="n">loss</span><span class="p" data-group-id="6761330808-5">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">penalty</span><span class="w">
+</span><span class="k" data-group-id="6761330808-2">end</span></code></pre><p>All of the functions in this module are implemented as
 numerical functions and can be JIT or AOT compiled with
 any supported <a href="https://hexdocs.pm/nx/0.7.0/Nx.html"><code class="inline">Nx</code></a> compiler.</p>
   </section>
@@ -444,29 +444,29 @@ <h1 class="signature" translate="no">binary_cross_entropy(y_true, y_pred, opts \
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9827981659-1">(</span><span class="p" data-group-id="9827981659-2">[</span><span class="p" data-group-id="9827981659-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9827981659-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9827981659-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9827981659-5">]</span><span class="p" data-group-id="9827981659-2">]</span><span class="p" data-group-id="9827981659-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9827981659-6">(</span><span class="p" data-group-id="9827981659-7">[</span><span class="p" data-group-id="9827981659-8">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="9827981659-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-9">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="9827981659-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-10">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="9827981659-10">]</span><span class="p" data-group-id="9827981659-7">]</span><span class="p" data-group-id="9827981659-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="9827981659-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="9827981659-11">)</span><span class="w">
-</span><span class="p" data-group-id="9827981659-12">#</span><span class="nc" data-group-id="9827981659-12">Nx.Tensor</span><span class="p" data-group-id="9827981659-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9827981659-13">[</span><span class="mi">3</span><span class="p" data-group-id="9827981659-13">]</span><span class="w">
-  </span><span class="p" data-group-id="9827981659-14">[</span><span class="mf">0.8644826412200928</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5150600075721741</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45986634492874146</span><span class="p" data-group-id="9827981659-14">]</span><span class="w">
-</span><span class="p" data-group-id="9827981659-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9827981659-15">(</span><span class="p" data-group-id="9827981659-16">[</span><span class="p" data-group-id="9827981659-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9827981659-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-18">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9827981659-18">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-19">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9827981659-19">]</span><span class="p" data-group-id="9827981659-16">]</span><span class="p" data-group-id="9827981659-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9827981659-20">(</span><span class="p" data-group-id="9827981659-21">[</span><span class="p" data-group-id="9827981659-22">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="9827981659-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-23">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="9827981659-23">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-24">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="9827981659-24">]</span><span class="p" data-group-id="9827981659-21">]</span><span class="p" data-group-id="9827981659-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="9827981659-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="9827981659-25">)</span><span class="w">
-</span><span class="p" data-group-id="9827981659-26">#</span><span class="nc" data-group-id="9827981659-26">Nx.Tensor</span><span class="p" data-group-id="9827981659-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7512217687-1">(</span><span class="p" data-group-id="7512217687-2">[</span><span class="p" data-group-id="7512217687-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7512217687-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7512217687-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7512217687-5">]</span><span class="p" data-group-id="7512217687-2">]</span><span class="p" data-group-id="7512217687-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7512217687-6">(</span><span class="p" data-group-id="7512217687-7">[</span><span class="p" data-group-id="7512217687-8">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="7512217687-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-9">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="7512217687-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-10">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="7512217687-10">]</span><span class="p" data-group-id="7512217687-7">]</span><span class="p" data-group-id="7512217687-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="7512217687-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7512217687-11">)</span><span class="w">
+</span><span class="p" data-group-id="7512217687-12">#</span><span class="nc" data-group-id="7512217687-12">Nx.Tensor</span><span class="p" data-group-id="7512217687-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7512217687-13">[</span><span class="mi">3</span><span class="p" data-group-id="7512217687-13">]</span><span class="w">
+  </span><span class="p" data-group-id="7512217687-14">[</span><span class="mf">0.8644826412200928</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5150600075721741</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45986634492874146</span><span class="p" data-group-id="7512217687-14">]</span><span class="w">
+</span><span class="p" data-group-id="7512217687-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7512217687-15">(</span><span class="p" data-group-id="7512217687-16">[</span><span class="p" data-group-id="7512217687-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7512217687-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-18">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7512217687-18">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-19">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7512217687-19">]</span><span class="p" data-group-id="7512217687-16">]</span><span class="p" data-group-id="7512217687-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7512217687-20">(</span><span class="p" data-group-id="7512217687-21">[</span><span class="p" data-group-id="7512217687-22">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="7512217687-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-23">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="7512217687-23">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-24">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="7512217687-24">]</span><span class="p" data-group-id="7512217687-21">]</span><span class="p" data-group-id="7512217687-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="7512217687-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="7512217687-25">)</span><span class="w">
+</span><span class="p" data-group-id="7512217687-26">#</span><span class="nc" data-group-id="7512217687-26">Nx.Tensor</span><span class="p" data-group-id="7512217687-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.613136351108551</span><span class="w">
-</span><span class="p" data-group-id="9827981659-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="7512217687-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9827981659-27">(</span><span class="p" data-group-id="9827981659-28">[</span><span class="p" data-group-id="9827981659-29">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9827981659-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-30">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9827981659-30">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-31">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9827981659-31">]</span><span class="p" data-group-id="9827981659-28">]</span><span class="p" data-group-id="9827981659-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9827981659-32">(</span><span class="p" data-group-id="9827981659-33">[</span><span class="p" data-group-id="9827981659-34">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="9827981659-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-35">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="9827981659-35">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9827981659-36">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="9827981659-36">]</span><span class="p" data-group-id="9827981659-33">]</span><span class="p" data-group-id="9827981659-32">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="9827981659-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="9827981659-37">)</span><span class="w">
-</span><span class="p" data-group-id="9827981659-38">#</span><span class="nc" data-group-id="9827981659-38">Nx.Tensor</span><span class="p" data-group-id="9827981659-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7512217687-27">(</span><span class="p" data-group-id="7512217687-28">[</span><span class="p" data-group-id="7512217687-29">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7512217687-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-30">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7512217687-30">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-31">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7512217687-31">]</span><span class="p" data-group-id="7512217687-28">]</span><span class="p" data-group-id="7512217687-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7512217687-32">(</span><span class="p" data-group-id="7512217687-33">[</span><span class="p" data-group-id="7512217687-34">[</span><span class="mf">0.6811</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5565</span><span class="p" data-group-id="7512217687-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-35">[</span><span class="mf">0.6551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4551</span><span class="p" data-group-id="7512217687-35">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7512217687-36">[</span><span class="mf">0.5422</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2648</span><span class="p" data-group-id="7512217687-36">]</span><span class="p" data-group-id="7512217687-33">]</span><span class="p" data-group-id="7512217687-32">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="7512217687-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7512217687-37">)</span><span class="w">
+</span><span class="p" data-group-id="7512217687-38">#</span><span class="nc" data-group-id="7512217687-38">Nx.Tensor</span><span class="p" data-group-id="7512217687-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.8394089937210083</span><span class="w">
-</span><span class="p" data-group-id="9827981659-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="7512217687-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="categorical_cross_entropy/3">
@@ -495,8 +495,8 @@ <h1 class="signature" translate="no">categorical_cross_entropy(y_true, y_pred, o
 $$</p><p>Categorical cross-entropy is typically used for multi-class classification problems.
 By default, it expects <code class="inline">y_pred</code> to encode a probability distribution along the last
 axis. You can specify <code class="inline">from_logits: true</code> to indicate <code class="inline">y_pred</code> is a logits tensor.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Batch size of 3 with 3 target classes</span><span class="w">
-</span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1287651351-1">(</span><span class="p" data-group-id="1287651351-2">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1287651351-2">]</span><span class="p" data-group-id="1287651351-1">)</span><span class="w">
-</span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1287651351-3">(</span><span class="p" data-group-id="1287651351-4">[</span><span class="p" data-group-id="1287651351-5">[</span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1287651351-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1287651351-6">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="1287651351-6">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1287651351-7">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="1287651351-7">]</span><span class="p" data-group-id="1287651351-4">]</span><span class="p" data-group-id="1287651351-3">)</span></code></pre><h2 id="categorical_cross_entropy/3-argument-shapes" class="section-heading">
+</span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0751289399-1">(</span><span class="p" data-group-id="0751289399-2">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0751289399-2">]</span><span class="p" data-group-id="0751289399-1">)</span><span class="w">
+</span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0751289399-3">(</span><span class="p" data-group-id="0751289399-4">[</span><span class="p" data-group-id="0751289399-5">[</span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0751289399-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0751289399-6">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="0751289399-6">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0751289399-7">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="0751289399-7">]</span><span class="p" data-group-id="0751289399-4">]</span><span class="p" data-group-id="0751289399-3">)</span></code></pre><h2 id="categorical_cross_entropy/3-argument-shapes" class="section-heading">
   <a href="#categorical_cross_entropy/3-argument-shapes" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -520,37 +520,37 @@ <h1 class="signature" translate="no">categorical_cross_entropy(y_true, y_pred, o
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7286272221-1">(</span><span class="p" data-group-id="7286272221-2">[</span><span class="p" data-group-id="7286272221-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7286272221-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7286272221-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7286272221-4">]</span><span class="p" data-group-id="7286272221-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7286272221-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7286272221-5">}</span><span class="p" data-group-id="7286272221-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7286272221-6">(</span><span class="p" data-group-id="7286272221-7">[</span><span class="p" data-group-id="7286272221-8">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7286272221-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7286272221-9">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="7286272221-9">]</span><span class="p" data-group-id="7286272221-7">]</span><span class="p" data-group-id="7286272221-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="7286272221-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7286272221-10">)</span><span class="w">
-</span><span class="p" data-group-id="7286272221-11">#</span><span class="nc" data-group-id="7286272221-11">Nx.Tensor</span><span class="p" data-group-id="7286272221-11">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7286272221-12">[</span><span class="mi">2</span><span class="p" data-group-id="7286272221-12">]</span><span class="w">
-  </span><span class="p" data-group-id="7286272221-13">[</span><span class="mf">0.051293306052684784</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3025851249694824</span><span class="p" data-group-id="7286272221-13">]</span><span class="w">
-</span><span class="p" data-group-id="7286272221-11">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7286272221-14">(</span><span class="p" data-group-id="7286272221-15">[</span><span class="p" data-group-id="7286272221-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7286272221-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7286272221-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7286272221-17">]</span><span class="p" data-group-id="7286272221-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7286272221-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7286272221-18">}</span><span class="p" data-group-id="7286272221-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7286272221-19">(</span><span class="p" data-group-id="7286272221-20">[</span><span class="p" data-group-id="7286272221-21">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7286272221-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7286272221-22">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="7286272221-22">]</span><span class="p" data-group-id="7286272221-20">]</span><span class="p" data-group-id="7286272221-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="7286272221-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="7286272221-23">)</span><span class="w">
-</span><span class="p" data-group-id="7286272221-24">#</span><span class="nc" data-group-id="7286272221-24">Nx.Tensor</span><span class="p" data-group-id="7286272221-24">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9731774378-1">(</span><span class="p" data-group-id="9731774378-2">[</span><span class="p" data-group-id="9731774378-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9731774378-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9731774378-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9731774378-4">]</span><span class="p" data-group-id="9731774378-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9731774378-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="9731774378-5">}</span><span class="p" data-group-id="9731774378-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9731774378-6">(</span><span class="p" data-group-id="9731774378-7">[</span><span class="p" data-group-id="9731774378-8">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9731774378-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9731774378-9">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="9731774378-9">]</span><span class="p" data-group-id="9731774378-7">]</span><span class="p" data-group-id="9731774378-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="9731774378-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="9731774378-10">)</span><span class="w">
+</span><span class="p" data-group-id="9731774378-11">#</span><span class="nc" data-group-id="9731774378-11">Nx.Tensor</span><span class="p" data-group-id="9731774378-11">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9731774378-12">[</span><span class="mi">2</span><span class="p" data-group-id="9731774378-12">]</span><span class="w">
+  </span><span class="p" data-group-id="9731774378-13">[</span><span class="mf">0.051293306052684784</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3025851249694824</span><span class="p" data-group-id="9731774378-13">]</span><span class="w">
+</span><span class="p" data-group-id="9731774378-11">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9731774378-14">(</span><span class="p" data-group-id="9731774378-15">[</span><span class="p" data-group-id="9731774378-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9731774378-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9731774378-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9731774378-17">]</span><span class="p" data-group-id="9731774378-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9731774378-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="9731774378-18">}</span><span class="p" data-group-id="9731774378-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9731774378-19">(</span><span class="p" data-group-id="9731774378-20">[</span><span class="p" data-group-id="9731774378-21">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9731774378-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9731774378-22">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="9731774378-22">]</span><span class="p" data-group-id="9731774378-20">]</span><span class="p" data-group-id="9731774378-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="9731774378-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="9731774378-23">)</span><span class="w">
+</span><span class="p" data-group-id="9731774378-24">#</span><span class="nc" data-group-id="9731774378-24">Nx.Tensor</span><span class="p" data-group-id="9731774378-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.1769392490386963</span><span class="w">
-</span><span class="p" data-group-id="7286272221-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="9731774378-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7286272221-25">(</span><span class="p" data-group-id="7286272221-26">[</span><span class="p" data-group-id="7286272221-27">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7286272221-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7286272221-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7286272221-28">]</span><span class="p" data-group-id="7286272221-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7286272221-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7286272221-29">}</span><span class="p" data-group-id="7286272221-25">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7286272221-30">(</span><span class="p" data-group-id="7286272221-31">[</span><span class="p" data-group-id="7286272221-32">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7286272221-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7286272221-33">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="7286272221-33">]</span><span class="p" data-group-id="7286272221-31">]</span><span class="p" data-group-id="7286272221-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="7286272221-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7286272221-34">)</span><span class="w">
-</span><span class="p" data-group-id="7286272221-35">#</span><span class="nc" data-group-id="7286272221-35">Nx.Tensor</span><span class="p" data-group-id="7286272221-35">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9731774378-25">(</span><span class="p" data-group-id="9731774378-26">[</span><span class="p" data-group-id="9731774378-27">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9731774378-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9731774378-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9731774378-28">]</span><span class="p" data-group-id="9731774378-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9731774378-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="9731774378-29">}</span><span class="p" data-group-id="9731774378-25">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9731774378-30">(</span><span class="p" data-group-id="9731774378-31">[</span><span class="p" data-group-id="9731774378-32">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9731774378-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9731774378-33">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="9731774378-33">]</span><span class="p" data-group-id="9731774378-31">]</span><span class="p" data-group-id="9731774378-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="9731774378-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="9731774378-34">)</span><span class="w">
+</span><span class="p" data-group-id="9731774378-35">#</span><span class="nc" data-group-id="9731774378-35">Nx.Tensor</span><span class="p" data-group-id="9731774378-35">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">2.3538784980773926</span><span class="w">
-</span><span class="p" data-group-id="7286272221-35">&gt;</span><span class="w">
+</span><span class="p" data-group-id="9731774378-35">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7286272221-36">(</span><span class="p" data-group-id="7286272221-37">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7286272221-37">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7286272221-38">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7286272221-38">}</span><span class="p" data-group-id="7286272221-36">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7286272221-39">(</span><span class="p" data-group-id="7286272221-40">[</span><span class="p" data-group-id="7286272221-41">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7286272221-41">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7286272221-42">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="7286272221-42">]</span><span class="p" data-group-id="7286272221-40">]</span><span class="p" data-group-id="7286272221-39">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="7286272221-43">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7286272221-43">)</span><span class="w">
-</span><span class="p" data-group-id="7286272221-44">#</span><span class="nc" data-group-id="7286272221-44">Nx.Tensor</span><span class="p" data-group-id="7286272221-44">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9731774378-36">(</span><span class="p" data-group-id="9731774378-37">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9731774378-37">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9731774378-38">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="9731774378-38">}</span><span class="p" data-group-id="9731774378-36">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9731774378-39">(</span><span class="p" data-group-id="9731774378-40">[</span><span class="p" data-group-id="9731774378-41">[</span><span class="mf">0.05</span><span class="p">,</span><span class="w"> </span><span class="mf">0.95</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9731774378-41">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9731774378-42">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="9731774378-42">]</span><span class="p" data-group-id="9731774378-40">]</span><span class="p" data-group-id="9731774378-39">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_cross_entropy</span><span class="p" data-group-id="9731774378-43">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9731774378-43">)</span><span class="w">
+</span><span class="p" data-group-id="9731774378-44">#</span><span class="nc" data-group-id="9731774378-44">Nx.Tensor</span><span class="p" data-group-id="9731774378-44">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">2.3538784980773926</span><span class="w">
-</span><span class="p" data-group-id="7286272221-44">&gt;</span></code></pre>
+</span><span class="p" data-group-id="9731774378-44">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="categorical_hinge/3">
@@ -593,29 +593,29 @@ <h1 class="signature" translate="no">categorical_hinge(y_true, y_pred, opts \\ [
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1264798447-1">(</span><span class="p" data-group-id="1264798447-2">[</span><span class="p" data-group-id="1264798447-3">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1264798447-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1264798447-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1264798447-4">]</span><span class="p" data-group-id="1264798447-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1264798447-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1264798447-5">}</span><span class="p" data-group-id="1264798447-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1264798447-6">(</span><span class="p" data-group-id="1264798447-7">[</span><span class="p" data-group-id="1264798447-8">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="1264798447-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1264798447-9">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="1264798447-9">]</span><span class="p" data-group-id="1264798447-7">]</span><span class="p" data-group-id="1264798447-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="1264798447-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1264798447-10">)</span><span class="w">
-</span><span class="p" data-group-id="1264798447-11">#</span><span class="nc" data-group-id="1264798447-11">Nx.Tensor</span><span class="p" data-group-id="1264798447-11">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1264798447-12">[</span><span class="mi">2</span><span class="p" data-group-id="1264798447-12">]</span><span class="w">
-  </span><span class="p" data-group-id="1264798447-13">[</span><span class="mf">1.6334158182144165</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2410175800323486</span><span class="p" data-group-id="1264798447-13">]</span><span class="w">
-</span><span class="p" data-group-id="1264798447-11">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1264798447-14">(</span><span class="p" data-group-id="1264798447-15">[</span><span class="p" data-group-id="1264798447-16">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1264798447-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1264798447-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1264798447-17">]</span><span class="p" data-group-id="1264798447-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1264798447-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1264798447-18">}</span><span class="p" data-group-id="1264798447-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1264798447-19">(</span><span class="p" data-group-id="1264798447-20">[</span><span class="p" data-group-id="1264798447-21">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="1264798447-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1264798447-22">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="1264798447-22">]</span><span class="p" data-group-id="1264798447-20">]</span><span class="p" data-group-id="1264798447-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="1264798447-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="1264798447-23">)</span><span class="w">
-</span><span class="p" data-group-id="1264798447-24">#</span><span class="nc" data-group-id="1264798447-24">Nx.Tensor</span><span class="p" data-group-id="1264798447-24">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4707095801-1">(</span><span class="p" data-group-id="4707095801-2">[</span><span class="p" data-group-id="4707095801-3">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4707095801-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4707095801-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4707095801-4">]</span><span class="p" data-group-id="4707095801-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4707095801-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4707095801-5">}</span><span class="p" data-group-id="4707095801-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4707095801-6">(</span><span class="p" data-group-id="4707095801-7">[</span><span class="p" data-group-id="4707095801-8">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="4707095801-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4707095801-9">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="4707095801-9">]</span><span class="p" data-group-id="4707095801-7">]</span><span class="p" data-group-id="4707095801-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="4707095801-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4707095801-10">)</span><span class="w">
+</span><span class="p" data-group-id="4707095801-11">#</span><span class="nc" data-group-id="4707095801-11">Nx.Tensor</span><span class="p" data-group-id="4707095801-11">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4707095801-12">[</span><span class="mi">2</span><span class="p" data-group-id="4707095801-12">]</span><span class="w">
+  </span><span class="p" data-group-id="4707095801-13">[</span><span class="mf">1.6334158182144165</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2410175800323486</span><span class="p" data-group-id="4707095801-13">]</span><span class="w">
+</span><span class="p" data-group-id="4707095801-11">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4707095801-14">(</span><span class="p" data-group-id="4707095801-15">[</span><span class="p" data-group-id="4707095801-16">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4707095801-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4707095801-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4707095801-17">]</span><span class="p" data-group-id="4707095801-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4707095801-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4707095801-18">}</span><span class="p" data-group-id="4707095801-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4707095801-19">(</span><span class="p" data-group-id="4707095801-20">[</span><span class="p" data-group-id="4707095801-21">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="4707095801-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4707095801-22">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="4707095801-22">]</span><span class="p" data-group-id="4707095801-20">]</span><span class="p" data-group-id="4707095801-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="4707095801-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="4707095801-23">)</span><span class="w">
+</span><span class="p" data-group-id="4707095801-24">#</span><span class="nc" data-group-id="4707095801-24">Nx.Tensor</span><span class="p" data-group-id="4707095801-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.4372167587280273</span><span class="w">
-</span><span class="p" data-group-id="1264798447-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="4707095801-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1264798447-25">(</span><span class="p" data-group-id="1264798447-26">[</span><span class="p" data-group-id="1264798447-27">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1264798447-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1264798447-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1264798447-28">]</span><span class="p" data-group-id="1264798447-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1264798447-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1264798447-29">}</span><span class="p" data-group-id="1264798447-25">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1264798447-30">(</span><span class="p" data-group-id="1264798447-31">[</span><span class="p" data-group-id="1264798447-32">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="1264798447-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1264798447-33">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="1264798447-33">]</span><span class="p" data-group-id="1264798447-31">]</span><span class="p" data-group-id="1264798447-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="1264798447-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="1264798447-34">)</span><span class="w">
-</span><span class="p" data-group-id="1264798447-35">#</span><span class="nc" data-group-id="1264798447-35">Nx.Tensor</span><span class="p" data-group-id="1264798447-35">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4707095801-25">(</span><span class="p" data-group-id="4707095801-26">[</span><span class="p" data-group-id="4707095801-27">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4707095801-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4707095801-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4707095801-28">]</span><span class="p" data-group-id="4707095801-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4707095801-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4707095801-29">}</span><span class="p" data-group-id="4707095801-25">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4707095801-30">(</span><span class="p" data-group-id="4707095801-31">[</span><span class="p" data-group-id="4707095801-32">[</span><span class="mf">0.05300799</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21617081</span><span class="p">,</span><span class="w"> </span><span class="mf">0.68642382</span><span class="p" data-group-id="4707095801-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4707095801-33">[</span><span class="mf">0.3754382</span><span class="w"> </span><span class="p">,</span><span class="w"> </span><span class="mf">0.08494169</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13442067</span><span class="p" data-group-id="4707095801-33">]</span><span class="p" data-group-id="4707095801-31">]</span><span class="p" data-group-id="4707095801-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">categorical_hinge</span><span class="p" data-group-id="4707095801-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="4707095801-34">)</span><span class="w">
+</span><span class="p" data-group-id="4707095801-35">#</span><span class="nc" data-group-id="4707095801-35">Nx.Tensor</span><span class="p" data-group-id="4707095801-35">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">2.8744335174560547</span><span class="w">
-</span><span class="p" data-group-id="1264798447-35">&gt;</span></code></pre>
+</span><span class="p" data-group-id="4707095801-35">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="connectionist_temporal_classification/3">
@@ -710,13 +710,13 @@ <h1 class="signature" translate="no">cosine_similarity(y_true, y_pred, opts \\ [
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2511976469-1">(</span><span class="p" data-group-id="2511976469-2">[</span><span class="p" data-group-id="2511976469-3">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2511976469-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2511976469-4">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2511976469-4">]</span><span class="p" data-group-id="2511976469-2">]</span><span class="p" data-group-id="2511976469-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2511976469-5">(</span><span class="p" data-group-id="2511976469-6">[</span><span class="p" data-group-id="2511976469-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2511976469-7">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2511976469-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2511976469-8">]</span><span class="p" data-group-id="2511976469-6">]</span><span class="p" data-group-id="2511976469-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">cosine_similarity</span><span class="p" data-group-id="2511976469-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2511976469-9">)</span><span class="w">
-</span><span class="p" data-group-id="2511976469-10">#</span><span class="nc" data-group-id="2511976469-10">Nx.Tensor</span><span class="p" data-group-id="2511976469-10">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2511976469-11">[</span><span class="mi">2</span><span class="p" data-group-id="2511976469-11">]</span><span class="w">
-  </span><span class="p" data-group-id="2511976469-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0000001192092896</span><span class="p" data-group-id="2511976469-12">]</span><span class="w">
-</span><span class="p" data-group-id="2511976469-10">&gt;</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2571709677-1">(</span><span class="p" data-group-id="2571709677-2">[</span><span class="p" data-group-id="2571709677-3">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2571709677-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2571709677-4">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2571709677-4">]</span><span class="p" data-group-id="2571709677-2">]</span><span class="p" data-group-id="2571709677-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2571709677-5">(</span><span class="p" data-group-id="2571709677-6">[</span><span class="p" data-group-id="2571709677-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2571709677-7">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2571709677-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2571709677-8">]</span><span class="p" data-group-id="2571709677-6">]</span><span class="p" data-group-id="2571709677-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">cosine_similarity</span><span class="p" data-group-id="2571709677-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2571709677-9">)</span><span class="w">
+</span><span class="p" data-group-id="2571709677-10">#</span><span class="nc" data-group-id="2571709677-10">Nx.Tensor</span><span class="p" data-group-id="2571709677-10">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2571709677-11">[</span><span class="mi">2</span><span class="p" data-group-id="2571709677-11">]</span><span class="w">
+  </span><span class="p" data-group-id="2571709677-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0000001192092896</span><span class="p" data-group-id="2571709677-12">]</span><span class="w">
+</span><span class="p" data-group-id="2571709677-10">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="hinge/3">
@@ -761,29 +761,29 @@ <h1 class="signature" translate="no">hinge(y_true, y_pred, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3804628631-1">(</span><span class="p" data-group-id="3804628631-2">[</span><span class="p" data-group-id="3804628631-3">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3804628631-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3804628631-4">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3804628631-4">]</span><span class="p" data-group-id="3804628631-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3804628631-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3804628631-5">}</span><span class="p" data-group-id="3804628631-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3804628631-6">(</span><span class="p" data-group-id="3804628631-7">[</span><span class="p" data-group-id="3804628631-8">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="3804628631-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3804628631-9">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="3804628631-9">]</span><span class="p" data-group-id="3804628631-7">]</span><span class="p" data-group-id="3804628631-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="3804628631-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3804628631-10">)</span><span class="w">
-</span><span class="p" data-group-id="3804628631-11">#</span><span class="nc" data-group-id="3804628631-11">Nx.Tensor</span><span class="p" data-group-id="3804628631-11">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3804628631-12">[</span><span class="mi">2</span><span class="p" data-group-id="3804628631-12">]</span><span class="w">
-  </span><span class="p" data-group-id="3804628631-13">[</span><span class="mf">0.9700339436531067</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6437881588935852</span><span class="p" data-group-id="3804628631-13">]</span><span class="w">
-</span><span class="p" data-group-id="3804628631-11">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3804628631-14">(</span><span class="p" data-group-id="3804628631-15">[</span><span class="p" data-group-id="3804628631-16">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3804628631-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3804628631-17">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3804628631-17">]</span><span class="p" data-group-id="3804628631-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3804628631-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3804628631-18">}</span><span class="p" data-group-id="3804628631-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3804628631-19">(</span><span class="p" data-group-id="3804628631-20">[</span><span class="p" data-group-id="3804628631-21">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="3804628631-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3804628631-22">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="3804628631-22">]</span><span class="p" data-group-id="3804628631-20">]</span><span class="p" data-group-id="3804628631-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="3804628631-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="3804628631-23">)</span><span class="w">
-</span><span class="p" data-group-id="3804628631-24">#</span><span class="nc" data-group-id="3804628631-24">Nx.Tensor</span><span class="p" data-group-id="3804628631-24">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0289340803-1">(</span><span class="p" data-group-id="0289340803-2">[</span><span class="p" data-group-id="0289340803-3">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="0289340803-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0289340803-4">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="0289340803-4">]</span><span class="p" data-group-id="0289340803-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0289340803-5">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0289340803-5">}</span><span class="p" data-group-id="0289340803-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0289340803-6">(</span><span class="p" data-group-id="0289340803-7">[</span><span class="p" data-group-id="0289340803-8">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="0289340803-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0289340803-9">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="0289340803-9">]</span><span class="p" data-group-id="0289340803-7">]</span><span class="p" data-group-id="0289340803-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="0289340803-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="0289340803-10">)</span><span class="w">
+</span><span class="p" data-group-id="0289340803-11">#</span><span class="nc" data-group-id="0289340803-11">Nx.Tensor</span><span class="p" data-group-id="0289340803-11">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0289340803-12">[</span><span class="mi">2</span><span class="p" data-group-id="0289340803-12">]</span><span class="w">
+  </span><span class="p" data-group-id="0289340803-13">[</span><span class="mf">0.9700339436531067</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6437881588935852</span><span class="p" data-group-id="0289340803-13">]</span><span class="w">
+</span><span class="p" data-group-id="0289340803-11">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0289340803-14">(</span><span class="p" data-group-id="0289340803-15">[</span><span class="p" data-group-id="0289340803-16">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="0289340803-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0289340803-17">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="0289340803-17">]</span><span class="p" data-group-id="0289340803-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0289340803-18">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0289340803-18">}</span><span class="p" data-group-id="0289340803-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0289340803-19">(</span><span class="p" data-group-id="0289340803-20">[</span><span class="p" data-group-id="0289340803-21">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="0289340803-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0289340803-22">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="0289340803-22">]</span><span class="p" data-group-id="0289340803-20">]</span><span class="p" data-group-id="0289340803-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="0289340803-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="0289340803-23">)</span><span class="w">
+</span><span class="p" data-group-id="0289340803-24">#</span><span class="nc" data-group-id="0289340803-24">Nx.Tensor</span><span class="p" data-group-id="0289340803-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.806911051273346</span><span class="w">
-</span><span class="p" data-group-id="3804628631-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="0289340803-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3804628631-25">(</span><span class="p" data-group-id="3804628631-26">[</span><span class="p" data-group-id="3804628631-27">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3804628631-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3804628631-28">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3804628631-28">]</span><span class="p" data-group-id="3804628631-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3804628631-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3804628631-29">}</span><span class="p" data-group-id="3804628631-25">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3804628631-30">(</span><span class="p" data-group-id="3804628631-31">[</span><span class="p" data-group-id="3804628631-32">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="3804628631-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3804628631-33">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="3804628631-33">]</span><span class="p" data-group-id="3804628631-31">]</span><span class="p" data-group-id="3804628631-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="3804628631-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="3804628631-34">)</span><span class="w">
-</span><span class="p" data-group-id="3804628631-35">#</span><span class="nc" data-group-id="3804628631-35">Nx.Tensor</span><span class="p" data-group-id="3804628631-35">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0289340803-25">(</span><span class="p" data-group-id="0289340803-26">[</span><span class="p" data-group-id="0289340803-27">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="0289340803-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0289340803-28">[</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w">  </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="0289340803-28">]</span><span class="p" data-group-id="0289340803-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0289340803-29">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0289340803-29">}</span><span class="p" data-group-id="0289340803-25">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0289340803-30">(</span><span class="p" data-group-id="0289340803-31">[</span><span class="p" data-group-id="0289340803-32">[</span><span class="mf">0.45440044</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31470688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.67920924</span><span class="p" data-group-id="0289340803-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0289340803-33">[</span><span class="mf">0.24311459</span><span class="p">,</span><span class="w"> </span><span class="mf">0.93466766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10914676</span><span class="p" data-group-id="0289340803-33">]</span><span class="p" data-group-id="0289340803-31">]</span><span class="p" data-group-id="0289340803-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">hinge</span><span class="p" data-group-id="0289340803-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="0289340803-34">)</span><span class="w">
+</span><span class="p" data-group-id="0289340803-35">#</span><span class="nc" data-group-id="0289340803-35">Nx.Tensor</span><span class="p" data-group-id="0289340803-35">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.613822102546692</span><span class="w">
-</span><span class="p" data-group-id="3804628631-35">&gt;</span></code></pre>
+</span><span class="p" data-group-id="0289340803-35">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="huber/3">
@@ -827,25 +827,25 @@ <h1 class="signature" translate="no">huber(y_true, y_pred, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5666263834-1">(</span><span class="p" data-group-id="5666263834-2">[</span><span class="p" data-group-id="5666263834-3">[</span><span class="mi">1</span><span class="p" data-group-id="5666263834-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5666263834-4">[</span><span class="mf">1.5</span><span class="p" data-group-id="5666263834-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5666263834-5">[</span><span class="mf">2.0</span><span class="p" data-group-id="5666263834-5">]</span><span class="p" data-group-id="5666263834-2">]</span><span class="p" data-group-id="5666263834-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5666263834-6">(</span><span class="p" data-group-id="5666263834-7">[</span><span class="p" data-group-id="5666263834-8">[</span><span class="mf">0.8</span><span class="p" data-group-id="5666263834-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5666263834-9">[</span><span class="mf">1.8</span><span class="p" data-group-id="5666263834-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5666263834-10">[</span><span class="mf">2.1</span><span class="p" data-group-id="5666263834-10">]</span><span class="p" data-group-id="5666263834-7">]</span><span class="p" data-group-id="5666263834-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">huber</span><span class="p" data-group-id="5666263834-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5666263834-11">)</span><span class="w">
-</span><span class="p" data-group-id="5666263834-12">#</span><span class="nc" data-group-id="5666263834-12">Nx.Tensor</span><span class="p" data-group-id="5666263834-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5666263834-13">[</span><span class="mi">3</span><span class="p" data-group-id="5666263834-13">]</span><span class="p" data-group-id="5666263834-14">[</span><span class="mi">1</span><span class="p" data-group-id="5666263834-14">]</span><span class="w">
-  </span><span class="p" data-group-id="5666263834-15">[</span><span class="w">
-    </span><span class="p" data-group-id="5666263834-16">[</span><span class="mf">0.019999997690320015</span><span class="p" data-group-id="5666263834-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5666263834-17">[</span><span class="mf">0.04499998688697815</span><span class="p" data-group-id="5666263834-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5666263834-18">[</span><span class="mf">0.004999990575015545</span><span class="p" data-group-id="5666263834-18">]</span><span class="w">
-  </span><span class="p" data-group-id="5666263834-15">]</span><span class="w">
-</span><span class="p" data-group-id="5666263834-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5666263834-19">(</span><span class="p" data-group-id="5666263834-20">[</span><span class="p" data-group-id="5666263834-21">[</span><span class="mi">1</span><span class="p" data-group-id="5666263834-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5666263834-22">[</span><span class="mf">1.5</span><span class="p" data-group-id="5666263834-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5666263834-23">[</span><span class="mf">2.0</span><span class="p" data-group-id="5666263834-23">]</span><span class="p" data-group-id="5666263834-20">]</span><span class="p" data-group-id="5666263834-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5666263834-24">(</span><span class="p" data-group-id="5666263834-25">[</span><span class="p" data-group-id="5666263834-26">[</span><span class="mf">0.8</span><span class="p" data-group-id="5666263834-26">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5666263834-27">[</span><span class="mf">1.8</span><span class="p" data-group-id="5666263834-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5666263834-28">[</span><span class="mf">2.1</span><span class="p" data-group-id="5666263834-28">]</span><span class="p" data-group-id="5666263834-25">]</span><span class="p" data-group-id="5666263834-24">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">huber</span><span class="p" data-group-id="5666263834-29">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5666263834-29">)</span><span class="w">
-</span><span class="p" data-group-id="5666263834-30">#</span><span class="nc" data-group-id="5666263834-30">Nx.Tensor</span><span class="p" data-group-id="5666263834-30">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2703051732-1">(</span><span class="p" data-group-id="2703051732-2">[</span><span class="p" data-group-id="2703051732-3">[</span><span class="mi">1</span><span class="p" data-group-id="2703051732-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2703051732-4">[</span><span class="mf">1.5</span><span class="p" data-group-id="2703051732-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2703051732-5">[</span><span class="mf">2.0</span><span class="p" data-group-id="2703051732-5">]</span><span class="p" data-group-id="2703051732-2">]</span><span class="p" data-group-id="2703051732-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2703051732-6">(</span><span class="p" data-group-id="2703051732-7">[</span><span class="p" data-group-id="2703051732-8">[</span><span class="mf">0.8</span><span class="p" data-group-id="2703051732-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2703051732-9">[</span><span class="mf">1.8</span><span class="p" data-group-id="2703051732-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2703051732-10">[</span><span class="mf">2.1</span><span class="p" data-group-id="2703051732-10">]</span><span class="p" data-group-id="2703051732-7">]</span><span class="p" data-group-id="2703051732-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">huber</span><span class="p" data-group-id="2703051732-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2703051732-11">)</span><span class="w">
+</span><span class="p" data-group-id="2703051732-12">#</span><span class="nc" data-group-id="2703051732-12">Nx.Tensor</span><span class="p" data-group-id="2703051732-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2703051732-13">[</span><span class="mi">3</span><span class="p" data-group-id="2703051732-13">]</span><span class="p" data-group-id="2703051732-14">[</span><span class="mi">1</span><span class="p" data-group-id="2703051732-14">]</span><span class="w">
+  </span><span class="p" data-group-id="2703051732-15">[</span><span class="w">
+    </span><span class="p" data-group-id="2703051732-16">[</span><span class="mf">0.019999997690320015</span><span class="p" data-group-id="2703051732-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2703051732-17">[</span><span class="mf">0.04499998688697815</span><span class="p" data-group-id="2703051732-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2703051732-18">[</span><span class="mf">0.004999990575015545</span><span class="p" data-group-id="2703051732-18">]</span><span class="w">
+  </span><span class="p" data-group-id="2703051732-15">]</span><span class="w">
+</span><span class="p" data-group-id="2703051732-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2703051732-19">(</span><span class="p" data-group-id="2703051732-20">[</span><span class="p" data-group-id="2703051732-21">[</span><span class="mi">1</span><span class="p" data-group-id="2703051732-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2703051732-22">[</span><span class="mf">1.5</span><span class="p" data-group-id="2703051732-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2703051732-23">[</span><span class="mf">2.0</span><span class="p" data-group-id="2703051732-23">]</span><span class="p" data-group-id="2703051732-20">]</span><span class="p" data-group-id="2703051732-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2703051732-24">(</span><span class="p" data-group-id="2703051732-25">[</span><span class="p" data-group-id="2703051732-26">[</span><span class="mf">0.8</span><span class="p" data-group-id="2703051732-26">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2703051732-27">[</span><span class="mf">1.8</span><span class="p" data-group-id="2703051732-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2703051732-28">[</span><span class="mf">2.1</span><span class="p" data-group-id="2703051732-28">]</span><span class="p" data-group-id="2703051732-25">]</span><span class="p" data-group-id="2703051732-24">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">huber</span><span class="p" data-group-id="2703051732-29">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="2703051732-29">)</span><span class="w">
+</span><span class="p" data-group-id="2703051732-30">#</span><span class="nc" data-group-id="2703051732-30">Nx.Tensor</span><span class="p" data-group-id="2703051732-30">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.02333332598209381</span><span class="w">
-</span><span class="p" data-group-id="5666263834-30">&gt;</span></code></pre>
+</span><span class="p" data-group-id="2703051732-30">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="kl_divergence/3">
@@ -890,29 +890,29 @@ <h1 class="signature" translate="no">kl_divergence(y_true, y_pred, opts \\ [])</
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6391017399-1">(</span><span class="p" data-group-id="6391017399-2">[</span><span class="p" data-group-id="6391017399-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6391017399-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6391017399-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6391017399-4">]</span><span class="p" data-group-id="6391017399-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6391017399-5">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6391017399-5">}</span><span class="p" data-group-id="6391017399-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6391017399-6">(</span><span class="p" data-group-id="6391017399-7">[</span><span class="p" data-group-id="6391017399-8">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="6391017399-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6391017399-9">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="6391017399-9">]</span><span class="p" data-group-id="6391017399-7">]</span><span class="p" data-group-id="6391017399-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="6391017399-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6391017399-10">)</span><span class="w">
-</span><span class="p" data-group-id="6391017399-11">#</span><span class="nc" data-group-id="6391017399-11">Nx.Tensor</span><span class="p" data-group-id="6391017399-11">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6391017399-12">[</span><span class="mi">2</span><span class="p" data-group-id="6391017399-12">]</span><span class="w">
-  </span><span class="p" data-group-id="6391017399-13">[</span><span class="mf">0.916289210319519</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.080907390540233e-6</span><span class="p" data-group-id="6391017399-13">]</span><span class="w">
-</span><span class="p" data-group-id="6391017399-11">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6391017399-14">(</span><span class="p" data-group-id="6391017399-15">[</span><span class="p" data-group-id="6391017399-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6391017399-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6391017399-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6391017399-17">]</span><span class="p" data-group-id="6391017399-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6391017399-18">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6391017399-18">}</span><span class="p" data-group-id="6391017399-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6391017399-19">(</span><span class="p" data-group-id="6391017399-20">[</span><span class="p" data-group-id="6391017399-21">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="6391017399-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6391017399-22">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="6391017399-22">]</span><span class="p" data-group-id="6391017399-20">]</span><span class="p" data-group-id="6391017399-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="6391017399-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="6391017399-23">)</span><span class="w">
-</span><span class="p" data-group-id="6391017399-24">#</span><span class="nc" data-group-id="6391017399-24">Nx.Tensor</span><span class="p" data-group-id="6391017399-24">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5918569651-1">(</span><span class="p" data-group-id="5918569651-2">[</span><span class="p" data-group-id="5918569651-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5918569651-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5918569651-4">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5918569651-4">]</span><span class="p" data-group-id="5918569651-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5918569651-5">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5918569651-5">}</span><span class="p" data-group-id="5918569651-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5918569651-6">(</span><span class="p" data-group-id="5918569651-7">[</span><span class="p" data-group-id="5918569651-8">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="5918569651-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5918569651-9">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="5918569651-9">]</span><span class="p" data-group-id="5918569651-7">]</span><span class="p" data-group-id="5918569651-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="5918569651-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="5918569651-10">)</span><span class="w">
+</span><span class="p" data-group-id="5918569651-11">#</span><span class="nc" data-group-id="5918569651-11">Nx.Tensor</span><span class="p" data-group-id="5918569651-11">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5918569651-12">[</span><span class="mi">2</span><span class="p" data-group-id="5918569651-12">]</span><span class="w">
+  </span><span class="p" data-group-id="5918569651-13">[</span><span class="mf">0.916289210319519</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.080907390540233e-6</span><span class="p" data-group-id="5918569651-13">]</span><span class="w">
+</span><span class="p" data-group-id="5918569651-11">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5918569651-14">(</span><span class="p" data-group-id="5918569651-15">[</span><span class="p" data-group-id="5918569651-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5918569651-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5918569651-17">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5918569651-17">]</span><span class="p" data-group-id="5918569651-15">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5918569651-18">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5918569651-18">}</span><span class="p" data-group-id="5918569651-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5918569651-19">(</span><span class="p" data-group-id="5918569651-20">[</span><span class="p" data-group-id="5918569651-21">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="5918569651-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5918569651-22">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="5918569651-22">]</span><span class="p" data-group-id="5918569651-20">]</span><span class="p" data-group-id="5918569651-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="5918569651-23">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="5918569651-23">)</span><span class="w">
+</span><span class="p" data-group-id="5918569651-24">#</span><span class="nc" data-group-id="5918569651-24">Nx.Tensor</span><span class="p" data-group-id="5918569651-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.45814305543899536</span><span class="w">
-</span><span class="p" data-group-id="6391017399-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="5918569651-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6391017399-25">(</span><span class="p" data-group-id="6391017399-26">[</span><span class="p" data-group-id="6391017399-27">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6391017399-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6391017399-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6391017399-28">]</span><span class="p" data-group-id="6391017399-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6391017399-29">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6391017399-29">}</span><span class="p" data-group-id="6391017399-25">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6391017399-30">(</span><span class="p" data-group-id="6391017399-31">[</span><span class="p" data-group-id="6391017399-32">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="6391017399-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6391017399-33">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="6391017399-33">]</span><span class="p" data-group-id="6391017399-31">]</span><span class="p" data-group-id="6391017399-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="6391017399-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="6391017399-34">)</span><span class="w">
-</span><span class="p" data-group-id="6391017399-35">#</span><span class="nc" data-group-id="6391017399-35">Nx.Tensor</span><span class="p" data-group-id="6391017399-35">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5918569651-25">(</span><span class="p" data-group-id="5918569651-26">[</span><span class="p" data-group-id="5918569651-27">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5918569651-27">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5918569651-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5918569651-28">]</span><span class="p" data-group-id="5918569651-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5918569651-29">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5918569651-29">}</span><span class="p" data-group-id="5918569651-25">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5918569651-30">(</span><span class="p" data-group-id="5918569651-31">[</span><span class="p" data-group-id="5918569651-32">[</span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p" data-group-id="5918569651-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5918569651-33">[</span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="5918569651-33">]</span><span class="p" data-group-id="5918569651-31">]</span><span class="p" data-group-id="5918569651-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">kl_divergence</span><span class="p" data-group-id="5918569651-34">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="5918569651-34">)</span><span class="w">
+</span><span class="p" data-group-id="5918569651-35">#</span><span class="nc" data-group-id="5918569651-35">Nx.Tensor</span><span class="p" data-group-id="5918569651-35">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.9162861108779907</span><span class="w">
-</span><span class="p" data-group-id="6391017399-35">&gt;</span></code></pre>
+</span><span class="p" data-group-id="5918569651-35">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="label_smoothing/2">
@@ -988,29 +988,29 @@ <h1 class="signature" translate="no">log_cosh(y_true, y_pred, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7900766581-1">(</span><span class="p" data-group-id="7900766581-2">[</span><span class="p" data-group-id="7900766581-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7900766581-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7900766581-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7900766581-4">]</span><span class="p" data-group-id="7900766581-2">]</span><span class="p" data-group-id="7900766581-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7900766581-5">(</span><span class="p" data-group-id="7900766581-6">[</span><span class="p" data-group-id="7900766581-7">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7900766581-7">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7900766581-8">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7900766581-8">]</span><span class="p" data-group-id="7900766581-6">]</span><span class="p" data-group-id="7900766581-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="7900766581-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7900766581-9">)</span><span class="w">
-</span><span class="p" data-group-id="7900766581-10">#</span><span class="nc" data-group-id="7900766581-10">Nx.Tensor</span><span class="p" data-group-id="7900766581-10">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7900766581-11">[</span><span class="mi">2</span><span class="p" data-group-id="7900766581-11">]</span><span class="w">
-  </span><span class="p" data-group-id="7900766581-12">[</span><span class="mf">0.2168903946876526</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7900766581-12">]</span><span class="w">
-</span><span class="p" data-group-id="7900766581-10">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7900766581-13">(</span><span class="p" data-group-id="7900766581-14">[</span><span class="p" data-group-id="7900766581-15">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7900766581-15">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7900766581-16">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7900766581-16">]</span><span class="p" data-group-id="7900766581-14">]</span><span class="p" data-group-id="7900766581-13">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7900766581-17">(</span><span class="p" data-group-id="7900766581-18">[</span><span class="p" data-group-id="7900766581-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7900766581-19">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7900766581-20">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7900766581-20">]</span><span class="p" data-group-id="7900766581-18">]</span><span class="p" data-group-id="7900766581-17">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="7900766581-21">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="7900766581-21">)</span><span class="w">
-</span><span class="p" data-group-id="7900766581-22">#</span><span class="nc" data-group-id="7900766581-22">Nx.Tensor</span><span class="p" data-group-id="7900766581-22">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2911887355-1">(</span><span class="p" data-group-id="2911887355-2">[</span><span class="p" data-group-id="2911887355-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2911887355-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2911887355-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2911887355-4">]</span><span class="p" data-group-id="2911887355-2">]</span><span class="p" data-group-id="2911887355-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2911887355-5">(</span><span class="p" data-group-id="2911887355-6">[</span><span class="p" data-group-id="2911887355-7">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2911887355-7">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2911887355-8">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2911887355-8">]</span><span class="p" data-group-id="2911887355-6">]</span><span class="p" data-group-id="2911887355-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="2911887355-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2911887355-9">)</span><span class="w">
+</span><span class="p" data-group-id="2911887355-10">#</span><span class="nc" data-group-id="2911887355-10">Nx.Tensor</span><span class="p" data-group-id="2911887355-10">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="2911887355-11">[</span><span class="mi">2</span><span class="p" data-group-id="2911887355-11">]</span><span class="w">
+  </span><span class="p" data-group-id="2911887355-12">[</span><span class="mf">0.2168903946876526</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2911887355-12">]</span><span class="w">
+</span><span class="p" data-group-id="2911887355-10">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2911887355-13">(</span><span class="p" data-group-id="2911887355-14">[</span><span class="p" data-group-id="2911887355-15">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2911887355-15">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2911887355-16">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2911887355-16">]</span><span class="p" data-group-id="2911887355-14">]</span><span class="p" data-group-id="2911887355-13">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2911887355-17">(</span><span class="p" data-group-id="2911887355-18">[</span><span class="p" data-group-id="2911887355-19">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2911887355-19">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2911887355-20">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2911887355-20">]</span><span class="p" data-group-id="2911887355-18">]</span><span class="p" data-group-id="2911887355-17">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="2911887355-21">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="2911887355-21">)</span><span class="w">
+</span><span class="p" data-group-id="2911887355-22">#</span><span class="nc" data-group-id="2911887355-22">Nx.Tensor</span><span class="p" data-group-id="2911887355-22">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.1084451973438263</span><span class="w">
-</span><span class="p" data-group-id="7900766581-22">&gt;</span><span class="w">
+</span><span class="p" data-group-id="2911887355-22">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7900766581-23">(</span><span class="p" data-group-id="7900766581-24">[</span><span class="p" data-group-id="7900766581-25">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7900766581-25">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7900766581-26">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7900766581-26">]</span><span class="p" data-group-id="7900766581-24">]</span><span class="p" data-group-id="7900766581-23">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7900766581-27">(</span><span class="p" data-group-id="7900766581-28">[</span><span class="p" data-group-id="7900766581-29">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7900766581-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7900766581-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7900766581-30">]</span><span class="p" data-group-id="7900766581-28">]</span><span class="p" data-group-id="7900766581-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="7900766581-31">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7900766581-31">)</span><span class="w">
-</span><span class="p" data-group-id="7900766581-32">#</span><span class="nc" data-group-id="7900766581-32">Nx.Tensor</span><span class="p" data-group-id="7900766581-32">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2911887355-23">(</span><span class="p" data-group-id="2911887355-24">[</span><span class="p" data-group-id="2911887355-25">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2911887355-25">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2911887355-26">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2911887355-26">]</span><span class="p" data-group-id="2911887355-24">]</span><span class="p" data-group-id="2911887355-23">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2911887355-27">(</span><span class="p" data-group-id="2911887355-28">[</span><span class="p" data-group-id="2911887355-29">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2911887355-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2911887355-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2911887355-30">]</span><span class="p" data-group-id="2911887355-28">]</span><span class="p" data-group-id="2911887355-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">log_cosh</span><span class="p" data-group-id="2911887355-31">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="2911887355-31">)</span><span class="w">
+</span><span class="p" data-group-id="2911887355-32">#</span><span class="nc" data-group-id="2911887355-32">Nx.Tensor</span><span class="p" data-group-id="2911887355-32">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.2168903946876526</span><span class="w">
-</span><span class="p" data-group-id="7900766581-32">&gt;</span></code></pre>
+</span><span class="p" data-group-id="2911887355-32">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="margin_ranking/3">
@@ -1049,32 +1049,32 @@ <h1 class="signature" translate="no">margin_ranking(y_true, arg2, opts \\ [])</h
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-1">(</span><span class="p" data-group-id="6201992140-2">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6201992140-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-3">}</span><span class="p" data-group-id="6201992140-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-4">(</span><span class="p" data-group-id="6201992140-5">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="6201992140-5">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-6">}</span><span class="p" data-group-id="6201992140-4">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-7">(</span><span class="p" data-group-id="6201992140-8">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="6201992140-8">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-9">}</span><span class="p" data-group-id="6201992140-7">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="6201992140-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6201992140-11">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="6201992140-11">}</span><span class="p" data-group-id="6201992140-10">)</span><span class="w">
-</span><span class="p" data-group-id="6201992140-12">#</span><span class="nc" data-group-id="6201992140-12">Nx.Tensor</span><span class="p" data-group-id="6201992140-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="6201992140-13">[</span><span class="mi">3</span><span class="p" data-group-id="6201992140-13">]</span><span class="w">
-  </span><span class="p" data-group-id="6201992140-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9909000396728516</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6201992140-14">]</span><span class="w">
-</span><span class="p" data-group-id="6201992140-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-15">(</span><span class="p" data-group-id="6201992140-16">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6201992140-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-17">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-17">}</span><span class="p" data-group-id="6201992140-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-18">(</span><span class="p" data-group-id="6201992140-19">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="6201992140-19">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-20">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-20">}</span><span class="p" data-group-id="6201992140-18">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-21">(</span><span class="p" data-group-id="6201992140-22">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="6201992140-22">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-23">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-23">}</span><span class="p" data-group-id="6201992140-21">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="6201992140-24">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6201992140-25">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="6201992140-25">}</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="6201992140-24">)</span><span class="w">
-</span><span class="p" data-group-id="6201992140-26">#</span><span class="nc" data-group-id="6201992140-26">Nx.Tensor</span><span class="p" data-group-id="6201992140-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-1">(</span><span class="p" data-group-id="1415362777-2">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1415362777-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-3">}</span><span class="p" data-group-id="1415362777-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-4">(</span><span class="p" data-group-id="1415362777-5">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="1415362777-5">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-6">}</span><span class="p" data-group-id="1415362777-4">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-7">(</span><span class="p" data-group-id="1415362777-8">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="1415362777-8">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-9">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-9">}</span><span class="p" data-group-id="1415362777-7">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="1415362777-10">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1415362777-11">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="1415362777-11">}</span><span class="p" data-group-id="1415362777-10">)</span><span class="w">
+</span><span class="p" data-group-id="1415362777-12">#</span><span class="nc" data-group-id="1415362777-12">Nx.Tensor</span><span class="p" data-group-id="1415362777-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1415362777-13">[</span><span class="mi">3</span><span class="p" data-group-id="1415362777-13">]</span><span class="w">
+  </span><span class="p" data-group-id="1415362777-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9909000396728516</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1415362777-14">]</span><span class="w">
+</span><span class="p" data-group-id="1415362777-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-15">(</span><span class="p" data-group-id="1415362777-16">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1415362777-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-17">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-17">}</span><span class="p" data-group-id="1415362777-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-18">(</span><span class="p" data-group-id="1415362777-19">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="1415362777-19">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-20">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-20">}</span><span class="p" data-group-id="1415362777-18">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-21">(</span><span class="p" data-group-id="1415362777-22">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="1415362777-22">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-23">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-23">}</span><span class="p" data-group-id="1415362777-21">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="1415362777-24">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1415362777-25">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="1415362777-25">}</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="1415362777-24">)</span><span class="w">
+</span><span class="p" data-group-id="1415362777-26">#</span><span class="nc" data-group-id="1415362777-26">Nx.Tensor</span><span class="p" data-group-id="1415362777-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.3303000032901764</span><span class="w">
-</span><span class="p" data-group-id="6201992140-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="1415362777-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-27">(</span><span class="p" data-group-id="6201992140-28">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6201992140-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-29">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-29">}</span><span class="p" data-group-id="6201992140-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-30">(</span><span class="p" data-group-id="6201992140-31">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="6201992140-31">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-32">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-32">}</span><span class="p" data-group-id="6201992140-30">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6201992140-33">(</span><span class="p" data-group-id="6201992140-34">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="6201992140-34">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6201992140-35">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6201992140-35">}</span><span class="p" data-group-id="6201992140-33">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="6201992140-36">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6201992140-37">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="6201992140-37">}</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="6201992140-36">)</span><span class="w">
-</span><span class="p" data-group-id="6201992140-38">#</span><span class="nc" data-group-id="6201992140-38">Nx.Tensor</span><span class="p" data-group-id="6201992140-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-27">(</span><span class="p" data-group-id="1415362777-28">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1415362777-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-29">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-29">}</span><span class="p" data-group-id="1415362777-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-30">(</span><span class="p" data-group-id="1415362777-31">[</span><span class="mf">0.6934</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7239</span><span class="p">,</span><span class="w">  </span><span class="mf">1.1954</span><span class="p" data-group-id="1415362777-31">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-32">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-32">}</span><span class="p" data-group-id="1415362777-30">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1415362777-33">(</span><span class="p" data-group-id="1415362777-34">[</span><span class="o">-</span><span class="mf">0.4691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2670</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7452</span><span class="p" data-group-id="1415362777-34">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1415362777-35">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1415362777-35">}</span><span class="p" data-group-id="1415362777-33">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">margin_ranking</span><span class="p" data-group-id="1415362777-36">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1415362777-37">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="1415362777-37">}</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="1415362777-36">)</span><span class="w">
+</span><span class="p" data-group-id="1415362777-38">#</span><span class="nc" data-group-id="1415362777-38">Nx.Tensor</span><span class="p" data-group-id="1415362777-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.9909000396728516</span><span class="w">
-</span><span class="p" data-group-id="6201992140-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1415362777-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="mean_absolute_error/3">
@@ -1119,29 +1119,29 @@ <h1 class="signature" translate="no">mean_absolute_error(y_true, y_pred, opts \\
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8855951482-1">(</span><span class="p" data-group-id="8855951482-2">[</span><span class="p" data-group-id="8855951482-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8855951482-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8855951482-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8855951482-4">]</span><span class="p" data-group-id="8855951482-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8855951482-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8855951482-5">}</span><span class="p" data-group-id="8855951482-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8855951482-6">(</span><span class="p" data-group-id="8855951482-7">[</span><span class="p" data-group-id="8855951482-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8855951482-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8855951482-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8855951482-9">]</span><span class="p" data-group-id="8855951482-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8855951482-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8855951482-10">}</span><span class="p" data-group-id="8855951482-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="8855951482-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="8855951482-11">)</span><span class="w">
-</span><span class="p" data-group-id="8855951482-12">#</span><span class="nc" data-group-id="8855951482-12">Nx.Tensor</span><span class="p" data-group-id="8855951482-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8855951482-13">[</span><span class="mi">2</span><span class="p" data-group-id="8855951482-13">]</span><span class="w">
-  </span><span class="p" data-group-id="8855951482-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="8855951482-14">]</span><span class="w">
-</span><span class="p" data-group-id="8855951482-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8855951482-15">(</span><span class="p" data-group-id="8855951482-16">[</span><span class="p" data-group-id="8855951482-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8855951482-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8855951482-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8855951482-18">]</span><span class="p" data-group-id="8855951482-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8855951482-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8855951482-19">}</span><span class="p" data-group-id="8855951482-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8855951482-20">(</span><span class="p" data-group-id="8855951482-21">[</span><span class="p" data-group-id="8855951482-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8855951482-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8855951482-23">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8855951482-23">]</span><span class="p" data-group-id="8855951482-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8855951482-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8855951482-24">}</span><span class="p" data-group-id="8855951482-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="8855951482-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="8855951482-25">)</span><span class="w">
-</span><span class="p" data-group-id="8855951482-26">#</span><span class="nc" data-group-id="8855951482-26">Nx.Tensor</span><span class="p" data-group-id="8855951482-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6389313248-1">(</span><span class="p" data-group-id="6389313248-2">[</span><span class="p" data-group-id="6389313248-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6389313248-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6389313248-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6389313248-4">]</span><span class="p" data-group-id="6389313248-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6389313248-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6389313248-5">}</span><span class="p" data-group-id="6389313248-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6389313248-6">(</span><span class="p" data-group-id="6389313248-7">[</span><span class="p" data-group-id="6389313248-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6389313248-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6389313248-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6389313248-9">]</span><span class="p" data-group-id="6389313248-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6389313248-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6389313248-10">}</span><span class="p" data-group-id="6389313248-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="6389313248-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6389313248-11">)</span><span class="w">
+</span><span class="p" data-group-id="6389313248-12">#</span><span class="nc" data-group-id="6389313248-12">Nx.Tensor</span><span class="p" data-group-id="6389313248-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6389313248-13">[</span><span class="mi">2</span><span class="p" data-group-id="6389313248-13">]</span><span class="w">
+  </span><span class="p" data-group-id="6389313248-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="6389313248-14">]</span><span class="w">
+</span><span class="p" data-group-id="6389313248-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6389313248-15">(</span><span class="p" data-group-id="6389313248-16">[</span><span class="p" data-group-id="6389313248-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6389313248-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6389313248-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6389313248-18">]</span><span class="p" data-group-id="6389313248-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6389313248-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6389313248-19">}</span><span class="p" data-group-id="6389313248-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6389313248-20">(</span><span class="p" data-group-id="6389313248-21">[</span><span class="p" data-group-id="6389313248-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6389313248-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6389313248-23">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6389313248-23">]</span><span class="p" data-group-id="6389313248-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6389313248-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6389313248-24">}</span><span class="p" data-group-id="6389313248-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="6389313248-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="6389313248-25">)</span><span class="w">
+</span><span class="p" data-group-id="6389313248-26">#</span><span class="nc" data-group-id="6389313248-26">Nx.Tensor</span><span class="p" data-group-id="6389313248-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="8855951482-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="6389313248-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8855951482-27">(</span><span class="p" data-group-id="8855951482-28">[</span><span class="p" data-group-id="8855951482-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8855951482-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8855951482-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8855951482-30">]</span><span class="p" data-group-id="8855951482-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8855951482-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8855951482-31">}</span><span class="p" data-group-id="8855951482-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8855951482-32">(</span><span class="p" data-group-id="8855951482-33">[</span><span class="p" data-group-id="8855951482-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8855951482-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8855951482-35">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8855951482-35">]</span><span class="p" data-group-id="8855951482-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8855951482-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8855951482-36">}</span><span class="p" data-group-id="8855951482-32">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="8855951482-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="8855951482-37">)</span><span class="w">
-</span><span class="p" data-group-id="8855951482-38">#</span><span class="nc" data-group-id="8855951482-38">Nx.Tensor</span><span class="p" data-group-id="8855951482-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6389313248-27">(</span><span class="p" data-group-id="6389313248-28">[</span><span class="p" data-group-id="6389313248-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6389313248-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6389313248-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6389313248-30">]</span><span class="p" data-group-id="6389313248-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6389313248-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6389313248-31">}</span><span class="p" data-group-id="6389313248-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6389313248-32">(</span><span class="p" data-group-id="6389313248-33">[</span><span class="p" data-group-id="6389313248-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6389313248-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6389313248-35">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6389313248-35">]</span><span class="p" data-group-id="6389313248-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6389313248-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6389313248-36">}</span><span class="p" data-group-id="6389313248-32">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="6389313248-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="6389313248-37">)</span><span class="w">
+</span><span class="p" data-group-id="6389313248-38">#</span><span class="nc" data-group-id="6389313248-38">Nx.Tensor</span><span class="p" data-group-id="6389313248-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.0</span><span class="w">
-</span><span class="p" data-group-id="8855951482-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6389313248-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="mean_squared_error/3">
@@ -1186,29 +1186,29 @@ <h1 class="signature" translate="no">mean_squared_error(y_true, y_pred, opts \\
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7595428445-1">(</span><span class="p" data-group-id="7595428445-2">[</span><span class="p" data-group-id="7595428445-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7595428445-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7595428445-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7595428445-4">]</span><span class="p" data-group-id="7595428445-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7595428445-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7595428445-5">}</span><span class="p" data-group-id="7595428445-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7595428445-6">(</span><span class="p" data-group-id="7595428445-7">[</span><span class="p" data-group-id="7595428445-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7595428445-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7595428445-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7595428445-9">]</span><span class="p" data-group-id="7595428445-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7595428445-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7595428445-10">}</span><span class="p" data-group-id="7595428445-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="7595428445-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7595428445-11">)</span><span class="w">
-</span><span class="p" data-group-id="7595428445-12">#</span><span class="nc" data-group-id="7595428445-12">Nx.Tensor</span><span class="p" data-group-id="7595428445-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7595428445-13">[</span><span class="mi">2</span><span class="p" data-group-id="7595428445-13">]</span><span class="w">
-  </span><span class="p" data-group-id="7595428445-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="7595428445-14">]</span><span class="w">
-</span><span class="p" data-group-id="7595428445-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7595428445-15">(</span><span class="p" data-group-id="7595428445-16">[</span><span class="p" data-group-id="7595428445-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7595428445-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7595428445-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7595428445-18">]</span><span class="p" data-group-id="7595428445-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7595428445-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7595428445-19">}</span><span class="p" data-group-id="7595428445-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7595428445-20">(</span><span class="p" data-group-id="7595428445-21">[</span><span class="p" data-group-id="7595428445-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7595428445-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7595428445-23">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7595428445-23">]</span><span class="p" data-group-id="7595428445-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7595428445-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7595428445-24">}</span><span class="p" data-group-id="7595428445-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="7595428445-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="7595428445-25">)</span><span class="w">
-</span><span class="p" data-group-id="7595428445-26">#</span><span class="nc" data-group-id="7595428445-26">Nx.Tensor</span><span class="p" data-group-id="7595428445-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6246783330-1">(</span><span class="p" data-group-id="6246783330-2">[</span><span class="p" data-group-id="6246783330-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6246783330-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6246783330-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6246783330-4">]</span><span class="p" data-group-id="6246783330-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6246783330-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6246783330-5">}</span><span class="p" data-group-id="6246783330-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6246783330-6">(</span><span class="p" data-group-id="6246783330-7">[</span><span class="p" data-group-id="6246783330-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6246783330-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6246783330-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6246783330-9">]</span><span class="p" data-group-id="6246783330-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6246783330-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6246783330-10">}</span><span class="p" data-group-id="6246783330-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="6246783330-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6246783330-11">)</span><span class="w">
+</span><span class="p" data-group-id="6246783330-12">#</span><span class="nc" data-group-id="6246783330-12">Nx.Tensor</span><span class="p" data-group-id="6246783330-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6246783330-13">[</span><span class="mi">2</span><span class="p" data-group-id="6246783330-13">]</span><span class="w">
+  </span><span class="p" data-group-id="6246783330-14">[</span><span class="mf">0.5</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="6246783330-14">]</span><span class="w">
+</span><span class="p" data-group-id="6246783330-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6246783330-15">(</span><span class="p" data-group-id="6246783330-16">[</span><span class="p" data-group-id="6246783330-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6246783330-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6246783330-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6246783330-18">]</span><span class="p" data-group-id="6246783330-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6246783330-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6246783330-19">}</span><span class="p" data-group-id="6246783330-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6246783330-20">(</span><span class="p" data-group-id="6246783330-21">[</span><span class="p" data-group-id="6246783330-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6246783330-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6246783330-23">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6246783330-23">]</span><span class="p" data-group-id="6246783330-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6246783330-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6246783330-24">}</span><span class="p" data-group-id="6246783330-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="6246783330-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="6246783330-25">)</span><span class="w">
+</span><span class="p" data-group-id="6246783330-26">#</span><span class="nc" data-group-id="6246783330-26">Nx.Tensor</span><span class="p" data-group-id="6246783330-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="7595428445-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="6246783330-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7595428445-27">(</span><span class="p" data-group-id="7595428445-28">[</span><span class="p" data-group-id="7595428445-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7595428445-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7595428445-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7595428445-30">]</span><span class="p" data-group-id="7595428445-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7595428445-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7595428445-31">}</span><span class="p" data-group-id="7595428445-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7595428445-32">(</span><span class="p" data-group-id="7595428445-33">[</span><span class="p" data-group-id="7595428445-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7595428445-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7595428445-35">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7595428445-35">]</span><span class="p" data-group-id="7595428445-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7595428445-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7595428445-36">}</span><span class="p" data-group-id="7595428445-32">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="7595428445-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7595428445-37">)</span><span class="w">
-</span><span class="p" data-group-id="7595428445-38">#</span><span class="nc" data-group-id="7595428445-38">Nx.Tensor</span><span class="p" data-group-id="7595428445-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6246783330-27">(</span><span class="p" data-group-id="6246783330-28">[</span><span class="p" data-group-id="6246783330-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6246783330-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6246783330-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6246783330-30">]</span><span class="p" data-group-id="6246783330-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6246783330-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6246783330-31">}</span><span class="p" data-group-id="6246783330-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6246783330-32">(</span><span class="p" data-group-id="6246783330-33">[</span><span class="p" data-group-id="6246783330-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6246783330-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6246783330-35">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6246783330-35">]</span><span class="p" data-group-id="6246783330-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6246783330-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6246783330-36">}</span><span class="p" data-group-id="6246783330-32">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="6246783330-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="6246783330-37">)</span><span class="w">
+</span><span class="p" data-group-id="6246783330-38">#</span><span class="nc" data-group-id="6246783330-38">Nx.Tensor</span><span class="p" data-group-id="6246783330-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.0</span><span class="w">
-</span><span class="p" data-group-id="7595428445-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6246783330-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="poisson/3">
@@ -1253,29 +1253,29 @@ <h1 class="signature" translate="no">poisson(y_true, y_pred, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7907780799-1">(</span><span class="p" data-group-id="7907780799-2">[</span><span class="p" data-group-id="7907780799-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7907780799-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7907780799-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7907780799-4">]</span><span class="p" data-group-id="7907780799-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7907780799-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7907780799-5">}</span><span class="p" data-group-id="7907780799-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7907780799-6">(</span><span class="p" data-group-id="7907780799-7">[</span><span class="p" data-group-id="7907780799-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7907780799-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7907780799-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7907780799-9">]</span><span class="p" data-group-id="7907780799-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7907780799-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7907780799-10">}</span><span class="p" data-group-id="7907780799-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="7907780799-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7907780799-11">)</span><span class="w">
-</span><span class="p" data-group-id="7907780799-12">#</span><span class="nc" data-group-id="7907780799-12">Nx.Tensor</span><span class="p" data-group-id="7907780799-12">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7907780799-13">[</span><span class="mi">2</span><span class="p" data-group-id="7907780799-13">]</span><span class="w">
-  </span><span class="p" data-group-id="7907780799-14">[</span><span class="mf">0.9999999403953552</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7907780799-14">]</span><span class="w">
-</span><span class="p" data-group-id="7907780799-12">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7907780799-15">(</span><span class="p" data-group-id="7907780799-16">[</span><span class="p" data-group-id="7907780799-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7907780799-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7907780799-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7907780799-18">]</span><span class="p" data-group-id="7907780799-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7907780799-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7907780799-19">}</span><span class="p" data-group-id="7907780799-15">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7907780799-20">(</span><span class="p" data-group-id="7907780799-21">[</span><span class="p" data-group-id="7907780799-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7907780799-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7907780799-23">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7907780799-23">]</span><span class="p" data-group-id="7907780799-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7907780799-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7907780799-24">}</span><span class="p" data-group-id="7907780799-20">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="7907780799-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="7907780799-25">)</span><span class="w">
-</span><span class="p" data-group-id="7907780799-26">#</span><span class="nc" data-group-id="7907780799-26">Nx.Tensor</span><span class="p" data-group-id="7907780799-26">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4063987962-1">(</span><span class="p" data-group-id="4063987962-2">[</span><span class="p" data-group-id="4063987962-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4063987962-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4063987962-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4063987962-4">]</span><span class="p" data-group-id="4063987962-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4063987962-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4063987962-5">}</span><span class="p" data-group-id="4063987962-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4063987962-6">(</span><span class="p" data-group-id="4063987962-7">[</span><span class="p" data-group-id="4063987962-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4063987962-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4063987962-9">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4063987962-9">]</span><span class="p" data-group-id="4063987962-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4063987962-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4063987962-10">}</span><span class="p" data-group-id="4063987962-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="4063987962-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4063987962-11">)</span><span class="w">
+</span><span class="p" data-group-id="4063987962-12">#</span><span class="nc" data-group-id="4063987962-12">Nx.Tensor</span><span class="p" data-group-id="4063987962-12">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4063987962-13">[</span><span class="mi">2</span><span class="p" data-group-id="4063987962-13">]</span><span class="w">
+  </span><span class="p" data-group-id="4063987962-14">[</span><span class="mf">0.9999999403953552</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4063987962-14">]</span><span class="w">
+</span><span class="p" data-group-id="4063987962-12">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4063987962-15">(</span><span class="p" data-group-id="4063987962-16">[</span><span class="p" data-group-id="4063987962-17">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4063987962-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4063987962-18">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4063987962-18">]</span><span class="p" data-group-id="4063987962-16">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4063987962-19">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4063987962-19">}</span><span class="p" data-group-id="4063987962-15">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4063987962-20">(</span><span class="p" data-group-id="4063987962-21">[</span><span class="p" data-group-id="4063987962-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4063987962-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4063987962-23">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4063987962-23">]</span><span class="p" data-group-id="4063987962-21">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4063987962-24">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4063987962-24">}</span><span class="p" data-group-id="4063987962-20">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="4063987962-25">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="4063987962-25">)</span><span class="w">
+</span><span class="p" data-group-id="4063987962-26">#</span><span class="nc" data-group-id="4063987962-26">Nx.Tensor</span><span class="p" data-group-id="4063987962-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.4999999701976776</span><span class="w">
-</span><span class="p" data-group-id="7907780799-26">&gt;</span><span class="w">
+</span><span class="p" data-group-id="4063987962-26">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7907780799-27">(</span><span class="p" data-group-id="7907780799-28">[</span><span class="p" data-group-id="7907780799-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7907780799-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7907780799-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7907780799-30">]</span><span class="p" data-group-id="7907780799-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7907780799-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7907780799-31">}</span><span class="p" data-group-id="7907780799-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7907780799-32">(</span><span class="p" data-group-id="7907780799-33">[</span><span class="p" data-group-id="7907780799-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="7907780799-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7907780799-35">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7907780799-35">]</span><span class="p" data-group-id="7907780799-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7907780799-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="7907780799-36">}</span><span class="p" data-group-id="7907780799-32">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="7907780799-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="7907780799-37">)</span><span class="w">
-</span><span class="p" data-group-id="7907780799-38">#</span><span class="nc" data-group-id="7907780799-38">Nx.Tensor</span><span class="p" data-group-id="7907780799-38">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4063987962-27">(</span><span class="p" data-group-id="4063987962-28">[</span><span class="p" data-group-id="4063987962-29">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4063987962-29">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4063987962-30">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4063987962-30">]</span><span class="p" data-group-id="4063987962-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4063987962-31">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4063987962-31">}</span><span class="p" data-group-id="4063987962-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4063987962-32">(</span><span class="p" data-group-id="4063987962-33">[</span><span class="p" data-group-id="4063987962-34">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4063987962-34">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4063987962-35">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4063987962-35">]</span><span class="p" data-group-id="4063987962-33">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4063987962-36">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4063987962-36">}</span><span class="p" data-group-id="4063987962-32">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">poisson</span><span class="p" data-group-id="4063987962-37">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="4063987962-37">)</span><span class="w">
+</span><span class="p" data-group-id="4063987962-38">#</span><span class="nc" data-group-id="4063987962-38">Nx.Tensor</span><span class="p" data-group-id="4063987962-38">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.9999999403953552</span><span class="w">
-</span><span class="p" data-group-id="7907780799-38">&gt;</span></code></pre>
+</span><span class="p" data-group-id="4063987962-38">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="soft_margin/3">
@@ -1314,29 +1314,29 @@ <h1 class="signature" translate="no">soft_margin(y_true, y_pred, opts \\ [])</h1
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1477821418-1">(</span><span class="p" data-group-id="1477821418-2">[</span><span class="p" data-group-id="1477821418-3">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="1477821418-3">]</span><span class="p" data-group-id="1477821418-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1477821418-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1477821418-4">}</span><span class="p" data-group-id="1477821418-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1477821418-5">(</span><span class="p" data-group-id="1477821418-6">[</span><span class="p" data-group-id="1477821418-7">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="1477821418-7">]</span><span class="p" data-group-id="1477821418-6">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1477821418-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1477821418-8">}</span><span class="p" data-group-id="1477821418-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="1477821418-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1477821418-9">)</span><span class="w">
-</span><span class="p" data-group-id="1477821418-10">#</span><span class="nc" data-group-id="1477821418-10">Nx.Tensor</span><span class="p" data-group-id="1477821418-10">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1477821418-11">[</span><span class="mi">3</span><span class="p" data-group-id="1477821418-11">]</span><span class="w">
-  </span><span class="p" data-group-id="1477821418-12">[</span><span class="mf">0.851658046245575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7822436094284058</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3273470401763916</span><span class="p" data-group-id="1477821418-12">]</span><span class="w">
-</span><span class="p" data-group-id="1477821418-10">&gt;</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1477821418-13">(</span><span class="p" data-group-id="1477821418-14">[</span><span class="p" data-group-id="1477821418-15">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="1477821418-15">]</span><span class="p" data-group-id="1477821418-14">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1477821418-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1477821418-16">}</span><span class="p" data-group-id="1477821418-13">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1477821418-17">(</span><span class="p" data-group-id="1477821418-18">[</span><span class="p" data-group-id="1477821418-19">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="1477821418-19">]</span><span class="p" data-group-id="1477821418-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1477821418-20">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1477821418-20">}</span><span class="p" data-group-id="1477821418-17">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="1477821418-21">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="1477821418-21">)</span><span class="w">
-</span><span class="p" data-group-id="1477821418-22">#</span><span class="nc" data-group-id="1477821418-22">Nx.Tensor</span><span class="p" data-group-id="1477821418-22">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3230094331-1">(</span><span class="p" data-group-id="3230094331-2">[</span><span class="p" data-group-id="3230094331-3">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="3230094331-3">]</span><span class="p" data-group-id="3230094331-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3230094331-4">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3230094331-4">}</span><span class="p" data-group-id="3230094331-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3230094331-5">(</span><span class="p" data-group-id="3230094331-6">[</span><span class="p" data-group-id="3230094331-7">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="3230094331-7">]</span><span class="p" data-group-id="3230094331-6">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3230094331-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3230094331-8">}</span><span class="p" data-group-id="3230094331-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="3230094331-9">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3230094331-9">)</span><span class="w">
+</span><span class="p" data-group-id="3230094331-10">#</span><span class="nc" data-group-id="3230094331-10">Nx.Tensor</span><span class="p" data-group-id="3230094331-10">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3230094331-11">[</span><span class="mi">3</span><span class="p" data-group-id="3230094331-11">]</span><span class="w">
+  </span><span class="p" data-group-id="3230094331-12">[</span><span class="mf">0.851658046245575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7822436094284058</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3273470401763916</span><span class="p" data-group-id="3230094331-12">]</span><span class="w">
+</span><span class="p" data-group-id="3230094331-10">&gt;</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3230094331-13">(</span><span class="p" data-group-id="3230094331-14">[</span><span class="p" data-group-id="3230094331-15">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="3230094331-15">]</span><span class="p" data-group-id="3230094331-14">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3230094331-16">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3230094331-16">}</span><span class="p" data-group-id="3230094331-13">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3230094331-17">(</span><span class="p" data-group-id="3230094331-18">[</span><span class="p" data-group-id="3230094331-19">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="3230094331-19">]</span><span class="p" data-group-id="3230094331-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3230094331-20">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3230094331-20">}</span><span class="p" data-group-id="3230094331-17">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="3230094331-21">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="3230094331-21">)</span><span class="w">
+</span><span class="p" data-group-id="3230094331-22">#</span><span class="nc" data-group-id="3230094331-22">Nx.Tensor</span><span class="p" data-group-id="3230094331-22">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6537495255470276</span><span class="w">
-</span><span class="p" data-group-id="1477821418-22">&gt;</span><span class="w">
+</span><span class="p" data-group-id="3230094331-22">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1477821418-23">(</span><span class="p" data-group-id="1477821418-24">[</span><span class="p" data-group-id="1477821418-25">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="1477821418-25">]</span><span class="p" data-group-id="1477821418-24">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1477821418-26">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1477821418-26">}</span><span class="p" data-group-id="1477821418-23">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1477821418-27">(</span><span class="p" data-group-id="1477821418-28">[</span><span class="p" data-group-id="1477821418-29">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="1477821418-29">]</span><span class="p" data-group-id="1477821418-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1477821418-30">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1477821418-30">}</span><span class="p" data-group-id="1477821418-27">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="1477821418-31">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="1477821418-31">)</span><span class="w">
-</span><span class="p" data-group-id="1477821418-32">#</span><span class="nc" data-group-id="1477821418-32">Nx.Tensor</span><span class="p" data-group-id="1477821418-32">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3230094331-23">(</span><span class="p" data-group-id="3230094331-24">[</span><span class="p" data-group-id="3230094331-25">[</span><span class="o">-</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w">  </span><span class="mf">1.0</span><span class="p" data-group-id="3230094331-25">]</span><span class="p" data-group-id="3230094331-24">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3230094331-26">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3230094331-26">}</span><span class="p" data-group-id="3230094331-23">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3230094331-27">(</span><span class="p" data-group-id="3230094331-28">[</span><span class="p" data-group-id="3230094331-29">[</span><span class="mf">0.2953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1709</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9486</span><span class="p" data-group-id="3230094331-29">]</span><span class="p" data-group-id="3230094331-28">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3230094331-30">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3230094331-30">}</span><span class="p" data-group-id="3230094331-27">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">soft_margin</span><span class="p" data-group-id="3230094331-31">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="3230094331-31">)</span><span class="w">
+</span><span class="p" data-group-id="3230094331-32">#</span><span class="nc" data-group-id="3230094331-32">Nx.Tensor</span><span class="p" data-group-id="3230094331-32">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.9612486362457275</span><span class="w">
-</span><span class="p" data-group-id="1477821418-32">&gt;</span></code></pre>
+</span><span class="p" data-group-id="3230094331-32">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.Metrics.html b/Axon.Metrics.html
index 34d16965..12a87199 100644
--- a/Axon.Metrics.html
+++ b/Axon.Metrics.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -360,23 +360,23 @@ <h1 class="signature" translate="no">accuracy(y_true, y_pred, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="7419370529-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7419370529-2">(</span><span class="p" data-group-id="7419370529-3">[</span><span class="p" data-group-id="7419370529-4">[</span><span class="mi">1</span><span class="p" data-group-id="7419370529-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-5">[</span><span class="mi">0</span><span class="p" data-group-id="7419370529-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-6">[</span><span class="mi">0</span><span class="p" data-group-id="7419370529-6">]</span><span class="p" data-group-id="7419370529-3">]</span><span class="p" data-group-id="7419370529-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7419370529-7">(</span><span class="p" data-group-id="7419370529-8">[</span><span class="p" data-group-id="7419370529-9">[</span><span class="mi">1</span><span class="p" data-group-id="7419370529-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-10">[</span><span class="mi">1</span><span class="p" data-group-id="7419370529-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-11">[</span><span class="mi">1</span><span class="p" data-group-id="7419370529-11">]</span><span class="p" data-group-id="7419370529-8">]</span><span class="p" data-group-id="7419370529-7">)</span><span class="p" data-group-id="7419370529-1">)</span><span class="w">
-</span><span class="p" data-group-id="7419370529-12">#</span><span class="nc" data-group-id="7419370529-12">Nx.Tensor</span><span class="p" data-group-id="7419370529-12">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="9180140600-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9180140600-2">(</span><span class="p" data-group-id="9180140600-3">[</span><span class="p" data-group-id="9180140600-4">[</span><span class="mi">1</span><span class="p" data-group-id="9180140600-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-5">[</span><span class="mi">0</span><span class="p" data-group-id="9180140600-5">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-6">[</span><span class="mi">0</span><span class="p" data-group-id="9180140600-6">]</span><span class="p" data-group-id="9180140600-3">]</span><span class="p" data-group-id="9180140600-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9180140600-7">(</span><span class="p" data-group-id="9180140600-8">[</span><span class="p" data-group-id="9180140600-9">[</span><span class="mi">1</span><span class="p" data-group-id="9180140600-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-10">[</span><span class="mi">1</span><span class="p" data-group-id="9180140600-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-11">[</span><span class="mi">1</span><span class="p" data-group-id="9180140600-11">]</span><span class="p" data-group-id="9180140600-8">]</span><span class="p" data-group-id="9180140600-7">)</span><span class="p" data-group-id="9180140600-1">)</span><span class="w">
+</span><span class="p" data-group-id="9180140600-12">#</span><span class="nc" data-group-id="9180140600-12">Nx.Tensor</span><span class="p" data-group-id="9180140600-12">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.3333333432674408</span><span class="w">
-</span><span class="p" data-group-id="7419370529-12">&gt;</span><span class="w">
+</span><span class="p" data-group-id="9180140600-12">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="7419370529-13">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7419370529-14">(</span><span class="p" data-group-id="7419370529-15">[</span><span class="p" data-group-id="7419370529-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7419370529-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-17">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7419370529-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-18">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7419370529-18">]</span><span class="p" data-group-id="7419370529-15">]</span><span class="p" data-group-id="7419370529-14">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7419370529-19">(</span><span class="p" data-group-id="7419370529-20">[</span><span class="p" data-group-id="7419370529-21">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7419370529-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-22">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7419370529-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-23">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7419370529-23">]</span><span class="p" data-group-id="7419370529-20">]</span><span class="p" data-group-id="7419370529-19">)</span><span class="p" data-group-id="7419370529-13">)</span><span class="w">
-</span><span class="p" data-group-id="7419370529-24">#</span><span class="nc" data-group-id="7419370529-24">Nx.Tensor</span><span class="p" data-group-id="7419370529-24">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="9180140600-13">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9180140600-14">(</span><span class="p" data-group-id="9180140600-15">[</span><span class="p" data-group-id="9180140600-16">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9180140600-16">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-17">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9180140600-17">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-18">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9180140600-18">]</span><span class="p" data-group-id="9180140600-15">]</span><span class="p" data-group-id="9180140600-14">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9180140600-19">(</span><span class="p" data-group-id="9180140600-20">[</span><span class="p" data-group-id="9180140600-21">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9180140600-21">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-22">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9180140600-22">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-23">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9180140600-23">]</span><span class="p" data-group-id="9180140600-20">]</span><span class="p" data-group-id="9180140600-19">)</span><span class="p" data-group-id="9180140600-13">)</span><span class="w">
+</span><span class="p" data-group-id="9180140600-24">#</span><span class="nc" data-group-id="9180140600-24">Nx.Tensor</span><span class="p" data-group-id="9180140600-24">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6666666865348816</span><span class="w">
-</span><span class="p" data-group-id="7419370529-24">&gt;</span><span class="w">
+</span><span class="p" data-group-id="9180140600-24">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="7419370529-25">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7419370529-26">(</span><span class="p" data-group-id="7419370529-27">[</span><span class="p" data-group-id="7419370529-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7419370529-28">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-29">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7419370529-29">]</span><span class="p" data-group-id="7419370529-27">]</span><span class="p" data-group-id="7419370529-26">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7419370529-30">(</span><span class="p" data-group-id="7419370529-31">[</span><span class="p" data-group-id="7419370529-32">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7419370529-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7419370529-33">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7419370529-33">]</span><span class="p" data-group-id="7419370529-31">]</span><span class="p" data-group-id="7419370529-30">)</span><span class="p" data-group-id="7419370529-25">)</span><span class="w">
-</span><span class="p" data-group-id="7419370529-34">#</span><span class="nc" data-group-id="7419370529-34">Nx.Tensor</span><span class="p" data-group-id="7419370529-34">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="p" data-group-id="9180140600-25">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9180140600-26">(</span><span class="p" data-group-id="9180140600-27">[</span><span class="p" data-group-id="9180140600-28">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9180140600-28">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-29">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9180140600-29">]</span><span class="p" data-group-id="9180140600-27">]</span><span class="p" data-group-id="9180140600-26">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="9180140600-30">(</span><span class="p" data-group-id="9180140600-31">[</span><span class="p" data-group-id="9180140600-32">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9180140600-32">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9180140600-33">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9180140600-33">]</span><span class="p" data-group-id="9180140600-31">]</span><span class="p" data-group-id="9180140600-30">)</span><span class="p" data-group-id="9180140600-25">)</span><span class="w">
+</span><span class="p" data-group-id="9180140600-34">#</span><span class="nc" data-group-id="9180140600-34">Nx.Tensor</span><span class="p" data-group-id="9180140600-34">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="7419370529-34">&gt;</span></code></pre>
+</span><span class="p" data-group-id="9180140600-34">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="accuracy_transform/4">
@@ -436,13 +436,13 @@ <h1 class="signature" translate="no">false_negatives(y_true, y_pred, opts \\ [])
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6769052584-1">(</span><span class="p" data-group-id="6769052584-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6769052584-2">]</span><span class="p" data-group-id="6769052584-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6769052584-3">(</span><span class="p" data-group-id="6769052584-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="6769052584-4">]</span><span class="p" data-group-id="6769052584-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_negatives</span><span class="p" data-group-id="6769052584-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6769052584-5">)</span><span class="w">
-</span><span class="p" data-group-id="6769052584-6">#</span><span class="nc" data-group-id="6769052584-6">Nx.Tensor</span><span class="p" data-group-id="6769052584-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1710080789-1">(</span><span class="p" data-group-id="1710080789-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1710080789-2">]</span><span class="p" data-group-id="1710080789-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1710080789-3">(</span><span class="p" data-group-id="1710080789-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="1710080789-4">]</span><span class="p" data-group-id="1710080789-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_negatives</span><span class="p" data-group-id="1710080789-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1710080789-5">)</span><span class="w">
+</span><span class="p" data-group-id="1710080789-6">#</span><span class="nc" data-group-id="1710080789-6">Nx.Tensor</span><span class="p" data-group-id="1710080789-6">&lt;</span><span class="w">
   </span><span class="n">u64</span><span class="w">
   </span><span class="mi">3</span><span class="w">
-</span><span class="p" data-group-id="6769052584-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1710080789-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="false_positives/3">
@@ -480,13 +480,13 @@ <h1 class="signature" translate="no">false_positives(y_true, y_pred, opts \\ [])
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2184307482-1">(</span><span class="p" data-group-id="2184307482-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2184307482-2">]</span><span class="p" data-group-id="2184307482-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2184307482-3">(</span><span class="p" data-group-id="2184307482-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="2184307482-4">]</span><span class="p" data-group-id="2184307482-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_positives</span><span class="p" data-group-id="2184307482-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="2184307482-5">)</span><span class="w">
-</span><span class="p" data-group-id="2184307482-6">#</span><span class="nc" data-group-id="2184307482-6">Nx.Tensor</span><span class="p" data-group-id="2184307482-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1087950049-1">(</span><span class="p" data-group-id="1087950049-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1087950049-2">]</span><span class="p" data-group-id="1087950049-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1087950049-3">(</span><span class="p" data-group-id="1087950049-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="1087950049-4">]</span><span class="p" data-group-id="1087950049-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_positives</span><span class="p" data-group-id="1087950049-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="1087950049-5">)</span><span class="w">
+</span><span class="p" data-group-id="1087950049-6">#</span><span class="nc" data-group-id="1087950049-6">Nx.Tensor</span><span class="p" data-group-id="1087950049-6">&lt;</span><span class="w">
   </span><span class="n">u64</span><span class="w">
   </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="2184307482-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="1087950049-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="mean_absolute_error/2">
@@ -523,13 +523,13 @@ <h1 class="signature" translate="no">mean_absolute_error(y_true, y_pred)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4187090157-1">(</span><span class="p" data-group-id="4187090157-2">[</span><span class="p" data-group-id="4187090157-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4187090157-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4187090157-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4187090157-4">]</span><span class="p" data-group-id="4187090157-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4187090157-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4187090157-5">}</span><span class="p" data-group-id="4187090157-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4187090157-6">(</span><span class="p" data-group-id="4187090157-7">[</span><span class="p" data-group-id="4187090157-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4187090157-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4187090157-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4187090157-9">]</span><span class="p" data-group-id="4187090157-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4187090157-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4187090157-10">}</span><span class="p" data-group-id="4187090157-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="4187090157-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4187090157-11">)</span><span class="w">
-</span><span class="p" data-group-id="4187090157-12">#</span><span class="nc" data-group-id="4187090157-12">Nx.Tensor</span><span class="p" data-group-id="4187090157-12">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6562635278-1">(</span><span class="p" data-group-id="6562635278-2">[</span><span class="p" data-group-id="6562635278-3">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6562635278-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6562635278-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6562635278-4">]</span><span class="p" data-group-id="6562635278-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6562635278-5">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6562635278-5">}</span><span class="p" data-group-id="6562635278-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6562635278-6">(</span><span class="p" data-group-id="6562635278-7">[</span><span class="p" data-group-id="6562635278-8">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6562635278-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6562635278-9">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="6562635278-9">]</span><span class="p" data-group-id="6562635278-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6562635278-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6562635278-10">}</span><span class="p" data-group-id="6562635278-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">mean_absolute_error</span><span class="p" data-group-id="6562635278-11">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6562635278-11">)</span><span class="w">
+</span><span class="p" data-group-id="6562635278-12">#</span><span class="nc" data-group-id="6562635278-12">Nx.Tensor</span><span class="p" data-group-id="6562635278-12">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="4187090157-12">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6562635278-12">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="precision/3">
@@ -573,11 +573,11 @@ <h1 class="signature" translate="no">precision(y_true, y_pred, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">precision</span><span class="p" data-group-id="4589621508-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4589621508-2">(</span><span class="p" data-group-id="4589621508-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4589621508-3">]</span><span class="p" data-group-id="4589621508-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4589621508-4">(</span><span class="p" data-group-id="4589621508-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4589621508-5">]</span><span class="p" data-group-id="4589621508-4">)</span><span class="p" data-group-id="4589621508-1">)</span><span class="w">
-</span><span class="p" data-group-id="4589621508-6">#</span><span class="nc" data-group-id="4589621508-6">Nx.Tensor</span><span class="p" data-group-id="4589621508-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">precision</span><span class="p" data-group-id="5921691668-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5921691668-2">(</span><span class="p" data-group-id="5921691668-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5921691668-3">]</span><span class="p" data-group-id="5921691668-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5921691668-4">(</span><span class="p" data-group-id="5921691668-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5921691668-5">]</span><span class="p" data-group-id="5921691668-4">)</span><span class="p" data-group-id="5921691668-1">)</span><span class="w">
+</span><span class="p" data-group-id="5921691668-6">#</span><span class="nc" data-group-id="5921691668-6">Nx.Tensor</span><span class="p" data-group-id="5921691668-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6666666865348816</span><span class="w">
-</span><span class="p" data-group-id="4589621508-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="5921691668-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="recall/3">
@@ -621,11 +621,11 @@ <h1 class="signature" translate="no">recall(y_true, y_pred, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">recall</span><span class="p" data-group-id="3913317858-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3913317858-2">(</span><span class="p" data-group-id="3913317858-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3913317858-3">]</span><span class="p" data-group-id="3913317858-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3913317858-4">(</span><span class="p" data-group-id="3913317858-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3913317858-5">]</span><span class="p" data-group-id="3913317858-4">)</span><span class="p" data-group-id="3913317858-1">)</span><span class="w">
-</span><span class="p" data-group-id="3913317858-6">#</span><span class="nc" data-group-id="3913317858-6">Nx.Tensor</span><span class="p" data-group-id="3913317858-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">recall</span><span class="p" data-group-id="4675473341-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4675473341-2">(</span><span class="p" data-group-id="4675473341-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4675473341-3">]</span><span class="p" data-group-id="4675473341-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4675473341-4">(</span><span class="p" data-group-id="4675473341-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4675473341-5">]</span><span class="p" data-group-id="4675473341-4">)</span><span class="p" data-group-id="4675473341-1">)</span><span class="w">
+</span><span class="p" data-group-id="4675473341-6">#</span><span class="nc" data-group-id="4675473341-6">Nx.Tensor</span><span class="p" data-group-id="4675473341-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6666666865348816</span><span class="w">
-</span><span class="p" data-group-id="3913317858-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="4675473341-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="running_average/1">
@@ -656,14 +656,14 @@ <h1 class="signature" translate="no">running_average(metric)</h1>
 </h2>
 <pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">cur_avg</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mf">0.5</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">iteration</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">1</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7850620530-1">(</span><span class="p" data-group-id="7850620530-2">[</span><span class="p" data-group-id="7850620530-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7850620530-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7850620530-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7850620530-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7850620530-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7850620530-5">]</span><span class="p" data-group-id="7850620530-2">]</span><span class="p" data-group-id="7850620530-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7850620530-6">(</span><span class="p" data-group-id="7850620530-7">[</span><span class="p" data-group-id="7850620530-8">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7850620530-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7850620530-9">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7850620530-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7850620530-10">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7850620530-10">]</span><span class="p" data-group-id="7850620530-7">]</span><span class="p" data-group-id="7850620530-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">avg_acc</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="p" data-group-id="7850620530-11">(</span><span class="o">&amp;</span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="7850620530-11">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">avg_acc</span><span class="o">.</span><span class="p" data-group-id="7850620530-12">(</span><span class="n">cur_avg</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7850620530-13">[</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7850620530-13">]</span><span class="p">,</span><span class="w"> </span><span class="n">iteration</span><span class="p" data-group-id="7850620530-12">)</span><span class="w">
-</span><span class="p" data-group-id="7850620530-14">#</span><span class="nc" data-group-id="7850620530-14">Nx.Tensor</span><span class="p" data-group-id="7850620530-14">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3859164582-1">(</span><span class="p" data-group-id="3859164582-2">[</span><span class="p" data-group-id="3859164582-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3859164582-3">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3859164582-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3859164582-4">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3859164582-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3859164582-5">]</span><span class="p" data-group-id="3859164582-2">]</span><span class="p" data-group-id="3859164582-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3859164582-6">(</span><span class="p" data-group-id="3859164582-7">[</span><span class="p" data-group-id="3859164582-8">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3859164582-8">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3859164582-9">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3859164582-9">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3859164582-10">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3859164582-10">]</span><span class="p" data-group-id="3859164582-7">]</span><span class="p" data-group-id="3859164582-6">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">avg_acc</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="p" data-group-id="3859164582-11">(</span><span class="o">&amp;</span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">accuracy</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="3859164582-11">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">avg_acc</span><span class="o">.</span><span class="p" data-group-id="3859164582-12">(</span><span class="n">cur_avg</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3859164582-13">[</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3859164582-13">]</span><span class="p">,</span><span class="w"> </span><span class="n">iteration</span><span class="p" data-group-id="3859164582-12">)</span><span class="w">
+</span><span class="p" data-group-id="3859164582-14">#</span><span class="nc" data-group-id="3859164582-14">Nx.Tensor</span><span class="p" data-group-id="3859164582-14">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.75</span><span class="w">
-</span><span class="p" data-group-id="7850620530-14">&gt;</span></code></pre>
+</span><span class="p" data-group-id="3859164582-14">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="running_sum/1">
@@ -694,14 +694,14 @@ <h1 class="signature" translate="no">running_sum(metric)</h1>
 </h2>
 <pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">cur_sum</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">12</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">iteration</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8217716332-1">(</span><span class="p" data-group-id="8217716332-2">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8217716332-2">]</span><span class="p" data-group-id="8217716332-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8217716332-3">(</span><span class="p" data-group-id="8217716332-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8217716332-4">]</span><span class="p" data-group-id="8217716332-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">fps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_sum</span><span class="p" data-group-id="8217716332-5">(</span><span class="o">&amp;</span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_positives</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="8217716332-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">fps</span><span class="o">.</span><span class="p" data-group-id="8217716332-6">(</span><span class="n">cur_sum</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8217716332-7">[</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="8217716332-7">]</span><span class="p">,</span><span class="w"> </span><span class="n">iteration</span><span class="p" data-group-id="8217716332-6">)</span><span class="w">
-</span><span class="p" data-group-id="8217716332-8">#</span><span class="nc" data-group-id="8217716332-8">Nx.Tensor</span><span class="p" data-group-id="8217716332-8">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4971193033-1">(</span><span class="p" data-group-id="4971193033-2">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4971193033-2">]</span><span class="p" data-group-id="4971193033-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4971193033-3">(</span><span class="p" data-group-id="4971193033-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4971193033-4">]</span><span class="p" data-group-id="4971193033-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">fps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_sum</span><span class="p" data-group-id="4971193033-5">(</span><span class="o">&amp;</span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">false_positives</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="4971193033-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">fps</span><span class="o">.</span><span class="p" data-group-id="4971193033-6">(</span><span class="n">cur_sum</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4971193033-7">[</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="4971193033-7">]</span><span class="p">,</span><span class="w"> </span><span class="n">iteration</span><span class="p" data-group-id="4971193033-6">)</span><span class="w">
+</span><span class="p" data-group-id="4971193033-8">#</span><span class="nc" data-group-id="4971193033-8">Nx.Tensor</span><span class="p" data-group-id="4971193033-8">&lt;</span><span class="w">
   </span><span class="n">s64</span><span class="w">
   </span><span class="mi">13</span><span class="w">
-</span><span class="p" data-group-id="8217716332-8">&gt;</span></code></pre>
+</span><span class="p" data-group-id="4971193033-8">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="sensitivity/3">
@@ -745,11 +745,11 @@ <h1 class="signature" translate="no">sensitivity(y_true, y_pred, opts \\ [])</h1
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">sensitivity</span><span class="p" data-group-id="4089052810-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4089052810-2">(</span><span class="p" data-group-id="4089052810-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4089052810-3">]</span><span class="p" data-group-id="4089052810-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4089052810-4">(</span><span class="p" data-group-id="4089052810-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4089052810-5">]</span><span class="p" data-group-id="4089052810-4">)</span><span class="p" data-group-id="4089052810-1">)</span><span class="w">
-</span><span class="p" data-group-id="4089052810-6">#</span><span class="nc" data-group-id="4089052810-6">Nx.Tensor</span><span class="p" data-group-id="4089052810-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">sensitivity</span><span class="p" data-group-id="7877140419-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7877140419-2">(</span><span class="p" data-group-id="7877140419-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7877140419-3">]</span><span class="p" data-group-id="7877140419-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7877140419-4">(</span><span class="p" data-group-id="7877140419-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7877140419-5">]</span><span class="p" data-group-id="7877140419-4">)</span><span class="p" data-group-id="7877140419-1">)</span><span class="w">
+</span><span class="p" data-group-id="7877140419-6">#</span><span class="nc" data-group-id="7877140419-6">Nx.Tensor</span><span class="p" data-group-id="7877140419-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.6666666865348816</span><span class="w">
-</span><span class="p" data-group-id="4089052810-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="7877140419-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="specificity/3">
@@ -793,11 +793,11 @@ <h1 class="signature" translate="no">specificity(y_true, y_pred, opts \\ [])</h1
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">specificity</span><span class="p" data-group-id="4485580992-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4485580992-2">(</span><span class="p" data-group-id="4485580992-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4485580992-3">]</span><span class="p" data-group-id="4485580992-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4485580992-4">(</span><span class="p" data-group-id="4485580992-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4485580992-5">]</span><span class="p" data-group-id="4485580992-4">)</span><span class="p" data-group-id="4485580992-1">)</span><span class="w">
-</span><span class="p" data-group-id="4485580992-6">#</span><span class="nc" data-group-id="4485580992-6">Nx.Tensor</span><span class="p" data-group-id="4485580992-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">specificity</span><span class="p" data-group-id="6153229517-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6153229517-2">(</span><span class="p" data-group-id="6153229517-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6153229517-3">]</span><span class="p" data-group-id="6153229517-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6153229517-4">(</span><span class="p" data-group-id="6153229517-5">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6153229517-5">]</span><span class="p" data-group-id="6153229517-4">)</span><span class="p" data-group-id="6153229517-1">)</span><span class="w">
+</span><span class="p" data-group-id="6153229517-6">#</span><span class="nc" data-group-id="6153229517-6">Nx.Tensor</span><span class="p" data-group-id="6153229517-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.0</span><span class="w">
-</span><span class="p" data-group-id="4485580992-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6153229517-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="top_k_categorical_accuracy/3">
@@ -839,23 +839,23 @@ <h1 class="signature" translate="no">top_k_categorical_accuracy(y_true, y_pred,
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="6046645905-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6046645905-2">(</span><span class="p" data-group-id="6046645905-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6046645905-3">]</span><span class="p" data-group-id="6046645905-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6046645905-4">(</span><span class="p" data-group-id="6046645905-5">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="6046645905-5">]</span><span class="p" data-group-id="6046645905-4">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6046645905-1">)</span><span class="w">
-</span><span class="p" data-group-id="6046645905-6">#</span><span class="nc" data-group-id="6046645905-6">Nx.Tensor</span><span class="p" data-group-id="6046645905-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="4438965031-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4438965031-2">(</span><span class="p" data-group-id="4438965031-3">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4438965031-3">]</span><span class="p" data-group-id="4438965031-2">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4438965031-4">(</span><span class="p" data-group-id="4438965031-5">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1</span><span class="p" data-group-id="4438965031-5">]</span><span class="p" data-group-id="4438965031-4">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4438965031-1">)</span><span class="w">
+</span><span class="p" data-group-id="4438965031-6">#</span><span class="nc" data-group-id="4438965031-6">Nx.Tensor</span><span class="p" data-group-id="4438965031-6">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">1.0</span><span class="w">
-</span><span class="p" data-group-id="6046645905-6">&gt;</span><span class="w">
+</span><span class="p" data-group-id="4438965031-6">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="6046645905-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6046645905-8">(</span><span class="p" data-group-id="6046645905-9">[</span><span class="p" data-group-id="6046645905-10">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6046645905-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6046645905-11">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6046645905-11">]</span><span class="p" data-group-id="6046645905-9">]</span><span class="p" data-group-id="6046645905-8">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6046645905-12">(</span><span class="p" data-group-id="6046645905-13">[</span><span class="p" data-group-id="6046645905-14">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="6046645905-14">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6046645905-15">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="6046645905-15">]</span><span class="p" data-group-id="6046645905-13">]</span><span class="p" data-group-id="6046645905-12">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6046645905-7">)</span><span class="w">
-</span><span class="p" data-group-id="6046645905-16">#</span><span class="nc" data-group-id="6046645905-16">Nx.Tensor</span><span class="p" data-group-id="6046645905-16">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="4438965031-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4438965031-8">(</span><span class="p" data-group-id="4438965031-9">[</span><span class="p" data-group-id="4438965031-10">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4438965031-10">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4438965031-11">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4438965031-11">]</span><span class="p" data-group-id="4438965031-9">]</span><span class="p" data-group-id="4438965031-8">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4438965031-12">(</span><span class="p" data-group-id="4438965031-13">[</span><span class="p" data-group-id="4438965031-14">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="4438965031-14">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4438965031-15">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="4438965031-15">]</span><span class="p" data-group-id="4438965031-13">]</span><span class="p" data-group-id="4438965031-12">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4438965031-7">)</span><span class="w">
+</span><span class="p" data-group-id="4438965031-16">#</span><span class="nc" data-group-id="4438965031-16">Nx.Tensor</span><span class="p" data-group-id="4438965031-16">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="6046645905-16">&gt;</span><span class="w">
+</span><span class="p" data-group-id="4438965031-16">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="6046645905-17">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6046645905-18">(</span><span class="p" data-group-id="6046645905-19">[</span><span class="p" data-group-id="6046645905-20">[</span><span class="mi">0</span><span class="p" data-group-id="6046645905-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6046645905-21">[</span><span class="mi">2</span><span class="p" data-group-id="6046645905-21">]</span><span class="p" data-group-id="6046645905-19">]</span><span class="p" data-group-id="6046645905-18">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6046645905-22">(</span><span class="p" data-group-id="6046645905-23">[</span><span class="p" data-group-id="6046645905-24">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="6046645905-24">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6046645905-25">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="6046645905-25">]</span><span class="p" data-group-id="6046645905-23">]</span><span class="p" data-group-id="6046645905-22">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6046645905-17">)</span><span class="w">
-</span><span class="p" data-group-id="6046645905-26">#</span><span class="nc" data-group-id="6046645905-26">Nx.Tensor</span><span class="p" data-group-id="6046645905-26">&lt;</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">top_k_categorical_accuracy</span><span class="p" data-group-id="4438965031-17">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4438965031-18">(</span><span class="p" data-group-id="4438965031-19">[</span><span class="p" data-group-id="4438965031-20">[</span><span class="mi">0</span><span class="p" data-group-id="4438965031-20">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4438965031-21">[</span><span class="mi">2</span><span class="p" data-group-id="4438965031-21">]</span><span class="p" data-group-id="4438965031-19">]</span><span class="p" data-group-id="4438965031-18">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="4438965031-22">(</span><span class="p" data-group-id="4438965031-23">[</span><span class="p" data-group-id="4438965031-24">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="4438965031-24">]</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4438965031-25">[</span><span class="mf">0.1</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7</span><span class="p" data-group-id="4438965031-25">]</span><span class="p" data-group-id="4438965031-23">]</span><span class="p" data-group-id="4438965031-22">)</span><span class="p">,</span><span class="w"> </span><span class="ss">k</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4438965031-17">)</span><span class="w">
+</span><span class="p" data-group-id="4438965031-26">#</span><span class="nc" data-group-id="4438965031-26">Nx.Tensor</span><span class="p" data-group-id="4438965031-26">&lt;</span><span class="w">
   </span><span class="n">f32</span><span class="w">
   </span><span class="mf">0.5</span><span class="w">
-</span><span class="p" data-group-id="6046645905-26">&gt;</span></code></pre>
+</span><span class="p" data-group-id="4438965031-26">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="true_negatives/3">
@@ -893,13 +893,13 @@ <h1 class="signature" translate="no">true_negatives(y_true, y_pred, opts \\ [])<
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0403697404-1">(</span><span class="p" data-group-id="0403697404-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="0403697404-2">]</span><span class="p" data-group-id="0403697404-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0403697404-3">(</span><span class="p" data-group-id="0403697404-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="0403697404-4">]</span><span class="p" data-group-id="0403697404-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">true_negatives</span><span class="p" data-group-id="0403697404-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="0403697404-5">)</span><span class="w">
-</span><span class="p" data-group-id="0403697404-6">#</span><span class="nc" data-group-id="0403697404-6">Nx.Tensor</span><span class="p" data-group-id="0403697404-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6370172663-1">(</span><span class="p" data-group-id="6370172663-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6370172663-2">]</span><span class="p" data-group-id="6370172663-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6370172663-3">(</span><span class="p" data-group-id="6370172663-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="6370172663-4">]</span><span class="p" data-group-id="6370172663-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">true_negatives</span><span class="p" data-group-id="6370172663-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="6370172663-5">)</span><span class="w">
+</span><span class="p" data-group-id="6370172663-6">#</span><span class="nc" data-group-id="6370172663-6">Nx.Tensor</span><span class="p" data-group-id="6370172663-6">&lt;</span><span class="w">
   </span><span class="n">u64</span><span class="w">
   </span><span class="mi">1</span><span class="w">
-</span><span class="p" data-group-id="0403697404-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="6370172663-6">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="true_positives/3">
@@ -937,13 +937,13 @@ <h1 class="signature" translate="no">true_positives(y_true, y_pred, opts \\ [])<
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7530184915-1">(</span><span class="p" data-group-id="7530184915-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7530184915-2">]</span><span class="p" data-group-id="7530184915-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7530184915-3">(</span><span class="p" data-group-id="7530184915-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="7530184915-4">]</span><span class="p" data-group-id="7530184915-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">true_positives</span><span class="p" data-group-id="7530184915-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="7530184915-5">)</span><span class="w">
-</span><span class="p" data-group-id="7530184915-6">#</span><span class="nc" data-group-id="7530184915-6">Nx.Tensor</span><span class="p" data-group-id="7530184915-6">&lt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">y_true</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3412686310-1">(</span><span class="p" data-group-id="3412686310-2">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3412686310-2">]</span><span class="p" data-group-id="3412686310-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">y_pred</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3412686310-3">(</span><span class="p" data-group-id="3412686310-4">[</span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="3412686310-4">]</span><span class="p" data-group-id="3412686310-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">true_positives</span><span class="p" data-group-id="3412686310-5">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3412686310-5">)</span><span class="w">
+</span><span class="p" data-group-id="3412686310-6">#</span><span class="nc" data-group-id="3412686310-6">Nx.Tensor</span><span class="p" data-group-id="3412686310-6">&lt;</span><span class="w">
   </span><span class="n">u64</span><span class="w">
   </span><span class="mi">1</span><span class="w">
-</span><span class="p" data-group-id="7530184915-6">&gt;</span></code></pre>
+</span><span class="p" data-group-id="3412686310-6">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.MixedPrecision.html b/Axon.MixedPrecision.html
index 966c1035..c0fce94c 100644
--- a/Axon.MixedPrecision.html
+++ b/Axon.MixedPrecision.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -140,24 +140,24 @@ <h1>
 during intermediate computations in the model's forward pass. The <code class="inline">output</code>
 policy dictates what type the model should output.</p><p>Here's an example of creating a mixed precision policy and applying it
 to a model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5581369994-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5581369994-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="5581369994-2">}</span><span class="p" data-group-id="5581369994-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5581369994-3">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5581369994-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="5581369994-4">(</span><span class="p" data-group-id="5581369994-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="5581369994-5">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="5581369994-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5581369994-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5581369994-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="5581369994-7">(</span><span class="p" data-group-id="5581369994-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="5581369994-8">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="5581369994-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5581369994-9">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="5581369994-9">)</span><span class="w">
-
-</span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="5581369994-10">(</span><span class="w">
-  </span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5581369994-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5581369994-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5581369994-12">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="5581369994-12">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5581369994-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5581369994-13">}</span><span class="w">
-</span><span class="p" data-group-id="5581369994-10">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3832919183-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3832919183-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="3832919183-2">}</span><span class="p" data-group-id="3832919183-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3832919183-3">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="3832919183-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="3832919183-4">(</span><span class="p" data-group-id="3832919183-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="3832919183-5">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="3832919183-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3832919183-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="3832919183-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="3832919183-7">(</span><span class="p" data-group-id="3832919183-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="3832919183-8">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="3832919183-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3832919183-9">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="3832919183-9">)</span><span class="w">
+
+</span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="3832919183-10">(</span><span class="w">
+  </span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3832919183-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3832919183-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3832919183-12">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="3832919183-12">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3832919183-13">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3832919183-13">}</span><span class="w">
+</span><span class="p" data-group-id="3832919183-10">)</span><span class="w">
 
 </span><span class="n">mp_model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">apply_policy</span><span class="p" data-group-id="5581369994-14">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="ss">except</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5581369994-15">[</span><span class="ss">:batch_norm</span><span class="p" data-group-id="5581369994-15">]</span><span class="p" data-group-id="5581369994-14">)</span></code></pre><p>The example above applies the mixed precision policy to every layer in
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">apply_policy</span><span class="p" data-group-id="3832919183-14">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="ss">except</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3832919183-15">[</span><span class="ss">:batch_norm</span><span class="p" data-group-id="3832919183-15">]</span><span class="p" data-group-id="3832919183-14">)</span></code></pre><p>The example above applies the mixed precision policy to every layer in
 the model except Batch Normalization layers. The policy will cast parameters
 and inputs to <code class="inline">{:f, 16}</code> for intermediate computations in the model's forward
 pass before casting the output back to <code class="inline">{:f, 32}</code>.</p>
@@ -236,27 +236,27 @@ <h1 class="signature" translate="no">cast(policy, tensor_or_container, variable_
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="1203687555-1">(</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1203687555-2">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1203687555-2">}</span><span class="p" data-group-id="1203687555-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="1203687555-3">%{</span><span class="s">&quot;dense&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1203687555-4">%{</span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1203687555-5">(</span><span class="p" data-group-id="1203687555-6">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1203687555-6">]</span><span class="p" data-group-id="1203687555-5">)</span><span class="p" data-group-id="1203687555-4">}</span><span class="p" data-group-id="1203687555-3">}</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">cast</span><span class="p" data-group-id="1203687555-7">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">:params</span><span class="p" data-group-id="1203687555-7">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1203687555-8">(</span><span class="n">params</span><span class="p" data-group-id="1203687555-9">[</span><span class="s">&quot;dense&quot;</span><span class="p" data-group-id="1203687555-9">]</span><span class="p" data-group-id="1203687555-10">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="1203687555-10">]</span><span class="p" data-group-id="1203687555-8">)</span><span class="w">
-</span><span class="p" data-group-id="1203687555-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1203687555-11">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="1203687555-12">(</span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1203687555-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1203687555-13">}</span><span class="p" data-group-id="1203687555-12">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1203687555-14">(</span><span class="p" data-group-id="1203687555-15">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1203687555-15">]</span><span class="p" data-group-id="1203687555-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">cast</span><span class="p" data-group-id="1203687555-16">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p">,</span><span class="w"> </span><span class="ss">:compute</span><span class="p" data-group-id="1203687555-16">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1203687555-17">(</span><span class="n">value</span><span class="p" data-group-id="1203687555-17">)</span><span class="w">
-</span><span class="p" data-group-id="1203687555-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1203687555-18">}</span><span class="w">
-
-</span><span class="gp unselectable">iex&gt; </span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="1203687555-19">(</span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1203687555-20">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1203687555-20">}</span><span class="p" data-group-id="1203687555-19">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1203687555-21">(</span><span class="p" data-group-id="1203687555-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="1203687555-22">]</span><span class="p" data-group-id="1203687555-21">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">cast</span><span class="p" data-group-id="1203687555-23">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p">,</span><span class="w"> </span><span class="ss">:output</span><span class="p" data-group-id="1203687555-23">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1203687555-24">(</span><span class="n">value</span><span class="p" data-group-id="1203687555-24">)</span><span class="w">
-</span><span class="p" data-group-id="1203687555-25">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1203687555-25">}</span></code></pre><p>Note that integers are never promoted to floats:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="7701769011-1">(</span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7701769011-2">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7701769011-2">}</span><span class="p" data-group-id="7701769011-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7701769011-3">(</span><span class="p" data-group-id="7701769011-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7701769011-4">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:s64</span><span class="p" data-group-id="7701769011-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">cast</span><span class="p" data-group-id="7701769011-5">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p">,</span><span class="w"> </span><span class="ss">:params</span><span class="p" data-group-id="7701769011-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="7701769011-6">(</span><span class="n">value</span><span class="p" data-group-id="7701769011-6">)</span><span class="w">
-</span><span class="p" data-group-id="7701769011-7">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="7701769011-7">}</span></code></pre>
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="0979021136-1">(</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0979021136-2">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0979021136-2">}</span><span class="p" data-group-id="0979021136-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0979021136-3">%{</span><span class="s">&quot;dense&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0979021136-4">%{</span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0979021136-5">(</span><span class="p" data-group-id="0979021136-6">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0979021136-6">]</span><span class="p" data-group-id="0979021136-5">)</span><span class="p" data-group-id="0979021136-4">}</span><span class="p" data-group-id="0979021136-3">}</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">cast</span><span class="p" data-group-id="0979021136-7">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">:params</span><span class="p" data-group-id="0979021136-7">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="0979021136-8">(</span><span class="n">params</span><span class="p" data-group-id="0979021136-9">[</span><span class="s">&quot;dense&quot;</span><span class="p" data-group-id="0979021136-9">]</span><span class="p" data-group-id="0979021136-10">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="0979021136-10">]</span><span class="p" data-group-id="0979021136-8">)</span><span class="w">
+</span><span class="p" data-group-id="0979021136-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0979021136-11">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="0979021136-12">(</span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0979021136-13">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0979021136-13">}</span><span class="p" data-group-id="0979021136-12">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0979021136-14">(</span><span class="p" data-group-id="0979021136-15">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0979021136-15">]</span><span class="p" data-group-id="0979021136-14">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">cast</span><span class="p" data-group-id="0979021136-16">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p">,</span><span class="w"> </span><span class="ss">:compute</span><span class="p" data-group-id="0979021136-16">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="0979021136-17">(</span><span class="n">value</span><span class="p" data-group-id="0979021136-17">)</span><span class="w">
+</span><span class="p" data-group-id="0979021136-18">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0979021136-18">}</span><span class="w">
+
+</span><span class="gp unselectable">iex&gt; </span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="0979021136-19">(</span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0979021136-20">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0979021136-20">}</span><span class="p" data-group-id="0979021136-19">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="0979021136-21">(</span><span class="p" data-group-id="0979021136-22">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="0979021136-22">]</span><span class="p" data-group-id="0979021136-21">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">cast</span><span class="p" data-group-id="0979021136-23">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p">,</span><span class="w"> </span><span class="ss">:output</span><span class="p" data-group-id="0979021136-23">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="0979021136-24">(</span><span class="n">value</span><span class="p" data-group-id="0979021136-24">)</span><span class="w">
+</span><span class="p" data-group-id="0979021136-25">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="0979021136-25">}</span></code></pre><p>Note that integers are never promoted to floats:</p><pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">policy</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="1047118754-1">(</span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1047118754-2">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="1047118754-2">}</span><span class="p" data-group-id="1047118754-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1047118754-3">(</span><span class="p" data-group-id="1047118754-4">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="1047118754-4">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:s64</span><span class="p" data-group-id="1047118754-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">value</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">cast</span><span class="p" data-group-id="1047118754-5">(</span><span class="n">policy</span><span class="p">,</span><span class="w"> </span><span class="n">value</span><span class="p">,</span><span class="w"> </span><span class="ss">:params</span><span class="p" data-group-id="1047118754-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Nx</span><span class="o">.</span><span class="n">type</span><span class="p" data-group-id="1047118754-6">(</span><span class="n">value</span><span class="p" data-group-id="1047118754-6">)</span><span class="w">
+</span><span class="p" data-group-id="1047118754-7">{</span><span class="ss">:s</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="1047118754-7">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="create_policy/1">
@@ -292,11 +292,11 @@ <h1 class="signature" translate="no">create_policy(opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="9699735627-1">(</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9699735627-2">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9699735627-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9699735627-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9699735627-3">}</span><span class="p" data-group-id="9699735627-1">)</span><span class="w">
-</span><span class="p" data-group-id="9699735627-4">#</span><span class="nc" data-group-id="9699735627-4">Axon.MixedPrecision.Policy</span><span class="p" data-group-id="9699735627-4">&lt;</span><span class="n">p</span><span class="o">=</span><span class="n">f16</span><span class="w"> </span><span class="n">c</span><span class="o">=</span><span class="n">f32</span><span class="w"> </span><span class="n">o</span><span class="o">=</span><span class="n">f16</span><span class="p" data-group-id="9699735627-4">&gt;</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="7555024511-1">(</span><span class="ss">params</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7555024511-2">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7555024511-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">output</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7555024511-3">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7555024511-3">}</span><span class="p" data-group-id="7555024511-1">)</span><span class="w">
+</span><span class="p" data-group-id="7555024511-4">#</span><span class="nc" data-group-id="7555024511-4">Axon.MixedPrecision.Policy</span><span class="p" data-group-id="7555024511-4">&lt;</span><span class="n">p</span><span class="o">=</span><span class="n">f16</span><span class="w"> </span><span class="n">c</span><span class="o">=</span><span class="n">f32</span><span class="w"> </span><span class="n">o</span><span class="o">=</span><span class="n">f16</span><span class="p" data-group-id="7555024511-4">&gt;</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="9699735627-5">(</span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9699735627-6">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9699735627-6">}</span><span class="p" data-group-id="9699735627-5">)</span><span class="w">
-</span><span class="p" data-group-id="9699735627-7">#</span><span class="nc" data-group-id="9699735627-7">Axon.MixedPrecision.Policy</span><span class="p" data-group-id="9699735627-7">&lt;</span><span class="n">p</span><span class="o">=</span><span class="n">f32</span><span class="w"> </span><span class="n">c</span><span class="o">=</span><span class="n">bf16</span><span class="w"> </span><span class="n">o</span><span class="o">=</span><span class="n">f32</span><span class="p" data-group-id="9699735627-7">&gt;</span></code></pre>
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon.MixedPrecision</span><span class="o">.</span><span class="n">create_policy</span><span class="p" data-group-id="7555024511-5">(</span><span class="ss">compute</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7555024511-6">{</span><span class="ss">:bf</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="7555024511-6">}</span><span class="p" data-group-id="7555024511-5">)</span><span class="w">
+</span><span class="p" data-group-id="7555024511-7">#</span><span class="nc" data-group-id="7555024511-7">Axon.MixedPrecision.Policy</span><span class="p" data-group-id="7555024511-7">&lt;</span><span class="n">p</span><span class="o">=</span><span class="n">f32</span><span class="w"> </span><span class="n">c</span><span class="o">=</span><span class="n">bf16</span><span class="w"> </span><span class="n">o</span><span class="o">=</span><span class="n">f32</span><span class="p" data-group-id="7555024511-7">&gt;</span></code></pre>
   </section>
 </section>
 
diff --git a/Axon.ModelState.html b/Axon.ModelState.html
new file mode 100644
index 00000000..a42ce760
--- /dev/null
+++ b/Axon.ModelState.html
@@ -0,0 +1,556 @@
+<!DOCTYPE html>
+<html lang="en">
+  <head>
+    <meta charset="utf-8">
+    <meta http-equiv="x-ua-compatible" content="ie=edge">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <meta name="generator" content="ExDoc v0.31.1">
+    <meta name="project" content="Axon v0.6.1">
+
+
+    <title>Axon.ModelState — Axon v0.6.1</title>
+    <link rel="stylesheet" href="dist/html-elixir-FM2CSD74.css" />
+
+
+    <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
+    <script src="dist/handlebars.templates-43PMFBC7.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
+
+      <script src="docs_config.js"></script>
+
+    <script async src="dist/html-L4O5OK2K.js"></script>
+
+
+  </head>
+  <body data-type="modules" class="page-module">
+    <script>
+
+      try {
+        var settings = JSON.parse(localStorage.getItem('ex_doc:settings') || '{}');
+
+        if (settings.theme === 'dark' ||
+           ((settings.theme === 'system' || settings.theme == null) &&
+             window.matchMedia('(prefers-color-scheme: dark)').matches)
+           ) {
+          document.body.classList.add('dark')
+        }
+      } catch (error) { }
+    </script>
+
+<div class="main">
+
+<button id="sidebar-menu" class="sidebar-button sidebar-toggle" aria-label="toggle sidebar" aria-controls="sidebar">
+  <i class="ri-menu-line ri-lg" title="Collapse/expand sidebar"></i>
+</button>
+
+<div class="background-layer"></div>
+
+<nav id="sidebar" class="sidebar">
+
+  <div class="sidebar-header">
+    <div class="sidebar-projectInfo">
+
+        <a href="Axon.html" class="sidebar-projectImage">
+          <img src="assets/logo.png" alt="Axon" />
+        </a>
+
+      <div>
+        <a href="Axon.html" class="sidebar-projectName" translate="no">
+Axon
+        </a>
+        <div class="sidebar-projectVersion" translate="no">
+          v0.6.1
+        </div>
+      </div>
+    </div>
+    <ul id="sidebar-listNav" class="sidebar-listNav" role="tablist">
+      <li>
+        <button id="extras-list-tab-button" role="tab" data-type="extras" aria-controls="extras-tab-panel" aria-selected="true" tabindex="0">
+Pages
+        </button>
+      </li>
+
+        <li>
+          <button id="modules-list-tab-button" role="tab" data-type="modules" aria-controls="modules-tab-panel" aria-selected="false" tabindex="-1">
+            Modules
+          </button>
+        </li>
+
+
+    </ul>
+  </div>
+
+  <div id="extras-tab-panel" class="sidebar-tabpanel" role="tabpanel" aria-labelledby="extras-list-tab-button">
+    <ul id="extras-full-list" class="full-list"></ul>
+  </div>
+
+    <div id="modules-tab-panel" class="sidebar-tabpanel" role="tabpanel" aria-labelledby="modules-list-tab-button" hidden>
+      <ul id="modules-full-list" class="full-list"></ul>
+    </div>
+
+
+</nav>
+
+<main class="content">
+  <output role="status" id="toast"></output>
+  <div class="content-outer">
+    <div id="content" class="content-inner">
+      <div class="top-search">
+        <div class="search-settings">
+          <form class="search-bar" action="search.html">
+            <label class="search-label">
+              <span class="sr-only">Search documentation of Axon</span>
+              <input name="q" type="text" class="search-input" placeholder="Search Documentation (press /)" autocomplete="off" autocorrect="off" autocapitalize="off" spellcheck="false" />
+            </label>
+            <button type="submit" class="search-button" aria-label="Submit Search">
+              <i class="ri-search-2-line ri-lg" aria-hidden="true" title="Submit search"></i>
+            </button>
+            <button type="button" tabindex="-1" class="search-close-button" aria-hidden="true">
+              <i class="ri-close-line ri-lg" title="Cancel search"></i>
+            </button>
+          </form>
+          <div class="autocomplete">
+          </div>
+          <button class="icon-settings display-settings">
+            <i class="ri-settings-3-line"></i>
+            <span class="sr-only">Settings</span>
+          </button>
+        </div>
+
+      </div>
+
+<h1>
+
+    <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L1" title="View Source" class="icon-action" rel="help">
+      <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+      <span class="sr-only">View Source</span>
+    </a>
+
+  <span translate="no">Axon.ModelState</span> 
+  <small class="app-vsn" translate="no">(Axon v0.6.1)</small>
+
+</h1>
+
+
+  <section id="moduledoc">
+<p>Model State Data Structure.</p><p>This data structure represents all the state needed for
+a model to perform inference.</p>
+  </section>
+
+
+  <section id="summary" class="details-list">
+    <h1 class="section-heading">
+      <a class="hover-link" href="#summary">
+        <i class="ri-link-m" aria-hidden="true"></i>
+      </a>
+      <span class="text">Summary</span>
+    </h1>
+<div class="summary-functions summary">
+  <h2>
+    <a href="#functions">Functions</a>
+  </h2>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#empty/0" translate="no">empty()</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Returns an empty model state.</p></div>
+
+    </div>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#freeze/2" translate="no">freeze(model_state, mask \\ fn _ -&gt; true end)</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Freezes parameters and state in the given model state
+using the given mask.</p></div>
+
+    </div>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#frozen_parameters/1" translate="no">frozen_parameters(model_state)</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Returns the frozen parameters in the given model state.</p></div>
+
+    </div>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#frozen_state/1" translate="no">frozen_state(model_state)</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Returns the frozen state in the given model state.</p></div>
+
+    </div>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#new/1" translate="no">new(data)</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Returns a new model state struct from the given parameter
+map.</p></div>
+
+    </div>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#trainable_parameters/1" translate="no">trainable_parameters(model_state)</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Returns the trainable parameters in the given model state.</p></div>
+
+    </div>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#trainable_state/1" translate="no">trainable_state(model_state)</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Returns the trainable state in the given model state.</p></div>
+
+    </div>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#unfreeze/2" translate="no">unfreeze(model_state, mask \\ fn _ -&gt; true end)</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Unfreezes parameters and state in the given model state
+using the given mask.</p></div>
+
+    </div>
+
+    <div class="summary-row">
+      <div class="summary-signature">
+        <a href="#update/3" translate="no">update(model_state, updated_parameters, updated_state \\ %{})</a>
+
+      </div>
+
+        <div class="summary-synopsis"><p>Updates the given model state.</p></div>
+
+    </div>
+
+</div>
+
+  </section>
+
+
+  <section id="functions" class="details-list">
+    <h1 class="section-heading">
+      <a class="hover-link" href="#functions">
+        <i class="ri-link-m" aria-hidden="true"></i>
+      </a>
+      <span class="text">Functions</span>
+    </h1>
+    <div class="functions-list">
+<section class="detail" id="empty/0">
+
+  <div class="detail-header">
+    <a href="#empty/0" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">empty()</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L163" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Returns an empty model state.</p>
+  </section>
+</section>
+<section class="detail" id="freeze/2">
+
+    <span id="freeze/1"></span>
+
+  <div class="detail-header">
+    <a href="#freeze/2" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">freeze(model_state, mask \\ fn _ -&gt; true end)</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L58" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Freezes parameters and state in the given model state
+using the given mask.</p><p>The mask is an arity 1 function which takes the access path to the
+leaf parameter and returns <code class="inline">true</code> if the parameter should be frozen
+or <code class="inline">false</code> otherwise. With this, you can construct flexible masking
+policies:</p><pre><code class="makeup elixir" translate="no"><span class="k" data-group-id="5607097897-1">fn</span><span class="w">
+  </span><span class="p" data-group-id="5607097897-2">[</span><span class="s">&quot;dense_&quot;</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="5607097897-2">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_integer</span><span class="p" data-group-id="5607097897-3">(</span><span class="n">n</span><span class="p" data-group-id="5607097897-3">)</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mi">3</span><span class="w">
+  </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="no">false</span><span class="w">
+</span><span class="k" data-group-id="5607097897-1">end</span></code></pre><p>The default mask returns <code class="inline">true</code> for all paths, and is equivalent to
+freezing the entire model.</p>
+  </section>
+</section>
+<section class="detail" id="frozen_parameters/1">
+
+  <div class="detail-header">
+    <a href="#frozen_parameters/1" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">frozen_parameters(model_state)</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L136" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Returns the frozen parameters in the given model state.</p>
+  </section>
+</section>
+<section class="detail" id="frozen_state/1">
+
+  <div class="detail-header">
+    <a href="#frozen_state/1" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">frozen_state(model_state)</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L154" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Returns the frozen state in the given model state.</p>
+  </section>
+</section>
+<section class="detail" id="new/1">
+
+  <div class="detail-header">
+    <a href="#new/1" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">new(data)</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L176" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Returns a new model state struct from the given parameter
+map.</p>
+  </section>
+</section>
+<section class="detail" id="trainable_parameters/1">
+
+  <div class="detail-header">
+    <a href="#trainable_parameters/1" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">trainable_parameters(model_state)</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L123" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Returns the trainable parameters in the given model state.</p>
+  </section>
+</section>
+<section class="detail" id="trainable_state/1">
+
+  <div class="detail-header">
+    <a href="#trainable_state/1" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">trainable_state(model_state)</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L145" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Returns the trainable state in the given model state.</p>
+  </section>
+</section>
+<section class="detail" id="unfreeze/2">
+
+    <span id="unfreeze/1"></span>
+
+  <div class="detail-header">
+    <a href="#unfreeze/2" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">unfreeze(model_state, mask \\ fn _ -&gt; true end)</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L96" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Unfreezes parameters and state in the given model state
+using the given mask.</p><p>The mask is an arity 1 function which takes the access path to the
+leaf parameter and returns <code class="inline">true</code> if the parameter should be unfrozen
+or <code class="inline">false</code> otherwise. With this, you can construct flexible masking
+policies:</p><pre><code class="makeup elixir" translate="no"><span class="k" data-group-id="8939752777-1">fn</span><span class="w">
+  </span><span class="p" data-group-id="8939752777-2">[</span><span class="s">&quot;dense_&quot;</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="8939752777-2">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">n</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mi">3</span><span class="w">
+  </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="no">false</span><span class="w">
+</span><span class="k" data-group-id="8939752777-1">end</span></code></pre><p>The default mask returns <code class="inline">true</code> for all paths, and is equivalent to
+unfreezing the entire model.</p>
+  </section>
+</section>
+<section class="detail" id="update/3">
+
+    <span id="update/2"></span>
+
+  <div class="detail-header">
+    <a href="#update/3" class="detail-link" title="Link to this function">
+      <i class="ri-link-m" aria-hidden="true"></i>
+      <span class="sr-only">Link to this function</span>
+    </a>
+    <h1 class="signature" translate="no">update(model_state, updated_parameters, updated_state \\ %{})</h1>
+
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon/model_state.ex#L19" class="icon-action" rel="help" title="View Source">
+       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
+       <span class="sr-only">View Source</span>
+     </a>
+
+
+  </div>
+
+  <section class="docstring">
+
+<p>Updates the given model state.</p>
+  </section>
+</section>
+
+    </div>
+  </section>
+
+      <footer class="footer">
+        <p>
+
+            <span class="line">
+              <a href="https://hex.pm/packages/axon/0.6.1" class="footer-hex-package">Hex Package</a>
+
+              <a href="https://preview.hex.pm/preview/axon/0.6.1">Hex Preview</a>
+
+            </span>
+
+          <span class="line">
+            <button class="a-main footer-button display-quick-switch" title="Search HexDocs packages">
+              Search HexDocs
+            </button>
+
+              <a href="Axon.epub" title="ePub version">
+                Download ePub version
+              </a>
+
+          </span>
+        </p>
+
+        <p class="built-using">
+          Built using
+          <a href="https://github.com/elixir-lang/ex_doc" title="ExDoc" target="_blank" rel="help noopener" translate="no">ExDoc</a> (v0.31.1) for the
+
+            <a href="https://elixir-lang.org" title="Elixir" target="_blank" translate="no">Elixir programming language</a>
+
+        </p>
+      </footer>
+    </div>
+  </div>
+</main>
+</div>
+
+<!-- Render math with KaTeX -->
+<link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@0.13.0/dist/katex.min.css" integrity="sha384-t5CR+zwDAROtph0PXGte6ia8heboACF9R5l/DiY+WZ3P2lxNgvJkQk5n7GPvLMYw" crossorigin="anonymous">
+<script defer src="https://cdn.jsdelivr.net/npm/katex@0.13.0/dist/katex.min.js" integrity="sha384-FaFLTlohFghEIZkw6VGwmf9ISTubWAVYW8tG8+w2LAIftJEULZABrF9PPFv+tVkH" crossorigin="anonymous"></script>
+<script defer src="https://cdn.jsdelivr.net/npm/katex@0.13.0/dist/contrib/auto-render.min.js" integrity="sha384-bHBqxz8fokvgoJ/sc17HODNxa42TlaEhB+w8ZJXTc2nZf1VgEaFZeZvT4Mznfz0v" crossorigin="anonymous"></script>
+<script>
+  document.addEventListener("DOMContentLoaded", function() {
+    renderMathInElement(document.body, {
+      delimiters: [
+        { left: "$$", right: "$$", display: true },
+        { left: "$", right: "$", display: false },
+      ]
+    });
+  });
+</script>
+
+<!-- Render diagrams with Mermaid -->
+<script src="https://cdn.jsdelivr.net/npm/mermaid@8.13.3/dist/mermaid.min.js"></script>
+<script>
+  document.addEventListener("DOMContentLoaded", function () {
+    mermaid.initialize({ startOnLoad: false });
+    let id = 0;
+    for (const codeEl of document.querySelectorAll("pre code.mermaid")) {
+      const preEl = codeEl.parentElement;
+      const graphDefinition = codeEl.textContent;
+      const graphEl = document.createElement("div");
+      const graphId = "mermaid-graph-" + id++;
+      mermaid.render(graphId, graphDefinition, function (svgSource, bindListeners) {
+        graphEl.innerHTML = svgSource;
+        bindListeners && bindListeners(graphEl);
+        preEl.insertAdjacentElement("afterend", graphEl);
+        preEl.remove();
+      });
+    }
+  });
+</script>
+
+  </body>
+</html>
diff --git a/Axon.None.html b/Axon.None.html
index eef9a4a0..cba16db6 100644
--- a/Axon.None.html
+++ b/Axon.None.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
diff --git a/Axon.StatefulOutput.html b/Axon.StatefulOutput.html
index e88b4517..135d965d 100644
--- a/Axon.StatefulOutput.html
+++ b/Axon.StatefulOutput.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
diff --git a/Axon.epub b/Axon.epub
index f5860d72..9fe42e7f 100644
Binary files a/Axon.epub and b/Axon.epub differ
diff --git a/Axon.html b/Axon.html
index b50e95fb..daa993de 100644
--- a/Axon.html
+++ b/Axon.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -144,53 +144,53 @@ <h1>
   <span class="text">Model Creation</span>
 </h2>
 <p>All Axon models start with an input layer, optionally specifying
-the expected shape of the input data:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2918316321-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2918316321-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="2918316321-2">}</span><span class="p" data-group-id="2918316321-1">)</span></code></pre><p>Notice you can specify some dimensions as <code class="inline">nil</code>, indicating
+the expected shape of the input data:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6155290229-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6155290229-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="6155290229-2">}</span><span class="p" data-group-id="6155290229-1">)</span></code></pre><p>Notice you can specify some dimensions as <code class="inline">nil</code>, indicating
 that the dimension size will be filled in at model runtime.
 You can then compose inputs with other layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">input</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4546506515-1">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="4546506515-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="4546506515-2">(</span><span class="p" data-group-id="4546506515-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4546506515-3">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.8</span><span class="p" data-group-id="4546506515-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4546506515-4">(</span><span class="mi">64</span><span class="p" data-group-id="4546506515-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="4546506515-5">(</span><span class="p" data-group-id="4546506515-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4546506515-6">(</span><span class="mi">10</span><span class="p" data-group-id="4546506515-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="4546506515-7">(</span><span class="ss">:softmax</span><span class="p" data-group-id="4546506515-7">)</span></code></pre><p>You can inspect the model for a nice summary:</p><pre><code class="makeup elixir" translate="no"><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="2537131256-1">(</span><span class="n">model</span><span class="p" data-group-id="2537131256-1">)</span><span class="w">
-
-</span><span class="p" data-group-id="2537131256-2">#</span><span class="nc" data-group-id="2537131256-2">Axon</span><span class="p" data-group-id="2537131256-2">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2537131256-3">%{</span><span class="s">&quot;input&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2537131256-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="2537131256-4">}</span><span class="p" data-group-id="2537131256-3">}</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5216403904-1">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5216403904-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="5216403904-2">(</span><span class="p" data-group-id="5216403904-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="5216403904-3">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.8</span><span class="p" data-group-id="5216403904-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5216403904-4">(</span><span class="mi">64</span><span class="p" data-group-id="5216403904-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="5216403904-5">(</span><span class="p" data-group-id="5216403904-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5216403904-6">(</span><span class="mi">10</span><span class="p" data-group-id="5216403904-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="5216403904-7">(</span><span class="ss">:softmax</span><span class="p" data-group-id="5216403904-7">)</span></code></pre><p>You can inspect the model for a nice summary:</p><pre><code class="makeup elixir" translate="no"><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="7978625058-1">(</span><span class="n">model</span><span class="p" data-group-id="7978625058-1">)</span><span class="w">
+
+</span><span class="p" data-group-id="7978625058-2">#</span><span class="nc" data-group-id="7978625058-2">Axon</span><span class="p" data-group-id="7978625058-2">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7978625058-3">%{</span><span class="s">&quot;input&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7978625058-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="7978625058-4">}</span><span class="p" data-group-id="7978625058-3">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;softmax_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">9</span><span class="w">
-</span><span class="p" data-group-id="2537131256-2">&gt;</span></code></pre><p>Or use the <a href="Axon.Display.html"><code class="inline">Axon.Display</code></a> module to see more in-depth summaries:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="7351632825-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="7351632825-2">(</span><span class="p" data-group-id="7351632825-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="7351632825-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7351632825-2">)</span><span class="p" data-group-id="7351632825-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="w">
+</span><span class="p" data-group-id="7978625058-2">&gt;</span></code></pre><p>Or use the <a href="Axon.Display.html"><code class="inline">Axon.Display</code></a> module to see more in-depth summaries:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="3171542655-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3171542655-2">(</span><span class="p" data-group-id="3171542655-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="3171542655-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3171542655-2">)</span><span class="p" data-group-id="3171542655-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="w">
 
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="w">
 </span><span class="o">|</span><span class="w">                                                     </span><span class="nc">Model</span><span class="w">                                                      </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">=</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">==</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">=</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">==</span><span class="o">+</span><span class="w">
 </span><span class="o">|</span><span class="w"> </span><span class="nc">Layer</span><span class="w">                                 </span><span class="o">|</span><span class="w"> </span><span class="nc">Input</span><span class="w"> </span><span class="nc">Shape</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="nc">Output</span><span class="w"> </span><span class="nc">Shape</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="nc">Options</span><span class="w">           </span><span class="o">|</span><span class="w"> </span><span class="nc">Parameters</span><span class="w">            </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">=</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">==</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">=</span><span class="o">+</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">===</span><span class="o">==</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="p" data-group-id="7351632825-4">(</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="p" data-group-id="7351632825-4">)</span><span class="w">                       </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-5">[</span><span class="p" data-group-id="7351632825-5">]</span><span class="w">          </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-6">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="7351632825-6">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7351632825-7">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="7351632825-7">}</span><span class="w"> </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="p" data-group-id="3171542655-4">(</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="p" data-group-id="3171542655-4">)</span><span class="w">                       </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-5">[</span><span class="p" data-group-id="3171542655-5">]</span><span class="w">          </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-6">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="3171542655-6">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3171542655-7">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="3171542655-7">}</span><span class="w"> </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">optional</span><span class="p">:</span><span class="w"> </span><span class="no">false</span><span class="w">   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">dense_0</span><span class="w"> </span><span class="p" data-group-id="7351632825-8">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="7351632825-9">[</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="7351632825-9">]</span><span class="w"> </span><span class="p" data-group-id="7351632825-8">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-10">[</span><span class="p" data-group-id="7351632825-11">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="7351632825-11">}</span><span class="p" data-group-id="7351632825-10">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-12">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7351632825-12">}</span><span class="w">     </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-13">[</span><span class="mi">784</span><span class="p" data-group-id="7351632825-13">]</span><span class="p" data-group-id="7351632825-14">[</span><span class="mi">128</span><span class="p" data-group-id="7351632825-14">]</span><span class="w"> </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-15">[</span><span class="mi">128</span><span class="p" data-group-id="7351632825-15">]</span><span class="w">        </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">dense_0</span><span class="w"> </span><span class="p" data-group-id="3171542655-8">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="3171542655-9">[</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="3171542655-9">]</span><span class="w"> </span><span class="p" data-group-id="3171542655-8">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-10">[</span><span class="p" data-group-id="3171542655-11">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="3171542655-11">}</span><span class="p" data-group-id="3171542655-10">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-12">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3171542655-12">}</span><span class="w">     </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-13">[</span><span class="mi">784</span><span class="p" data-group-id="3171542655-13">]</span><span class="p" data-group-id="3171542655-14">[</span><span class="mi">128</span><span class="p" data-group-id="3171542655-14">]</span><span class="w"> </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-15">[</span><span class="mi">128</span><span class="p" data-group-id="3171542655-15">]</span><span class="w">        </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">relu_0</span><span class="w"> </span><span class="p" data-group-id="7351632825-16">(</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="7351632825-17">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="7351632825-17">]</span><span class="w"> </span><span class="p" data-group-id="7351632825-16">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-18">[</span><span class="p" data-group-id="7351632825-19">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7351632825-19">}</span><span class="p" data-group-id="7351632825-18">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-20">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7351632825-20">}</span><span class="w">     </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">relu_0</span><span class="w"> </span><span class="p" data-group-id="3171542655-16">(</span><span class="w"> </span><span class="n">relu</span><span class="p" data-group-id="3171542655-17">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="3171542655-17">]</span><span class="w"> </span><span class="p" data-group-id="3171542655-16">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-18">[</span><span class="p" data-group-id="3171542655-19">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3171542655-19">}</span><span class="p" data-group-id="3171542655-18">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-20">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3171542655-20">}</span><span class="w">     </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">batch_norm_0</span><span class="w"> </span><span class="p" data-group-id="7351632825-21">(</span><span class="w"> </span><span class="n">batch_norm</span><span class="p" data-group-id="7351632825-22">[</span><span class="s">&quot;relu_0&quot;</span><span class="p" data-group-id="7351632825-22">]</span><span class="w"> </span><span class="p" data-group-id="7351632825-21">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-23">[</span><span class="p" data-group-id="7351632825-24">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7351632825-24">}</span><span class="p" data-group-id="7351632825-23">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-25">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7351632825-25">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">epsilon</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-5</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="ss">gamma</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-26">[</span><span class="mi">128</span><span class="p" data-group-id="7351632825-26">]</span><span class="w">       </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">channel_index</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="ss">beta</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-27">[</span><span class="mi">128</span><span class="p" data-group-id="7351632825-27">]</span><span class="w">        </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">momentum</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">mean</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-28">[</span><span class="mi">128</span><span class="p" data-group-id="7351632825-28">]</span><span class="w">        </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">var</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-29">[</span><span class="mi">128</span><span class="p" data-group-id="7351632825-29">]</span><span class="w">         </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">batch_norm_0</span><span class="w"> </span><span class="p" data-group-id="3171542655-21">(</span><span class="w"> </span><span class="n">batch_norm</span><span class="p" data-group-id="3171542655-22">[</span><span class="s">&quot;relu_0&quot;</span><span class="p" data-group-id="3171542655-22">]</span><span class="w"> </span><span class="p" data-group-id="3171542655-21">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-23">[</span><span class="p" data-group-id="3171542655-24">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3171542655-24">}</span><span class="p" data-group-id="3171542655-23">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-25">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3171542655-25">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">epsilon</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-5</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="ss">gamma</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-26">[</span><span class="mi">128</span><span class="p" data-group-id="3171542655-26">]</span><span class="w">       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">channel_index</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="ss">beta</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-27">[</span><span class="mi">128</span><span class="p" data-group-id="3171542655-27">]</span><span class="w">        </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w"> </span><span class="ss">momentum</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">mean</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-28">[</span><span class="mi">128</span><span class="p" data-group-id="3171542655-28">]</span><span class="w">        </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">var</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-29">[</span><span class="mi">128</span><span class="p" data-group-id="3171542655-29">]</span><span class="w">         </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">dropout_0</span><span class="w"> </span><span class="p" data-group-id="7351632825-30">(</span><span class="w"> </span><span class="n">dropout</span><span class="p" data-group-id="7351632825-31">[</span><span class="s">&quot;batch_norm_0&quot;</span><span class="p" data-group-id="7351632825-31">]</span><span class="w"> </span><span class="p" data-group-id="7351632825-30">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-32">[</span><span class="p" data-group-id="7351632825-33">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7351632825-33">}</span><span class="p" data-group-id="7351632825-32">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-34">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7351632825-34">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.8</span><span class="w">         </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">dropout_0</span><span class="w"> </span><span class="p" data-group-id="3171542655-30">(</span><span class="w"> </span><span class="n">dropout</span><span class="p" data-group-id="3171542655-31">[</span><span class="s">&quot;batch_norm_0&quot;</span><span class="p" data-group-id="3171542655-31">]</span><span class="w"> </span><span class="p" data-group-id="3171542655-30">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-32">[</span><span class="p" data-group-id="3171542655-33">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3171542655-33">}</span><span class="p" data-group-id="3171542655-32">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-34">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3171542655-34">}</span><span class="w">     </span><span class="o">|</span><span class="w"> </span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.8</span><span class="w">         </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">dense_1</span><span class="w"> </span><span class="p" data-group-id="7351632825-35">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="7351632825-36">[</span><span class="s">&quot;dropout_0&quot;</span><span class="p" data-group-id="7351632825-36">]</span><span class="w"> </span><span class="p" data-group-id="7351632825-35">)</span><span class="w">        </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-37">[</span><span class="p" data-group-id="7351632825-38">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7351632825-38">}</span><span class="p" data-group-id="7351632825-37">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-39">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="7351632825-39">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-40">[</span><span class="mi">128</span><span class="p" data-group-id="7351632825-40">]</span><span class="p" data-group-id="7351632825-41">[</span><span class="mi">64</span><span class="p" data-group-id="7351632825-41">]</span><span class="w">  </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-42">[</span><span class="mi">64</span><span class="p" data-group-id="7351632825-42">]</span><span class="w">         </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">dense_1</span><span class="w"> </span><span class="p" data-group-id="3171542655-35">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="3171542655-36">[</span><span class="s">&quot;dropout_0&quot;</span><span class="p" data-group-id="3171542655-36">]</span><span class="w"> </span><span class="p" data-group-id="3171542655-35">)</span><span class="w">        </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-37">[</span><span class="p" data-group-id="3171542655-38">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3171542655-38">}</span><span class="p" data-group-id="3171542655-37">]</span><span class="w">  </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-39">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="3171542655-39">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-40">[</span><span class="mi">128</span><span class="p" data-group-id="3171542655-40">]</span><span class="p" data-group-id="3171542655-41">[</span><span class="mi">64</span><span class="p" data-group-id="3171542655-41">]</span><span class="w">  </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-42">[</span><span class="mi">64</span><span class="p" data-group-id="3171542655-42">]</span><span class="w">         </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">tanh_0</span><span class="w"> </span><span class="p" data-group-id="7351632825-43">(</span><span class="w"> </span><span class="n">tanh</span><span class="p" data-group-id="7351632825-44">[</span><span class="s">&quot;dense_1&quot;</span><span class="p" data-group-id="7351632825-44">]</span><span class="w"> </span><span class="p" data-group-id="7351632825-43">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-45">[</span><span class="p" data-group-id="7351632825-46">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="7351632825-46">}</span><span class="p" data-group-id="7351632825-45">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-47">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="7351632825-47">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">tanh_0</span><span class="w"> </span><span class="p" data-group-id="3171542655-43">(</span><span class="w"> </span><span class="n">tanh</span><span class="p" data-group-id="3171542655-44">[</span><span class="s">&quot;dense_1&quot;</span><span class="p" data-group-id="3171542655-44">]</span><span class="w"> </span><span class="p" data-group-id="3171542655-43">)</span><span class="w">            </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-45">[</span><span class="p" data-group-id="3171542655-46">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="3171542655-46">}</span><span class="p" data-group-id="3171542655-45">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-47">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="3171542655-47">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">dense_2</span><span class="w"> </span><span class="p" data-group-id="7351632825-48">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="7351632825-49">[</span><span class="s">&quot;tanh_0&quot;</span><span class="p" data-group-id="7351632825-49">]</span><span class="w"> </span><span class="p" data-group-id="7351632825-48">)</span><span class="w">           </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-50">[</span><span class="p" data-group-id="7351632825-51">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="7351632825-51">}</span><span class="p" data-group-id="7351632825-50">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-52">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="7351632825-52">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-53">[</span><span class="mi">64</span><span class="p" data-group-id="7351632825-53">]</span><span class="p" data-group-id="7351632825-54">[</span><span class="mi">10</span><span class="p" data-group-id="7351632825-54">]</span><span class="w">   </span><span class="o">|</span><span class="w">
-</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="7351632825-55">[</span><span class="mi">10</span><span class="p" data-group-id="7351632825-55">]</span><span class="w">         </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">dense_2</span><span class="w"> </span><span class="p" data-group-id="3171542655-48">(</span><span class="w"> </span><span class="n">dense</span><span class="p" data-group-id="3171542655-49">[</span><span class="s">&quot;tanh_0&quot;</span><span class="p" data-group-id="3171542655-49">]</span><span class="w"> </span><span class="p" data-group-id="3171542655-48">)</span><span class="w">           </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-50">[</span><span class="p" data-group-id="3171542655-51">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="3171542655-51">}</span><span class="p" data-group-id="3171542655-50">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-52">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="3171542655-52">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">kernel</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-53">[</span><span class="mi">64</span><span class="p" data-group-id="3171542655-53">]</span><span class="p" data-group-id="3171542655-54">[</span><span class="mi">10</span><span class="p" data-group-id="3171542655-54">]</span><span class="w">   </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w">                                       </span><span class="o">|</span><span class="w">             </span><span class="o">|</span><span class="w">              </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w"> </span><span class="ss">bias</span><span class="p">:</span><span class="w"> </span><span class="n">f32</span><span class="p" data-group-id="3171542655-55">[</span><span class="mi">10</span><span class="p" data-group-id="3171542655-55">]</span><span class="w">         </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="w">
-</span><span class="o">|</span><span class="w"> </span><span class="n">softmax_0</span><span class="w"> </span><span class="p" data-group-id="7351632825-56">(</span><span class="w"> </span><span class="n">softmax</span><span class="p" data-group-id="7351632825-57">[</span><span class="s">&quot;dense_2&quot;</span><span class="p" data-group-id="7351632825-57">]</span><span class="w"> </span><span class="p" data-group-id="7351632825-56">)</span><span class="w">      </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-58">[</span><span class="p" data-group-id="7351632825-59">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="7351632825-59">}</span><span class="p" data-group-id="7351632825-58">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="7351632825-60">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="7351632825-60">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
+</span><span class="o">|</span><span class="w"> </span><span class="n">softmax_0</span><span class="w"> </span><span class="p" data-group-id="3171542655-56">(</span><span class="w"> </span><span class="n">softmax</span><span class="p" data-group-id="3171542655-57">[</span><span class="s">&quot;dense_2&quot;</span><span class="p" data-group-id="3171542655-57">]</span><span class="w"> </span><span class="p" data-group-id="3171542655-56">)</span><span class="w">      </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-58">[</span><span class="p" data-group-id="3171542655-59">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="3171542655-59">}</span><span class="p" data-group-id="3171542655-58">]</span><span class="w">   </span><span class="o">|</span><span class="w"> </span><span class="p" data-group-id="3171542655-60">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="3171542655-60">}</span><span class="w">      </span><span class="o">|</span><span class="w">                   </span><span class="o">|</span><span class="w">                       </span><span class="o">|</span><span class="w">
 </span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">--</span><span class="o">-</span><span class="o">+</span></code></pre><h3 id="module-multiple-inputs" class="section-heading">
   <a href="#module-multiple-inputs" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -200,28 +200,28 @@ <h1>
 <p>Creating a model with multiple inputs is as easy as declaring an
 additional input in your Axon graph. Every input layer present in
 the final Axon graph will be required to be passed as input at the
-time of model execution.</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1142591048-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1142591048-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1142591048-2">}</span><span class="p" data-group-id="1142591048-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1142591048-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1142591048-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1142591048-4">}</span><span class="p" data-group-id="1142591048-3">)</span><span class="w">
+time of model execution.</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0554663778-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0554663778-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0554663778-2">}</span><span class="p" data-group-id="0554663778-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0554663778-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0554663778-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0554663778-4">}</span><span class="p" data-group-id="0554663778-3">)</span><span class="w">
 
 </span><span class="c1"># Both inputs will be used</span><span class="w">
-</span><span class="n">model1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="1142591048-5">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="1142591048-5">)</span><span class="w">
+</span><span class="n">model1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="0554663778-5">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="0554663778-5">)</span><span class="w">
 
 </span><span class="c1"># Only inp2 will be used</span><span class="w">
-</span><span class="n">model2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="1142591048-6">(</span><span class="n">inp2</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="1142591048-6">)</span></code></pre><p>Axon graphs are immutable, which means composing and manipulating
+</span><span class="n">model2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="0554663778-6">(</span><span class="n">inp2</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="0554663778-6">)</span></code></pre><p>Axon graphs are immutable, which means composing and manipulating
 an Axon graph creates an entirely new graph. Additionally, layer
 names are lazily generated at model execution time. To avoid
 non-deterministic input orderings and names, Axon requires each
 input to have a unique binary identifier. You can then reference
-inputs by name when passing to models at execution time:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4191631057-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4191631057-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4191631057-2">}</span><span class="p" data-group-id="4191631057-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4191631057-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4191631057-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4191631057-4">}</span><span class="p" data-group-id="4191631057-3">)</span><span class="w">
+inputs by name when passing to models at execution time:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9320797007-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9320797007-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9320797007-2">}</span><span class="p" data-group-id="9320797007-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9320797007-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9320797007-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9320797007-4">}</span><span class="p" data-group-id="9320797007-3">)</span><span class="w">
 
-</span><span class="n">model1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="4191631057-5">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="4191631057-5">)</span><span class="w">
+</span><span class="n">model1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="9320797007-5">(</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="9320797007-5">)</span><span class="w">
 
-</span><span class="p" data-group-id="4191631057-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4191631057-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4191631057-7">(</span><span class="n">model1</span><span class="p" data-group-id="4191631057-7">)</span><span class="w">
+</span><span class="p" data-group-id="9320797007-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9320797007-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9320797007-7">(</span><span class="n">model1</span><span class="p" data-group-id="9320797007-7">)</span><span class="w">
 
-</span><span class="n">params1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4191631057-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4191631057-9">(</span><span class="p" data-group-id="4191631057-10">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4191631057-10">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4191631057-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4191631057-11">}</span><span class="p" data-group-id="4191631057-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4191631057-12">%{</span><span class="p" data-group-id="4191631057-12">}</span><span class="p" data-group-id="4191631057-8">)</span><span class="w">
+</span><span class="n">params1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9320797007-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="9320797007-9">(</span><span class="p" data-group-id="9320797007-10">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9320797007-10">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9320797007-11">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9320797007-11">}</span><span class="p" data-group-id="9320797007-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9320797007-12">%{</span><span class="p" data-group-id="9320797007-12">}</span><span class="p" data-group-id="9320797007-8">)</span><span class="w">
 </span><span class="c1"># Inputs are referenced by name</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4191631057-13">(</span><span class="n">params1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4191631057-14">%{</span><span class="s">&quot;input_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="4191631057-14">}</span><span class="p" data-group-id="4191631057-13">)</span></code></pre><h3 id="module-multiple-outputs" class="section-heading">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="9320797007-13">(</span><span class="n">params1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9320797007-14">%{</span><span class="s">&quot;input_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="9320797007-14">}</span><span class="p" data-group-id="9320797007-13">)</span></code></pre><h3 id="module-multiple-outputs" class="section-heading">
   <a href="#module-multiple-outputs" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -229,13 +229,13 @@ <h1>
 </h3>
 <p>Nx offers robust <a href="https://hexdocs.pm/nx/Nx.Container.html">container</a> support
 which is extended to Axon. Axon allows you to wrap any valid Nx container
-in a layer. Containers are most commonly used to structure outputs:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7659069684-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7659069684-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7659069684-2">}</span><span class="p" data-group-id="7659069684-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7659069684-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7659069684-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7659069684-4">}</span><span class="p" data-group-id="7659069684-3">)</span><span class="w">
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="7659069684-5">(</span><span class="p" data-group-id="7659069684-6">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="7659069684-6">}</span><span class="p" data-group-id="7659069684-5">)</span></code></pre><p>Containers can be arbitrarily nested:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9188293449-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9188293449-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9188293449-2">}</span><span class="p" data-group-id="9188293449-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9188293449-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9188293449-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9188293449-4">}</span><span class="p" data-group-id="9188293449-3">)</span><span class="w">
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="9188293449-5">(</span><span class="p" data-group-id="9188293449-6">{</span><span class="p" data-group-id="9188293449-7">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9188293449-8">{</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9188293449-9">%{</span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="9188293449-9">}</span><span class="p" data-group-id="9188293449-8">}</span><span class="p" data-group-id="9188293449-7">}</span><span class="p" data-group-id="9188293449-6">}</span><span class="p" data-group-id="9188293449-5">)</span></code></pre><p>You can even use custom structs which implement the container protocol:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4520999755-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4520999755-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4520999755-2">}</span><span class="p" data-group-id="4520999755-1">)</span><span class="w">
-</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4520999755-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4520999755-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4520999755-4">}</span><span class="p" data-group-id="4520999755-3">)</span><span class="w">
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="4520999755-5">(</span><span class="p" data-group-id="4520999755-6">%</span><span class="nc" data-group-id="4520999755-6">MyStruct</span><span class="p" data-group-id="4520999755-6">{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="4520999755-6">}</span><span class="p" data-group-id="4520999755-5">)</span></code></pre><h3 id="module-custom-layers" class="section-heading">
+in a layer. Containers are most commonly used to structure outputs:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9243956562-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9243956562-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9243956562-2">}</span><span class="p" data-group-id="9243956562-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9243956562-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9243956562-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9243956562-4">}</span><span class="p" data-group-id="9243956562-3">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="9243956562-5">(</span><span class="p" data-group-id="9243956562-6">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="9243956562-6">}</span><span class="p" data-group-id="9243956562-5">)</span></code></pre><p>Containers can be arbitrarily nested:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6212222384-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6212222384-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6212222384-2">}</span><span class="p" data-group-id="6212222384-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6212222384-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6212222384-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6212222384-4">}</span><span class="p" data-group-id="6212222384-3">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="6212222384-5">(</span><span class="p" data-group-id="6212222384-6">{</span><span class="p" data-group-id="6212222384-7">%{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6212222384-8">{</span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6212222384-9">%{</span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="6212222384-9">}</span><span class="p" data-group-id="6212222384-8">}</span><span class="p" data-group-id="6212222384-7">}</span><span class="p" data-group-id="6212222384-6">}</span><span class="p" data-group-id="6212222384-5">)</span></code></pre><p>You can even use custom structs which implement the container protocol:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3701776963-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3701776963-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3701776963-2">}</span><span class="p" data-group-id="3701776963-1">)</span><span class="w">
+</span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3701776963-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3701776963-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3701776963-4">}</span><span class="p" data-group-id="3701776963-3">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="3701776963-5">(</span><span class="p" data-group-id="3701776963-6">%</span><span class="nc" data-group-id="3701776963-6">MyStruct</span><span class="p" data-group-id="3701776963-6">{</span><span class="ss">foo</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">bar</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="3701776963-6">}</span><span class="p" data-group-id="3701776963-5">)</span></code></pre><h3 id="module-custom-layers" class="section-heading">
   <a href="#module-custom-layers" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -246,18 +246,18 @@ <h1>
 layers (aside from special ones such as <code class="inline">input</code>, <code class="inline">constant</code>, and <code class="inline">container</code>)
 make use of this same API.</p><p>Axon layers are really just placeholders for Nx computations with trainable
 parameters and possibly state. To define a custom layer, you just need to
-define a <code class="inline">defn</code> implementation:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="6426284019-1">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="6426284019-2">[</span><span class="p" data-group-id="6426284019-2">]</span><span class="p" data-group-id="6426284019-1">)</span><span class="w"> </span><span class="k" data-group-id="6426284019-3">do</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">atan2</span><span class="p" data-group-id="6426284019-4">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p" data-group-id="6426284019-4">)</span><span class="w">
-</span><span class="k" data-group-id="6426284019-3">end</span></code></pre><p>Notice the only stipulation is that your custom layer implementation must
+define a <code class="inline">defn</code> implementation:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="3961100069-1">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="3961100069-2">[</span><span class="p" data-group-id="3961100069-2">]</span><span class="p" data-group-id="3961100069-1">)</span><span class="w"> </span><span class="k" data-group-id="3961100069-3">do</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">atan2</span><span class="p" data-group-id="3961100069-4">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p" data-group-id="3961100069-4">)</span><span class="w">
+</span><span class="k" data-group-id="3961100069-3">end</span></code></pre><p>Notice the only stipulation is that your custom layer implementation must
 accept at least 1 input and a list of options. At execution time, every
 layer will be passed a <code class="inline">:mode</code> option which can be used to control behavior
 at training and inference time.</p><p>Inputs to your custom layer can be either Axon graph inputs or trainable
 parameters. You can pass Axon graph inputs as-is to a custom layer. To
-declare trainable parameters, use <a href="#param/3"><code class="inline">Axon.param/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">weight</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="8761844277-1">(</span><span class="s">&quot;weight&quot;</span><span class="p">,</span><span class="w"> </span><span class="n">param_shape</span><span class="p" data-group-id="8761844277-1">)</span></code></pre><p>To create a custom layer, you &quot;wrap&quot; your implementation and inputs into
-a layer using <code class="inline">Axon.layer</code>. You'll notice the API mirrors Elixir's <code class="inline">apply</code>:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">atan2_layer</span><span class="p" data-group-id="8482459457-1">(</span><span class="p" data-group-id="8482459457-2">%</span><span class="nc" data-group-id="8482459457-2">Axon</span><span class="p" data-group-id="8482459457-2">{</span><span class="p" data-group-id="8482459457-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8482459457-1">)</span><span class="w"> </span><span class="k" data-group-id="8482459457-3">do</span><span class="w">
-  </span><span class="n">weight</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="8482459457-4">(</span><span class="s">&quot;weight&quot;</span><span class="p">,</span><span class="w"> </span><span class="n">param_shape</span><span class="p" data-group-id="8482459457-4">)</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="8482459457-5">(</span><span class="o">&amp;</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8482459457-6">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p" data-group-id="8482459457-6">]</span><span class="p" data-group-id="8482459457-5">)</span><span class="w">
-</span><span class="k" data-group-id="8482459457-3">end</span></code></pre><h2 id="module-model-execution" class="section-heading">
+declare trainable parameters, use <a href="#param/3"><code class="inline">Axon.param/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">weight</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="4800444279-1">(</span><span class="s">&quot;weight&quot;</span><span class="p">,</span><span class="w"> </span><span class="n">param_shape</span><span class="p" data-group-id="4800444279-1">)</span></code></pre><p>To create a custom layer, you &quot;wrap&quot; your implementation and inputs into
+a layer using <code class="inline">Axon.layer</code>. You'll notice the API mirrors Elixir's <code class="inline">apply</code>:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">atan2_layer</span><span class="p" data-group-id="4513565345-1">(</span><span class="p" data-group-id="4513565345-2">%</span><span class="nc" data-group-id="4513565345-2">Axon</span><span class="p" data-group-id="4513565345-2">{</span><span class="p" data-group-id="4513565345-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="4513565345-1">)</span><span class="w"> </span><span class="k" data-group-id="4513565345-3">do</span><span class="w">
+  </span><span class="n">weight</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="4513565345-4">(</span><span class="s">&quot;weight&quot;</span><span class="p">,</span><span class="w"> </span><span class="n">param_shape</span><span class="p" data-group-id="4513565345-4">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="4513565345-5">(</span><span class="o">&amp;</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4513565345-6">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p" data-group-id="4513565345-6">]</span><span class="p" data-group-id="4513565345-5">)</span><span class="w">
+</span><span class="k" data-group-id="4513565345-3">end</span></code></pre><h2 id="module-model-execution" class="section-heading">
   <a href="#module-model-execution" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -266,16 +266,16 @@ <h1>
 <p>Under the hood, Axon models are represented as Elixir structs. You
 can initialize and apply models by building or compiling them with
 <a href="#build/2"><code class="inline">Axon.build/2</code></a> or <a href="#compile/4"><code class="inline">Axon.compile/4</code></a> and then calling the produced
-initialization and predict functions:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2543150241-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="2543150241-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="2543150241-2">(</span><span class="n">model</span><span class="p" data-group-id="2543150241-2">)</span><span class="w">
+initialization and predict functions:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5535447779-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5535447779-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5535447779-2">(</span><span class="n">model</span><span class="p" data-group-id="5535447779-2">)</span><span class="w">
 
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2543150241-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="2543150241-4">(</span><span class="p" data-group-id="2543150241-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2543150241-5">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2543150241-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2543150241-6">}</span><span class="p" data-group-id="2543150241-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2543150241-7">%{</span><span class="p" data-group-id="2543150241-7">}</span><span class="p" data-group-id="2543150241-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="2543150241-8">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="2543150241-8">)</span></code></pre><p>You may either set the default JIT compiler or backend globally, or
-pass a specific compiler to <a href="#build/2"><code class="inline">Axon.build/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">EXLA</span><span class="o">.</span><span class="n">set_as_nx_default</span><span class="p" data-group-id="1966407929-1">(</span><span class="p" data-group-id="1966407929-2">[</span><span class="ss">:tpu</span><span class="p">,</span><span class="w"> </span><span class="ss">:cuda</span><span class="p">,</span><span class="w"> </span><span class="ss">:rocm</span><span class="p">,</span><span class="w"> </span><span class="ss">:host</span><span class="p" data-group-id="1966407929-2">]</span><span class="p" data-group-id="1966407929-1">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5535447779-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5535447779-4">(</span><span class="p" data-group-id="5535447779-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5535447779-5">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5535447779-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5535447779-6">}</span><span class="p" data-group-id="5535447779-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5535447779-7">%{</span><span class="p" data-group-id="5535447779-7">}</span><span class="p" data-group-id="5535447779-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5535447779-8">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="5535447779-8">)</span></code></pre><p>You may either set the default JIT compiler or backend globally, or
+pass a specific compiler to <a href="#build/2"><code class="inline">Axon.build/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">EXLA</span><span class="o">.</span><span class="n">set_as_nx_default</span><span class="p" data-group-id="0220948315-1">(</span><span class="p" data-group-id="0220948315-2">[</span><span class="ss">:tpu</span><span class="p">,</span><span class="w"> </span><span class="ss">:cuda</span><span class="p">,</span><span class="w"> </span><span class="ss">:rocm</span><span class="p">,</span><span class="w"> </span><span class="ss">:host</span><span class="p" data-group-id="0220948315-2">]</span><span class="p" data-group-id="0220948315-1">)</span><span class="w">
 
-</span><span class="p" data-group-id="1966407929-3">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="1966407929-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="1966407929-4">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="1966407929-4">)</span><span class="w">
+</span><span class="p" data-group-id="0220948315-3">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0220948315-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0220948315-4">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="0220948315-4">)</span><span class="w">
 
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1966407929-5">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1966407929-6">(</span><span class="p" data-group-id="1966407929-7">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1966407929-7">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1966407929-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1966407929-8">}</span><span class="p" data-group-id="1966407929-6">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1966407929-9">%{</span><span class="p" data-group-id="1966407929-9">}</span><span class="p" data-group-id="1966407929-5">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="1966407929-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="1966407929-10">)</span></code></pre><p><code class="inline">predict_fn</code> by default runs in inference mode, which performs certain
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0220948315-5">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0220948315-6">(</span><span class="p" data-group-id="0220948315-7">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0220948315-7">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0220948315-8">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0220948315-8">}</span><span class="p" data-group-id="0220948315-6">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0220948315-9">%{</span><span class="p" data-group-id="0220948315-9">}</span><span class="p" data-group-id="0220948315-5">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0220948315-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="0220948315-10">)</span></code></pre><p><code class="inline">predict_fn</code> by default runs in inference mode, which performs certain
 optimizations and removes layers such as dropout layers. If constructing
 a training step using <a href="#predict/4"><code class="inline">Axon.predict/4</code></a> or <a href="#build/2"><code class="inline">Axon.build/2</code></a>, be sure to specify
 <code class="inline">mode: :train</code>.</p><h2 id="module-model-training" class="section-heading">
@@ -286,18 +286,18 @@ <h1>
 </h2>
 <p>Combining the Axon model creation API with the optimization and training
 APIs, you can create and train neural networks with ease:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2878402364-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2878402364-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="2878402364-2">}</span><span class="p" data-group-id="2878402364-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2878402364-3">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="2878402364-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer_norm</span><span class="p" data-group-id="2878402364-4">(</span><span class="p" data-group-id="2878402364-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="2878402364-5">(</span><span class="p" data-group-id="2878402364-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2878402364-6">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="2878402364-6">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5310852472-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5310852472-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="5310852472-2">}</span><span class="p" data-group-id="5310852472-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5310852472-3">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5310852472-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer_norm</span><span class="p" data-group-id="5310852472-4">(</span><span class="p" data-group-id="5310852472-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="5310852472-5">(</span><span class="p" data-group-id="5310852472-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5310852472-6">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="5310852472-6">)</span><span class="w">
 
 </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="w"> </span><span class="n">model</span><span class="w">
 
 </span><span class="n">model_state</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2878402364-7">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="2878402364-8">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.005</span><span class="p" data-group-id="2878402364-8">)</span><span class="p" data-group-id="2878402364-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2878402364-9">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2878402364-9">)</span></code></pre><p>See <a href="https://hexdocs.pm/polaris/0.1.0/Polaris.Updates.html"><code class="inline">Polaris.Updates</code></a> and <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> for a more in-depth treatment of
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5310852472-7">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="5310852472-8">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.005</span><span class="p" data-group-id="5310852472-8">)</span><span class="p" data-group-id="5310852472-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5310852472-9">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5310852472-9">)</span></code></pre><p>See <a href="https://hexdocs.pm/polaris/0.1.0/Polaris.Updates.html"><code class="inline">Polaris.Updates</code></a> and <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> for a more in-depth treatment of
 model optimization and model training.</p><h2 id="module-using-with-nx-serving" class="section-heading">
   <a href="#module-using-with-nx-serving" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -308,44 +308,44 @@ <h1>
 multiple prediction requests and run the inference for all of them at
 once. Conveniently, <a href="https://hexdocs.pm/nx/0.7.0/Nx.html"><code class="inline">Nx</code></a> already has an abstraction for this task in the
 form of <a href="https://hexdocs.pm/nx/0.7.0/Nx.Serving.html"><code class="inline">Nx.Serving</code></a>. Here's how you could define a serving for an <a href="Axon.html#content"><code class="inline">Axon</code></a>
-model:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">build_serving</span><span class="p" data-group-id="5468890557-1">(</span><span class="p" data-group-id="5468890557-1">)</span><span class="w"> </span><span class="k" data-group-id="5468890557-2">do</span><span class="w">
+model:</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">build_serving</span><span class="p" data-group-id="6552269316-1">(</span><span class="p" data-group-id="6552269316-1">)</span><span class="w"> </span><span class="k" data-group-id="6552269316-2">do</span><span class="w">
   </span><span class="c1"># Configuration</span><span class="w">
   </span><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">4</span><span class="w">
-  </span><span class="n">defn_options</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5468890557-3">[</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5468890557-3">]</span><span class="w">
+  </span><span class="n">defn_options</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6552269316-3">[</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6552269316-3">]</span><span class="w">
 
-  </span><span class="nc">Nx.Serving</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="5468890557-4">(</span><span class="w">
+  </span><span class="nc">Nx.Serving</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6552269316-4">(</span><span class="w">
     </span><span class="c1"># This function runs on the serving startup</span><span class="w">
-    </span><span class="k" data-group-id="5468890557-5">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="k" data-group-id="6552269316-5">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
       </span><span class="c1"># Build the Axon model and load params (usually from file)</span><span class="w">
-      </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">build_model</span><span class="p" data-group-id="5468890557-6">(</span><span class="p" data-group-id="5468890557-6">)</span><span class="w">
-      </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">load_params</span><span class="p" data-group-id="5468890557-7">(</span><span class="p" data-group-id="5468890557-7">)</span><span class="w">
+      </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">build_model</span><span class="p" data-group-id="6552269316-6">(</span><span class="p" data-group-id="6552269316-6">)</span><span class="w">
+      </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">load_params</span><span class="p" data-group-id="6552269316-7">(</span><span class="p" data-group-id="6552269316-7">)</span><span class="w">
 
       </span><span class="c1"># Build the prediction defn function</span><span class="w">
-      </span><span class="p" data-group-id="5468890557-8">{</span><span class="c">_init_fun</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fun</span><span class="p" data-group-id="5468890557-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5468890557-9">(</span><span class="n">model</span><span class="p" data-group-id="5468890557-9">)</span><span class="w">
+      </span><span class="p" data-group-id="6552269316-8">{</span><span class="c">_init_fun</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fun</span><span class="p" data-group-id="6552269316-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6552269316-9">(</span><span class="n">model</span><span class="p" data-group-id="6552269316-9">)</span><span class="w">
 
-      </span><span class="n">inputs_template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5468890557-10">%{</span><span class="s">&quot;pixel_values&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5468890557-11">(</span><span class="p" data-group-id="5468890557-12">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="5468890557-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5468890557-11">)</span><span class="p" data-group-id="5468890557-10">}</span><span class="w">
-      </span><span class="n">template_args</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5468890557-13">[</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_template</span><span class="p" data-group-id="5468890557-14">(</span><span class="n">params</span><span class="p" data-group-id="5468890557-14">)</span><span class="p">,</span><span class="w"> </span><span class="n">inputs_template</span><span class="p" data-group-id="5468890557-13">]</span><span class="w">
+      </span><span class="n">inputs_template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6552269316-10">%{</span><span class="s">&quot;pixel_values&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="6552269316-11">(</span><span class="p" data-group-id="6552269316-12">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6552269316-12">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6552269316-11">)</span><span class="p" data-group-id="6552269316-10">}</span><span class="w">
+      </span><span class="n">template_args</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6552269316-13">[</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_template</span><span class="p" data-group-id="6552269316-14">(</span><span class="n">params</span><span class="p" data-group-id="6552269316-14">)</span><span class="p">,</span><span class="w"> </span><span class="n">inputs_template</span><span class="p" data-group-id="6552269316-13">]</span><span class="w">
 
       </span><span class="c1"># Compile the prediction function upfront for the configured batch_size</span><span class="w">
-      </span><span class="n">predict_fun</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">compile</span><span class="p" data-group-id="5468890557-15">(</span><span class="n">predict_fun</span><span class="p">,</span><span class="w"> </span><span class="n">template_args</span><span class="p">,</span><span class="w"> </span><span class="n">defn_options</span><span class="p" data-group-id="5468890557-15">)</span><span class="w">
+      </span><span class="n">predict_fun</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">compile</span><span class="p" data-group-id="6552269316-15">(</span><span class="n">predict_fun</span><span class="p">,</span><span class="w"> </span><span class="n">template_args</span><span class="p">,</span><span class="w"> </span><span class="n">defn_options</span><span class="p" data-group-id="6552269316-15">)</span><span class="w">
 
       </span><span class="c1"># The returned function is called for every accumulated batch</span><span class="w">
-      </span><span class="k" data-group-id="5468890557-16">fn</span><span class="w"> </span><span class="n">inputs</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-        </span><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Batch</span><span class="o">.</span><span class="n">pad</span><span class="p" data-group-id="5468890557-17">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">inputs</span><span class="o">.</span><span class="n">size</span><span class="p" data-group-id="5468890557-17">)</span><span class="w">
-        </span><span class="n">predict_fun</span><span class="o">.</span><span class="p" data-group-id="5468890557-18">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="5468890557-18">)</span><span class="w">
-      </span><span class="k" data-group-id="5468890557-16">end</span><span class="w">
-    </span><span class="k" data-group-id="5468890557-5">end</span><span class="p">,</span><span class="w">
+      </span><span class="k" data-group-id="6552269316-16">fn</span><span class="w"> </span><span class="n">inputs</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+        </span><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Batch</span><span class="o">.</span><span class="n">pad</span><span class="p" data-group-id="6552269316-17">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">inputs</span><span class="o">.</span><span class="n">size</span><span class="p" data-group-id="6552269316-17">)</span><span class="w">
+        </span><span class="n">predict_fun</span><span class="o">.</span><span class="p" data-group-id="6552269316-18">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="6552269316-18">)</span><span class="w">
+      </span><span class="k" data-group-id="6552269316-16">end</span><span class="w">
+    </span><span class="k" data-group-id="6552269316-5">end</span><span class="p">,</span><span class="w">
     </span><span class="ss">batch_size</span><span class="p">:</span><span class="w"> </span><span class="n">batch_size</span><span class="w">
-  </span><span class="p" data-group-id="5468890557-4">)</span><span class="w">
-</span><span class="k" data-group-id="5468890557-2">end</span></code></pre><p>Then you would start the serving server as part of your application's
-supervision tree:</p><pre><code class="makeup elixir" translate="no"><span class="n">children</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="7621203944-1">[</span><span class="w">
+  </span><span class="p" data-group-id="6552269316-4">)</span><span class="w">
+</span><span class="k" data-group-id="6552269316-2">end</span></code></pre><p>Then you would start the serving server as part of your application's
+supervision tree:</p><pre><code class="makeup elixir" translate="no"><span class="n">children</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="3692523305-1">[</span><span class="w">
   </span><span class="n">...</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7621203944-2">{</span><span class="nc">Nx.Serving</span><span class="p">,</span><span class="w"> </span><span class="ss">serving</span><span class="p">:</span><span class="w"> </span><span class="n">build_serving</span><span class="p" data-group-id="7621203944-3">(</span><span class="p" data-group-id="7621203944-3">)</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="nc">MyApp.Serving</span><span class="p">,</span><span class="w"> </span><span class="ss">batch_timeout</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="7621203944-2">}</span><span class="w">
-</span><span class="p" data-group-id="7621203944-1">]</span></code></pre><p>With that in place, you can now ask serving for predictions all across
+  </span><span class="p" data-group-id="3692523305-2">{</span><span class="nc">Nx.Serving</span><span class="p">,</span><span class="w"> </span><span class="ss">serving</span><span class="p">:</span><span class="w"> </span><span class="n">build_serving</span><span class="p" data-group-id="3692523305-3">(</span><span class="p" data-group-id="3692523305-3">)</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="nc">MyApp.Serving</span><span class="p">,</span><span class="w"> </span><span class="ss">batch_timeout</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="3692523305-2">}</span><span class="w">
+</span><span class="p" data-group-id="3692523305-1">]</span></code></pre><p>With that in place, you can now ask serving for predictions all across
 your application (controllers, live views, async jobs, etc.). Having a
-tensor input you would do:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="3387298270-1">%{</span><span class="s">&quot;pixel_values&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="3387298270-1">}</span><span class="w">
-</span><span class="n">batch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Batch</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="3387298270-2">(</span><span class="p" data-group-id="3387298270-3">[</span><span class="n">inputs</span><span class="p" data-group-id="3387298270-3">]</span><span class="p" data-group-id="3387298270-2">)</span><span class="w">
-</span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Serving</span><span class="o">.</span><span class="n">batched_run</span><span class="p" data-group-id="3387298270-4">(</span><span class="nc">MyApp.Serving</span><span class="p">,</span><span class="w"> </span><span class="n">batch</span><span class="p" data-group-id="3387298270-4">)</span></code></pre><p>Usually you also want to do pre/post-processing of the model input/output.
+tensor input you would do:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6342086613-1">%{</span><span class="s">&quot;pixel_values&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6342086613-1">}</span><span class="w">
+</span><span class="n">batch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Batch</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="6342086613-2">(</span><span class="p" data-group-id="6342086613-3">[</span><span class="n">inputs</span><span class="p" data-group-id="6342086613-3">]</span><span class="p" data-group-id="6342086613-2">)</span><span class="w">
+</span><span class="n">result</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Serving</span><span class="o">.</span><span class="n">batched_run</span><span class="p" data-group-id="6342086613-4">(</span><span class="nc">MyApp.Serving</span><span class="p">,</span><span class="w"> </span><span class="n">batch</span><span class="p" data-group-id="6342086613-4">)</span></code></pre><p>Usually you also want to do pre/post-processing of the model input/output.
 You could make those preparations directly before/after <a href="https://hexdocs.pm/nx/0.7.0/Nx.Serving.html#batched_run/2"><code class="inline">Nx.Serving.batched_run/2</code></a>,
 however you can also make use of <a href="https://hexdocs.pm/nx/0.7.0/Nx.Serving.html#client_preprocessing/2"><code class="inline">Nx.Serving.client_preprocessing/2</code></a> and
 <a href="https://hexdocs.pm/nx/0.7.0/Nx.Serving.html#client_postprocessing/2"><code class="inline">Nx.Serving.client_postprocessing/2</code></a> to encapsulate that logic as part of
@@ -417,16 +417,6 @@ <h2>
 
     </div>
 
-    <div class="summary-row">
-      <div class="summary-signature">
-        <a href="#namespace/2" translate="no">namespace(axon, name)</a>
-
-      </div>
-
-        <div class="summary-synopsis"><p>Wraps an Axon model into a namespace.</p></div>
-
-    </div>
-
     <div class="summary-row">
       <div class="summary-signature">
         <a href="#nx/3" translate="no">nx(input, fun, opts \\ [])</a>
@@ -1258,21 +1248,12 @@ <h2>
 
     </div>
 
-    <div class="summary-row">
-      <div class="summary-signature">
-        <a href="#deserialize/2" translate="no">deserialize(serialized, opts \\ [])</a>
-
-      </div>
-
-        <div class="summary-synopsis"><p>Deserializes serialized model and parameters into a <code class="inline">{model, params}</code>
-tuple.</p></div>
-
-    </div>
-
     <div class="summary-row">
       <div class="summary-signature">
         <a href="#freeze/2" translate="no">freeze(model, fun_or_predicate \\ :all)</a>
 
+          <span class="deprecated" title="Use Axon.ModelState.freeze/2 instead">deprecated</span>
+
       </div>
 
         <div class="summary-synopsis"><p>Freezes parameters returned from the given function or predicate.</p></div>
@@ -1289,21 +1270,12 @@ <h2>
 
     </div>
 
-    <div class="summary-row">
-      <div class="summary-signature">
-        <a href="#serialize/3" translate="no">serialize(axon, params, opts \\ [])</a>
-
-      </div>
-
-        <div class="summary-synopsis"><p>Serializes a model and its parameters for persisting
-models to disk or elsewhere.</p></div>
-
-    </div>
-
     <div class="summary-row">
       <div class="summary-signature">
         <a href="#unfreeze/2" translate="no">unfreeze(model, fun_or_predicate \\ :all)</a>
 
+          <span class="deprecated" title="Use Axon.ModelState.freeze/2 instead">deprecated</span>
+
       </div>
 
         <div class="summary-synopsis"><p>Unfreezes parameters returned from the given function or predicate.</p></div>
@@ -1538,7 +1510,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">block(fun, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L755" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L718" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1552,28 +1524,28 @@ <h1 class="signature" translate="no">block(fun, opts \\ [])</h1>
 of operations in a neural network. All parameters in the block are
 shared between every usage of the block.</p><p>This returns an arity-1 function which accepts a list of inputs which
 are forwarded to <code class="inline">fun</code>. This is most often used in situations where
-you wish to re-use parameters in a block:</p><pre><code class="makeup elixir" translate="no"><span class="n">reused_dense</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">block</span><span class="p" data-group-id="6136450939-1">(</span><span class="o">&amp;</span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6136450939-2">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6136450939-2">)</span><span class="p" data-group-id="6136450939-1">)</span></code></pre><p>Everytime <code class="inline">reused_dense</code> is invoked, it re-uses the same parameters:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8367956605-1">(</span><span class="s">&quot;features&quot;</span><span class="p" data-group-id="8367956605-1">)</span><span class="w">
+you wish to re-use parameters in a block:</p><pre><code class="makeup elixir" translate="no"><span class="n">reused_dense</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">block</span><span class="p" data-group-id="9138063473-1">(</span><span class="o">&amp;</span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9138063473-2">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="9138063473-2">)</span><span class="p" data-group-id="9138063473-1">)</span></code></pre><p>Everytime <code class="inline">reused_dense</code> is invoked, it re-uses the same parameters:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6850791824-1">(</span><span class="s">&quot;features&quot;</span><span class="p" data-group-id="6850791824-1">)</span><span class="w">
 </span><span class="c1"># unique parameters</span><span class="w">
-</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8367956605-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="8367956605-2">)</span><span class="w">
+</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6850791824-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6850791824-2">)</span><span class="w">
 </span><span class="c1"># unique parameters</span><span class="w">
-</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">reused_dense</span><span class="o">.</span><span class="p" data-group-id="8367956605-3">(</span><span class="n">x1</span><span class="p" data-group-id="8367956605-3">)</span><span class="w">
+</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">reused_dense</span><span class="o">.</span><span class="p" data-group-id="6850791824-3">(</span><span class="n">x1</span><span class="p" data-group-id="6850791824-3">)</span><span class="w">
 </span><span class="c1"># parameters shared</span><span class="w">
-</span><span class="n">x3</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">reused_dense</span><span class="o">.</span><span class="p" data-group-id="8367956605-4">(</span><span class="n">x2</span><span class="p" data-group-id="8367956605-4">)</span></code></pre><p>Subgraphs in blocks can be arbitrarily complex:</p><pre><code class="makeup elixir" translate="no"><span class="n">reused_block</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">block</span><span class="p" data-group-id="3046173021-1">(</span><span class="k" data-group-id="3046173021-2">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="n">x3</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">reused_dense</span><span class="o">.</span><span class="p" data-group-id="6850791824-4">(</span><span class="n">x2</span><span class="p" data-group-id="6850791824-4">)</span></code></pre><p>Subgraphs in blocks can be arbitrarily complex:</p><pre><code class="makeup elixir" translate="no"><span class="n">reused_block</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">block</span><span class="p" data-group-id="9892167443-1">(</span><span class="k" data-group-id="9892167443-2">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">x</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3046173021-3">(</span><span class="mi">32</span><span class="p" data-group-id="3046173021-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3046173021-4">(</span><span class="mi">64</span><span class="p" data-group-id="3046173021-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3046173021-5">(</span><span class="mi">32</span><span class="p" data-group-id="3046173021-5">)</span><span class="w">
-</span><span class="k" data-group-id="3046173021-2">end</span><span class="p" data-group-id="3046173021-1">)</span></code></pre><p>Blocks can also have multiple inputs, you can invoke a block with multiple
-inputs by passing a list of arguments:</p><pre><code class="makeup elixir" translate="no"><span class="n">reused_block</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">block</span><span class="p" data-group-id="4611982904-1">(</span><span class="k" data-group-id="4611982904-2">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">x</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4611982904-3">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4611982904-3">)</span><span class="w">
-  </span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4611982904-4">(</span><span class="n">y</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4611982904-4">)</span><span class="w">
-  </span><span class="n">z</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4611982904-5">(</span><span class="n">z</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="4611982904-5">)</span><span class="w">
-
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="4611982904-6">(</span><span class="p" data-group-id="4611982904-7">[</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="p" data-group-id="4611982904-7">]</span><span class="p" data-group-id="4611982904-6">)</span><span class="w">
-</span><span class="k" data-group-id="4611982904-2">end</span><span class="p" data-group-id="4611982904-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9892167443-3">(</span><span class="mi">32</span><span class="p" data-group-id="9892167443-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9892167443-4">(</span><span class="mi">64</span><span class="p" data-group-id="9892167443-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9892167443-5">(</span><span class="mi">32</span><span class="p" data-group-id="9892167443-5">)</span><span class="w">
+</span><span class="k" data-group-id="9892167443-2">end</span><span class="p" data-group-id="9892167443-1">)</span></code></pre><p>Blocks can also have multiple inputs, you can invoke a block with multiple
+inputs by passing a list of arguments:</p><pre><code class="makeup elixir" translate="no"><span class="n">reused_block</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">block</span><span class="p" data-group-id="0267254603-1">(</span><span class="k" data-group-id="0267254603-2">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">x</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0267254603-3">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0267254603-3">)</span><span class="w">
+  </span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0267254603-4">(</span><span class="n">y</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0267254603-4">)</span><span class="w">
+  </span><span class="n">z</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0267254603-5">(</span><span class="n">z</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="0267254603-5">)</span><span class="w">
+
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="0267254603-6">(</span><span class="p" data-group-id="0267254603-7">[</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="p" data-group-id="0267254603-7">]</span><span class="p" data-group-id="0267254603-6">)</span><span class="w">
+</span><span class="k" data-group-id="0267254603-2">end</span><span class="p" data-group-id="0267254603-1">)</span><span class="w">
 
 </span><span class="c1"># invoke with a list</span><span class="w">
-</span><span class="n">reused_block</span><span class="o">.</span><span class="p" data-group-id="4611982904-8">(</span><span class="p" data-group-id="4611982904-9">[</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="p" data-group-id="4611982904-9">]</span><span class="p" data-group-id="4611982904-8">)</span></code></pre><p>Blocks prefix subgraph parameters with their name and a dot. As with other
+</span><span class="n">reused_block</span><span class="o">.</span><span class="p" data-group-id="0267254603-8">(</span><span class="p" data-group-id="0267254603-9">[</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p">,</span><span class="w"> </span><span class="n">z</span><span class="p" data-group-id="0267254603-9">]</span><span class="p" data-group-id="0267254603-8">)</span></code></pre><p>Blocks prefix subgraph parameters with their name and a dot. As with other
 Axon layers, if a name is not explicitly provided, one will be dynamically
 generated.</p>
   </section>
@@ -1589,7 +1561,7 @@ <h1 class="signature" translate="no">block(fun, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">constant(tensor, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L548" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L547" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1601,9 +1573,9 @@ <h1 class="signature" translate="no">constant(tensor, opts \\ [])</h1>
 
 <p>Adds a constant layer to the network.</p><p>Constant layers encapsulate Nx tensors in an Axon layer for ease
 of use with other Axon layers. They can be used interchangeably
-with other Axon layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6901439179-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6901439179-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6901439179-2">}</span><span class="p" data-group-id="6901439179-1">)</span><span class="w">
-</span><span class="n">my_constant</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">constant</span><span class="p" data-group-id="6901439179-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6901439179-4">(</span><span class="p" data-group-id="6901439179-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6901439179-5">}</span><span class="p" data-group-id="6901439179-4">)</span><span class="p" data-group-id="6901439179-3">)</span><span class="w">
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6901439179-6">(</span><span class="n">inp</span><span class="p">,</span><span class="w"> </span><span class="n">my_constant</span><span class="p" data-group-id="6901439179-6">)</span></code></pre><p>Constant layers will be cast according to the mixed precision policy.
+with other Axon layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5948757983-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5948757983-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5948757983-2">}</span><span class="p" data-group-id="5948757983-1">)</span><span class="w">
+</span><span class="n">my_constant</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">constant</span><span class="p" data-group-id="5948757983-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5948757983-4">(</span><span class="p" data-group-id="5948757983-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="5948757983-5">}</span><span class="p" data-group-id="5948757983-4">)</span><span class="p" data-group-id="5948757983-3">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5948757983-6">(</span><span class="n">inp</span><span class="p">,</span><span class="w"> </span><span class="n">my_constant</span><span class="p" data-group-id="5948757983-6">)</span></code></pre><p>Constant layers will be cast according to the mixed precision policy.
 If it's important for your constant to retain it's type during
 the computation, you will need to set the mixed precision policy to
 ignore constant layers.</p><h2 id="constant/2-options" class="section-heading">
@@ -1626,7 +1598,7 @@ <h1 class="signature" translate="no">constant(tensor, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">container(container, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L610" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L609" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1651,27 +1623,27 @@ <h1 class="signature" translate="no">container(container, opts \\ [])</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7576542777-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7576542777-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7576542777-2">}</span><span class="p" data-group-id="7576542777-1">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7576542777-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7576542777-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7576542777-4">}</span><span class="p" data-group-id="7576542777-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="7576542777-5">(</span><span class="p" data-group-id="7576542777-6">%{</span><span class="ss">a</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">b</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="7576542777-6">}</span><span class="p" data-group-id="7576542777-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="7576542777-7">%{</span><span class="ss">a</span><span class="p">:</span><span class="w"> </span><span class="n">a</span><span class="p">,</span><span class="w"> </span><span class="ss">b</span><span class="p">:</span><span class="w"> </span><span class="n">b</span><span class="p" data-group-id="7576542777-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="7576542777-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7576542777-9">%{</span><span class="p" data-group-id="7576542777-9">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7576542777-10">%{</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w">   </span><span class="s">&quot;input_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7576542777-11">(</span><span class="p" data-group-id="7576542777-12">[</span><span class="p" data-group-id="7576542777-13">[</span><span class="mf">1.0</span><span class="p" data-group-id="7576542777-13">]</span><span class="p" data-group-id="7576542777-12">]</span><span class="p" data-group-id="7576542777-11">)</span><span class="p">,</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="w">   </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7576542777-14">(</span><span class="p" data-group-id="7576542777-15">[</span><span class="p" data-group-id="7576542777-16">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="7576542777-16">]</span><span class="p" data-group-id="7576542777-15">]</span><span class="p" data-group-id="7576542777-14">)</span><span class="w">
-</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="7576542777-10">}</span><span class="p" data-group-id="7576542777-8">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">inp1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7703490074-1">(</span><span class="s">&quot;input_0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7703490074-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7703490074-2">}</span><span class="p" data-group-id="7703490074-1">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">inp2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7703490074-3">(</span><span class="s">&quot;input_1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7703490074-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7703490074-4">}</span><span class="p" data-group-id="7703490074-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="7703490074-5">(</span><span class="p" data-group-id="7703490074-6">%{</span><span class="ss">a</span><span class="p">:</span><span class="w"> </span><span class="n">inp1</span><span class="p">,</span><span class="w"> </span><span class="ss">b</span><span class="p">:</span><span class="w"> </span><span class="n">inp2</span><span class="p" data-group-id="7703490074-6">}</span><span class="p" data-group-id="7703490074-5">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="7703490074-7">%{</span><span class="ss">a</span><span class="p">:</span><span class="w"> </span><span class="n">a</span><span class="p">,</span><span class="w"> </span><span class="ss">b</span><span class="p">:</span><span class="w"> </span><span class="n">b</span><span class="p" data-group-id="7703490074-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="7703490074-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon.ModelState</span><span class="o">.</span><span class="n">empty</span><span class="p" data-group-id="7703490074-9">(</span><span class="p" data-group-id="7703490074-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7703490074-10">%{</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w">   </span><span class="s">&quot;input_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7703490074-11">(</span><span class="p" data-group-id="7703490074-12">[</span><span class="p" data-group-id="7703490074-13">[</span><span class="mf">1.0</span><span class="p" data-group-id="7703490074-13">]</span><span class="p" data-group-id="7703490074-12">]</span><span class="p" data-group-id="7703490074-11">)</span><span class="p">,</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="w">   </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7703490074-14">(</span><span class="p" data-group-id="7703490074-15">[</span><span class="p" data-group-id="7703490074-16">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="7703490074-16">]</span><span class="p" data-group-id="7703490074-15">]</span><span class="p" data-group-id="7703490074-14">)</span><span class="w">
+</span><span class="gp unselectable">...&gt; </span><span class="p" data-group-id="7703490074-10">}</span><span class="p" data-group-id="7703490074-8">)</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">a</span><span class="w">
-</span><span class="p" data-group-id="7576542777-17">#</span><span class="nc" data-group-id="7576542777-17">Nx.Tensor</span><span class="p" data-group-id="7576542777-17">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7576542777-18">[</span><span class="mi">1</span><span class="p" data-group-id="7576542777-18">]</span><span class="p" data-group-id="7576542777-19">[</span><span class="mi">1</span><span class="p" data-group-id="7576542777-19">]</span><span class="w">
-  </span><span class="p" data-group-id="7576542777-20">[</span><span class="w">
-    </span><span class="p" data-group-id="7576542777-21">[</span><span class="mf">1.0</span><span class="p" data-group-id="7576542777-21">]</span><span class="w">
-  </span><span class="p" data-group-id="7576542777-20">]</span><span class="w">
-</span><span class="p" data-group-id="7576542777-17">&gt;</span><span class="w">
+</span><span class="p" data-group-id="7703490074-17">#</span><span class="nc" data-group-id="7703490074-17">Nx.Tensor</span><span class="p" data-group-id="7703490074-17">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7703490074-18">[</span><span class="mi">1</span><span class="p" data-group-id="7703490074-18">]</span><span class="p" data-group-id="7703490074-19">[</span><span class="mi">1</span><span class="p" data-group-id="7703490074-19">]</span><span class="w">
+  </span><span class="p" data-group-id="7703490074-20">[</span><span class="w">
+    </span><span class="p" data-group-id="7703490074-21">[</span><span class="mf">1.0</span><span class="p" data-group-id="7703490074-21">]</span><span class="w">
+  </span><span class="p" data-group-id="7703490074-20">]</span><span class="w">
+</span><span class="p" data-group-id="7703490074-17">&gt;</span><span class="w">
 </span><span class="gp unselectable">iex&gt; </span><span class="n">b</span><span class="w">
-</span><span class="p" data-group-id="7576542777-22">#</span><span class="nc" data-group-id="7576542777-22">Nx.Tensor</span><span class="p" data-group-id="7576542777-22">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7576542777-23">[</span><span class="mi">1</span><span class="p" data-group-id="7576542777-23">]</span><span class="p" data-group-id="7576542777-24">[</span><span class="mi">2</span><span class="p" data-group-id="7576542777-24">]</span><span class="w">
-  </span><span class="p" data-group-id="7576542777-25">[</span><span class="w">
-    </span><span class="p" data-group-id="7576542777-26">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="7576542777-26">]</span><span class="w">
-  </span><span class="p" data-group-id="7576542777-25">]</span><span class="w">
-</span><span class="p" data-group-id="7576542777-22">&gt;</span></code></pre>
+</span><span class="p" data-group-id="7703490074-22">#</span><span class="nc" data-group-id="7703490074-22">Nx.Tensor</span><span class="p" data-group-id="7703490074-22">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7703490074-23">[</span><span class="mi">1</span><span class="p" data-group-id="7703490074-23">]</span><span class="p" data-group-id="7703490074-24">[</span><span class="mi">2</span><span class="p" data-group-id="7703490074-24">]</span><span class="w">
+  </span><span class="p" data-group-id="7703490074-25">[</span><span class="w">
+    </span><span class="p" data-group-id="7703490074-26">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p" data-group-id="7703490074-26">]</span><span class="w">
+  </span><span class="p" data-group-id="7703490074-25">]</span><span class="w">
+</span><span class="p" data-group-id="7703490074-22">&gt;</span></code></pre>
   </section>
 </section>
 <section class="detail" id="input/2">
@@ -1685,7 +1657,7 @@ <h1 class="signature" translate="no">container(container, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">input(name, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L461" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L460" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1720,7 +1692,7 @@ <h1 class="signature" translate="no">input(name, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">layer(op, inputs, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L330" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L327" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1739,49 +1711,9 @@ <h1 class="signature" translate="no">layer(op, inputs, opts \\ [])</h1>
 the layer, as long as they are declared</p></li></ul><p>Note this means your layer should not use these as input options,
 as they will always be dropped during inference compilation.</p><p>Axon's compiler will additionally forward the following options to
 every layer at inference time:</p><ul><li><code class="inline">:mode</code> - <code class="inline">:inference</code> or <code class="inline">:train</code>. To control layer behavior
-based on inference or train time.</li></ul><p><code class="inline">op</code> is a function of the form:</p><pre><code class="makeup elixir" translate="no"><span class="n">fun</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2291651081-1">fn</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+based on inference or train time.</li></ul><p><code class="inline">op</code> is a function of the form:</p><pre><code class="makeup elixir" translate="no"><span class="n">fun</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="1233299325-1">fn</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">weight</span><span class="p">,</span><span class="w"> </span><span class="n">bias</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">input</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">weight</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="w">
-</span><span class="k" data-group-id="2291651081-1">end</span></code></pre>
-  </section>
-</section>
-<section class="detail" id="namespace/2">
-
-  <div class="detail-header">
-    <a href="#namespace/2" class="detail-link" title="Link to this function">
-      <i class="ri-link-m" aria-hidden="true"></i>
-      <span class="sr-only">Link to this function</span>
-    </a>
-    <h1 class="signature" translate="no">namespace(axon, name)</h1>
-
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L702" class="icon-action" rel="help" title="View Source">
-       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
-       <span class="sr-only">View Source</span>
-     </a>
-
-
-  </div>
-
-  <section class="docstring">
-
-<p>Wraps an Axon model into a namespace.</p><p>A namespace is a part of an Axon model which is meant to
-be a self-contained collection of Axon layers. Namespaces
-are guaranteed to always generate with the same internal
-layer names and can be re-used universally across models.</p><p>Namespaces are most useful for containing large collections
-of layers and offering a straightforward means for accessing
-the parameters of individual model components. A common application
-of namespaces is to use them in with a pre-trained model for
-fine-tuning:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6873933875-1">{</span><span class="n">base</span><span class="p">,</span><span class="w"> </span><span class="n">resnet_params</span><span class="p" data-group-id="6873933875-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">resnet</span><span class="p" data-group-id="6873933875-2">(</span><span class="p" data-group-id="6873933875-2">)</span><span class="w">
-</span><span class="n">base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">base</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">namespace</span><span class="p" data-group-id="6873933875-3">(</span><span class="s">&quot;resnet&quot;</span><span class="p" data-group-id="6873933875-3">)</span><span class="w">
-
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">base</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6873933875-4">(</span><span class="mi">1</span><span class="p" data-group-id="6873933875-4">)</span><span class="w">
-</span><span class="p" data-group-id="6873933875-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6873933875-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6873933875-6">(</span><span class="n">model</span><span class="p" data-group-id="6873933875-6">)</span><span class="w">
-
-</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6873933875-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="6873933875-8">(</span><span class="p" data-group-id="6873933875-9">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="6873933875-9">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6873933875-10">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="6873933875-10">}</span><span class="p" data-group-id="6873933875-8">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6873933875-11">%{</span><span class="s">&quot;resnset&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">resnet_params</span><span class="p" data-group-id="6873933875-11">}</span><span class="p" data-group-id="6873933875-7">)</span></code></pre><p>Notice you can use <code class="inline">init_fn</code> in conjunction with namespaces
-to specify which portion of a model you'd like to initialize
-from a fixed starting point.</p><p>Namespaces have fixed names, which means it's easy to run into namespace
-collisions. Re-using namespaces, re-using inner parts of a namespace,
-and attempting to share layers between namespaces are still sharp
-edges in namespace usage.</p>
+</span><span class="k" data-group-id="1233299325-1">end</span></code></pre>
   </section>
 </section>
 <section class="detail" id="nx/3">
@@ -1795,7 +1727,7 @@ <h1 class="signature" translate="no">namespace(axon, name)</h1>
     </a>
     <h1 class="signature" translate="no">nx(input, fun, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2007" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1971" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1807,8 +1739,8 @@ <h1 class="signature" translate="no">nx(input, fun, opts \\ [])</h1>
 
 <p>Applies the given <a href="https://hexdocs.pm/nx/0.7.0/Nx.html"><code class="inline">Nx</code></a> expression to the input.</p><p>Nx layers are meant for quick applications of functions without
 trainable parameters. For example, they are useful for applying
-functions which apply accessors to containers:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="9141568627-1">(</span><span class="p" data-group-id="9141568627-2">{</span><span class="n">foo</span><span class="p">,</span><span class="w"> </span><span class="n">bar</span><span class="p" data-group-id="9141568627-2">}</span><span class="p" data-group-id="9141568627-1">)</span><span class="w">
-</span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="9141568627-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">elem</span><span class="p" data-group-id="9141568627-4">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9141568627-4">)</span><span class="p" data-group-id="9141568627-3">)</span></code></pre><h2 id="nx/3-options" class="section-heading">
+functions which apply accessors to containers:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0003324765-1">(</span><span class="p" data-group-id="0003324765-2">{</span><span class="n">foo</span><span class="p">,</span><span class="w"> </span><span class="n">bar</span><span class="p" data-group-id="0003324765-2">}</span><span class="p" data-group-id="0003324765-1">)</span><span class="w">
+</span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="0003324765-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">elem</span><span class="p" data-group-id="0003324765-4">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="0003324765-4">)</span><span class="p" data-group-id="0003324765-3">)</span></code></pre><h2 id="nx/3-options" class="section-heading">
   <a href="#nx/3-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -1828,7 +1760,7 @@ <h1 class="signature" translate="no">nx(input, fun, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">optional(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L522" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L521" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1839,38 +1771,38 @@ <h1 class="signature" translate="no">optional(x, opts \\ [])</h1>
   <section class="docstring">
 
 <p>Wraps an Axon model in an optional node.</p><p>By default, when an optional input is missing, all subsequent layers
-are nullified. For example, consider this model:</p><pre><code class="makeup elixir" translate="no"><span class="n">values</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7840850103-1">(</span><span class="s">&quot;values&quot;</span><span class="p" data-group-id="7840850103-1">)</span><span class="w">
-</span><span class="n">mask</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7840850103-2">(</span><span class="s">&quot;mask&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">optional</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7840850103-2">)</span><span class="w">
+are nullified. For example, consider this model:</p><pre><code class="makeup elixir" translate="no"><span class="n">values</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2569997758-1">(</span><span class="s">&quot;values&quot;</span><span class="p" data-group-id="2569997758-1">)</span><span class="w">
+</span><span class="n">mask</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2569997758-2">(</span><span class="s">&quot;mask&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">optional</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2569997758-2">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">values</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7840850103-3">(</span><span class="mi">10</span><span class="p" data-group-id="7840850103-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="7840850103-4">(</span><span class="n">mask</span><span class="p" data-group-id="7840850103-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7840850103-5">(</span><span class="mi">1</span><span class="p" data-group-id="7840850103-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="7840850103-6">(</span><span class="p" data-group-id="7840850103-6">)</span></code></pre><p>In case the mask is not provided, the input node will resolve to
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2569997758-3">(</span><span class="mi">10</span><span class="p" data-group-id="2569997758-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="2569997758-4">(</span><span class="n">mask</span><span class="p" data-group-id="2569997758-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2569997758-5">(</span><span class="mi">1</span><span class="p" data-group-id="2569997758-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="2569997758-6">(</span><span class="p" data-group-id="2569997758-6">)</span></code></pre><p>In case the mask is not provided, the input node will resolve to
 <code class="inline">%Axon.None{}</code> and so will all the layers that depend on it. By
 using <a href="#optional/2"><code class="inline">optional/2</code></a> a layer may opt-in to receive <code class="inline">%Axon.None{}</code>.
 To fix our example, we could define a custom layer to apply the
-mask only when present</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">apply_optional_mask</span><span class="p" data-group-id="1365016468-1">(</span><span class="p" data-group-id="1365016468-2">%</span><span class="nc" data-group-id="1365016468-2">Axon</span><span class="p" data-group-id="1365016468-2">{</span><span class="p" data-group-id="1365016468-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1365016468-3">%</span><span class="nc" data-group-id="1365016468-3">Axon</span><span class="p" data-group-id="1365016468-3">{</span><span class="p" data-group-id="1365016468-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mask</span><span class="p" data-group-id="1365016468-1">)</span><span class="w"> </span><span class="k" data-group-id="1365016468-4">do</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="1365016468-5">(</span><span class="w">
-    </span><span class="k" data-group-id="1365016468-6">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">mask</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="k">case</span><span class="w"> </span><span class="n">mask</span><span class="w"> </span><span class="k" data-group-id="1365016468-7">do</span><span class="w">
-        </span><span class="p" data-group-id="1365016468-8">%</span><span class="nc" data-group-id="1365016468-8">Axon.None</span><span class="p" data-group-id="1365016468-8">{</span><span class="p" data-group-id="1365016468-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="w">
-        </span><span class="n">mask</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="1365016468-9">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">mask</span><span class="p" data-group-id="1365016468-9">)</span><span class="w">
-      </span><span class="k" data-group-id="1365016468-7">end</span><span class="w">
-    </span><span class="k" data-group-id="1365016468-6">end</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1365016468-10">[</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">optional</span><span class="p" data-group-id="1365016468-11">(</span><span class="n">mask</span><span class="p" data-group-id="1365016468-11">)</span><span class="p" data-group-id="1365016468-10">]</span><span class="w">
-  </span><span class="p" data-group-id="1365016468-5">)</span><span class="w">
-</span><span class="k" data-group-id="1365016468-4">end</span><span class="w">
+mask only when present</p><pre><code class="makeup elixir" translate="no"><span class="kd">def</span><span class="w"> </span><span class="nf">apply_optional_mask</span><span class="p" data-group-id="5877188520-1">(</span><span class="p" data-group-id="5877188520-2">%</span><span class="nc" data-group-id="5877188520-2">Axon</span><span class="p" data-group-id="5877188520-2">{</span><span class="p" data-group-id="5877188520-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5877188520-3">%</span><span class="nc" data-group-id="5877188520-3">Axon</span><span class="p" data-group-id="5877188520-3">{</span><span class="p" data-group-id="5877188520-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mask</span><span class="p" data-group-id="5877188520-1">)</span><span class="w"> </span><span class="k" data-group-id="5877188520-4">do</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="5877188520-5">(</span><span class="w">
+    </span><span class="k" data-group-id="5877188520-6">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">mask</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="k">case</span><span class="w"> </span><span class="n">mask</span><span class="w"> </span><span class="k" data-group-id="5877188520-7">do</span><span class="w">
+        </span><span class="p" data-group-id="5877188520-8">%</span><span class="nc" data-group-id="5877188520-8">Axon.None</span><span class="p" data-group-id="5877188520-8">{</span><span class="p" data-group-id="5877188520-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="w">
+        </span><span class="n">mask</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="5877188520-9">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">mask</span><span class="p" data-group-id="5877188520-9">)</span><span class="w">
+      </span><span class="k" data-group-id="5877188520-7">end</span><span class="w">
+    </span><span class="k" data-group-id="5877188520-6">end</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5877188520-10">[</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">optional</span><span class="p" data-group-id="5877188520-11">(</span><span class="n">mask</span><span class="p" data-group-id="5877188520-11">)</span><span class="p" data-group-id="5877188520-10">]</span><span class="w">
+  </span><span class="p" data-group-id="5877188520-5">)</span><span class="w">
+</span><span class="k" data-group-id="5877188520-4">end</span><span class="w">
 
 </span><span class="c1"># ...</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">values</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1365016468-12">(</span><span class="mi">10</span><span class="p" data-group-id="1365016468-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">apply_optional_mask</span><span class="p" data-group-id="1365016468-13">(</span><span class="n">mask</span><span class="p" data-group-id="1365016468-13">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1365016468-14">(</span><span class="mi">1</span><span class="p" data-group-id="1365016468-14">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="1365016468-15">(</span><span class="p" data-group-id="1365016468-15">)</span></code></pre><h2 id="optional/2-options" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5877188520-12">(</span><span class="mi">10</span><span class="p" data-group-id="5877188520-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">apply_optional_mask</span><span class="p" data-group-id="5877188520-13">(</span><span class="n">mask</span><span class="p" data-group-id="5877188520-13">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5877188520-14">(</span><span class="mi">1</span><span class="p" data-group-id="5877188520-14">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="5877188520-15">(</span><span class="p" data-group-id="5877188520-15">)</span></code></pre><h2 id="optional/2-options" class="section-heading">
   <a href="#optional/2-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -1890,7 +1822,7 @@ <h1 class="signature" translate="no">optional(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">param(name, shape, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L408" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L405" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1924,7 +1856,7 @@ <h1 class="signature" translate="no">param(name, shape, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">stack_columns(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3127" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3100" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -1970,7 +1902,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">activation(x, activation, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1492" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1455" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2001,7 +1933,7 @@ <h1 class="signature" translate="no">activation(x, activation, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">celu(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2031,7 +1963,7 @@ <h1 class="signature" translate="no">celu(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">elu(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2061,7 +1993,7 @@ <h1 class="signature" translate="no">elu(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">exp(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2091,7 +2023,7 @@ <h1 class="signature" translate="no">exp(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">gelu(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2121,7 +2053,7 @@ <h1 class="signature" translate="no">gelu(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">hard_sigmoid(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2151,7 +2083,7 @@ <h1 class="signature" translate="no">hard_sigmoid(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">hard_silu(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2181,7 +2113,7 @@ <h1 class="signature" translate="no">hard_silu(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">hard_tanh(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2211,7 +2143,7 @@ <h1 class="signature" translate="no">hard_tanh(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">leaky_relu(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2241,7 +2173,7 @@ <h1 class="signature" translate="no">leaky_relu(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">linear(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2271,7 +2203,7 @@ <h1 class="signature" translate="no">linear(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">log_sigmoid(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2301,7 +2233,7 @@ <h1 class="signature" translate="no">log_sigmoid(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">log_softmax(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2331,7 +2263,7 @@ <h1 class="signature" translate="no">log_softmax(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">log_sumexp(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2361,7 +2293,7 @@ <h1 class="signature" translate="no">log_sumexp(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">mish(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2391,7 +2323,7 @@ <h1 class="signature" translate="no">mish(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">relu6(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2421,7 +2353,7 @@ <h1 class="signature" translate="no">relu6(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">relu(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2451,7 +2383,7 @@ <h1 class="signature" translate="no">relu(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">selu(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2481,7 +2413,7 @@ <h1 class="signature" translate="no">selu(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">sigmoid(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2511,7 +2443,7 @@ <h1 class="signature" translate="no">sigmoid(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">silu(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2541,7 +2473,7 @@ <h1 class="signature" translate="no">silu(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">softmax(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2571,7 +2503,7 @@ <h1 class="signature" translate="no">softmax(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">softplus(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2601,7 +2533,7 @@ <h1 class="signature" translate="no">softplus(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">softsign(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2631,7 +2563,7 @@ <h1 class="signature" translate="no">softsign(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">tanh(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1518" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1481" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2673,7 +2605,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">bias(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3100" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3073" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2704,7 +2636,7 @@ <h1 class="signature" translate="no">bias(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">bilinear(input1, input2, units, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L866" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L829" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2714,7 +2646,7 @@ <h1 class="signature" translate="no">bilinear(input1, input2, units, opts \\ [])
 
   <section class="docstring">
 
-<p>Adds a bilinear layer to the network.</p><p>The bilinear layer implements:</p><pre><code class="makeup elixir" translate="no"><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">activation</span><span class="p" data-group-id="8567860753-1">(</span><span class="n">dot</span><span class="p" data-group-id="8567860753-2">(</span><span class="n">dot</span><span class="p" data-group-id="8567860753-3">(</span><span class="n">input1</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="8567860753-3">)</span><span class="p">,</span><span class="w"> </span><span class="n">input2</span><span class="p" data-group-id="8567860753-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="8567860753-1">)</span></code></pre><p>where <code class="inline">activation</code> is given by the <code class="inline">:activation</code> option and both
+<p>Adds a bilinear layer to the network.</p><p>The bilinear layer implements:</p><pre><code class="makeup elixir" translate="no"><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">activation</span><span class="p" data-group-id="2488029972-1">(</span><span class="n">dot</span><span class="p" data-group-id="2488029972-2">(</span><span class="n">dot</span><span class="p" data-group-id="2488029972-3">(</span><span class="n">input1</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="2488029972-3">)</span><span class="p">,</span><span class="w"> </span><span class="n">input2</span><span class="p" data-group-id="2488029972-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="2488029972-1">)</span></code></pre><p>where <code class="inline">activation</code> is given by the <code class="inline">:activation</code> option and both
 <code class="inline">kernel</code> and <code class="inline">bias</code> are layer parameters. <code class="inline">units</code> specifies the
 number of output units.</p><p>All dimensions but the last of <code class="inline">input1</code> and <code class="inline">input2</code> must match. The
 batch sizes of both inputs must also match or at least one must be <code class="inline">nil</code>.
@@ -2741,7 +2673,7 @@ <h1 class="signature" translate="no">bilinear(input1, input2, units, opts \\ [])
     </a>
     <h1 class="signature" translate="no">dense(x, units, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L799" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L762" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2751,7 +2683,7 @@ <h1 class="signature" translate="no">dense(x, units, opts \\ [])</h1>
 
   <section class="docstring">
 
-<p>Adds a dense layer to the network.</p><p>The dense layer implements:</p><pre><code class="makeup elixir" translate="no"><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">activation</span><span class="p" data-group-id="0223471019-1">(</span><span class="n">dot</span><span class="p" data-group-id="0223471019-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="0223471019-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="0223471019-1">)</span></code></pre><p>where <code class="inline">activation</code> is given by the <code class="inline">:activation</code> option and both
+<p>Adds a dense layer to the network.</p><p>The dense layer implements:</p><pre><code class="makeup elixir" translate="no"><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">activation</span><span class="p" data-group-id="3834078566-1">(</span><span class="n">dot</span><span class="p" data-group-id="3834078566-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">kernel</span><span class="p" data-group-id="3834078566-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">bias</span><span class="p" data-group-id="3834078566-1">)</span></code></pre><p>where <code class="inline">activation</code> is given by the <code class="inline">:activation</code> option and both
 <code class="inline">kernel</code> and <code class="inline">bias</code> are layer parameters. <code class="inline">units</code> specifies the
 number of output units.</p><p>Compiles to <a href="Axon.Layers.html#dense/4"><code class="inline">Axon.Layers.dense/4</code></a>.</p><h2 id="dense/3-options" class="section-heading">
   <a href="#dense/3-options" class="hover-link">
@@ -2776,7 +2708,7 @@ <h1 class="signature" translate="no">dense(x, units, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">embedding(x, vocab_size, embedding_size, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3076" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3049" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2822,7 +2754,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">conv(x, units, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L948" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L911" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2861,7 +2793,7 @@ <h1 class="signature" translate="no">conv(x, units, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">conv_transpose(x, units, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1044" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1007" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2898,7 +2830,7 @@ <h1 class="signature" translate="no">conv_transpose(x, units, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">depthwise_conv(x, channel_multiplier, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1141" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1104" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2939,7 +2871,7 @@ <h1 class="signature" translate="no">depthwise_conv(x, channel_multiplier, opts
     </a>
     <h1 class="signature" translate="no">separable_conv2d(x, channel_multiplier, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1241" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1204" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -2978,7 +2910,7 @@ <h1 class="signature" translate="no">separable_conv2d(x, channel_multiplier, opt
     </a>
     <h1 class="signature" translate="no">separable_conv3d(x, channel_multiplier, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1362" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1325" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3029,7 +2961,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">alpha_dropout(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1547" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1510" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3060,7 +2992,7 @@ <h1 class="signature" translate="no">alpha_dropout(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">dropout(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1547" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1510" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3091,7 +3023,7 @@ <h1 class="signature" translate="no">dropout(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">feature_alpha_dropout(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1547" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1510" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3122,7 +3054,7 @@ <h1 class="signature" translate="no">feature_alpha_dropout(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">spatial_dropout(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1547" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1510" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3165,7 +3097,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">adaptive_avg_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1719" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1683" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3196,7 +3128,7 @@ <h1 class="signature" translate="no">adaptive_avg_pool(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">adaptive_lp_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1719" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1683" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3227,7 +3159,7 @@ <h1 class="signature" translate="no">adaptive_lp_pool(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">adaptive_max_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1719" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1683" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3258,7 +3190,7 @@ <h1 class="signature" translate="no">adaptive_max_pool(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">avg_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1608" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1572" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3291,7 +3223,7 @@ <h1 class="signature" translate="no">avg_pool(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">global_avg_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1784" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1748" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3325,7 +3257,7 @@ <h1 class="signature" translate="no">global_avg_pool(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">global_lp_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1784" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1748" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3359,7 +3291,7 @@ <h1 class="signature" translate="no">global_lp_pool(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">global_max_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1784" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1748" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3393,7 +3325,7 @@ <h1 class="signature" translate="no">global_max_pool(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">lp_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1608" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1572" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3426,7 +3358,7 @@ <h1 class="signature" translate="no">lp_pool(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">max_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1608" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1572" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3471,7 +3403,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">batch_norm(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1844" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1808" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3504,7 +3436,7 @@ <h1 class="signature" translate="no">batch_norm(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">group_norm(x, num_groups, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1964" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1928" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3537,7 +3469,7 @@ <h1 class="signature" translate="no">group_norm(x, num_groups, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">instance_norm(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1844" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1808" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3570,7 +3502,7 @@ <h1 class="signature" translate="no">instance_norm(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">layer_norm(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1911" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1875" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3613,7 +3545,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">conv_lstm(x, units)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2803" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2767" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3635,7 +3567,7 @@ <h1 class="signature" translate="no">conv_lstm(x, units)</h1>
     </a>
     <h1 class="signature" translate="no">conv_lstm(x, units, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2820" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2784" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3665,7 +3597,7 @@ <h1 class="signature" translate="no">conv_lstm(x, units, opts)</h1>
     </a>
     <h1 class="signature" translate="no">conv_lstm(x, hidden_state, units, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2870" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2834" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3677,7 +3609,7 @@ <h1 class="signature" translate="no">conv_lstm(x, hidden_state, units, opts)</h1
 
 <p>Adds a convolutional long short-term memory (LSTM) layer to the network
 with the given initial hidden state..</p><p>ConvLSTMs apply <code class="inline">Axon.Layers.conv_lstm_cell/5</code> over an entire input
-sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0077932194-1">{</span><span class="p" data-group-id="0077932194-2">{</span><span class="n">new_cell</span><span class="p">,</span><span class="w"> </span><span class="n">new_hidden</span><span class="p" data-group-id="0077932194-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">output_sequence</span><span class="p" data-group-id="0077932194-1">}</span></code></pre><p>You can use the output state as the hidden state of another
+sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3066542007-1">{</span><span class="p" data-group-id="3066542007-2">{</span><span class="n">new_cell</span><span class="p">,</span><span class="w"> </span><span class="n">new_hidden</span><span class="p" data-group-id="3066542007-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">output_sequence</span><span class="p" data-group-id="3066542007-1">}</span></code></pre><p>You can use the output state as the hidden state of another
 ConvLSTM layer.</p><h2 id="conv_lstm/4-options" class="section-heading">
   <a href="#conv_lstm/4-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -3700,7 +3632,7 @@ <h1 class="signature" translate="no">conv_lstm(x, hidden_state, units, opts)</h1
     </a>
     <h1 class="signature" translate="no">gru(x, units)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2618" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2582" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3722,7 +3654,7 @@ <h1 class="signature" translate="no">gru(x, units)</h1>
     </a>
     <h1 class="signature" translate="no">gru(x, units, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2635" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2599" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3752,7 +3684,7 @@ <h1 class="signature" translate="no">gru(x, units, opts)</h1>
     </a>
     <h1 class="signature" translate="no">gru(x, hidden_state, units, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2682" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2646" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3764,7 +3696,7 @@ <h1 class="signature" translate="no">gru(x, hidden_state, units, opts)</h1>
 
 <p>Adds a gated recurrent unit (GRU) layer to the network with
 the given initial hidden state.</p><p>GRUs apply <a href="Axon.Layers.html#gru_cell/7"><code class="inline">Axon.Layers.gru_cell/7</code></a> over an entire input
-sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1648287275-1">{</span><span class="p" data-group-id="1648287275-2">{</span><span class="n">new_hidden</span><span class="p" data-group-id="1648287275-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">output_sequence</span><span class="p" data-group-id="1648287275-1">}</span></code></pre><p>You can use the output state as the hidden state of another
+sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6979177414-1">{</span><span class="p" data-group-id="6979177414-2">{</span><span class="n">new_hidden</span><span class="p" data-group-id="6979177414-2">}</span><span class="p">,</span><span class="w"> </span><span class="n">output_sequence</span><span class="p" data-group-id="6979177414-1">}</span></code></pre><p>You can use the output state as the hidden state of another
 GRU layer.</p><h2 id="gru/4-options" class="section-heading">
   <a href="#gru/4-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -3787,7 +3719,7 @@ <h1 class="signature" translate="no">gru(x, hidden_state, units, opts)</h1>
     </a>
     <h1 class="signature" translate="no">lstm(x, units)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2413" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2377" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3809,7 +3741,7 @@ <h1 class="signature" translate="no">lstm(x, units)</h1>
     </a>
     <h1 class="signature" translate="no">lstm(x, units, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2430" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2394" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3839,7 +3771,7 @@ <h1 class="signature" translate="no">lstm(x, units, opts)</h1>
     </a>
     <h1 class="signature" translate="no">lstm(x, hidden_state, units, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2478" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2442" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3851,7 +3783,7 @@ <h1 class="signature" translate="no">lstm(x, hidden_state, units, opts \\ [])</h
 
 <p>Adds a long short-term memory (LSTM) layer to the network
 with the given initial hidden state.</p><p>LSTMs apply <a href="Axon.Layers.html#lstm_cell/7"><code class="inline">Axon.Layers.lstm_cell/7</code></a> over an entire input
-sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9267665766-1">{</span><span class="n">output_sequence</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9267665766-2">{</span><span class="n">new_cell</span><span class="p">,</span><span class="w"> </span><span class="n">new_hidden</span><span class="p" data-group-id="9267665766-2">}</span><span class="p" data-group-id="9267665766-1">}</span></code></pre><p>You can use the output state as the hidden state of another
+sequence and return:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5420029471-1">{</span><span class="n">output_sequence</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5420029471-2">{</span><span class="n">new_cell</span><span class="p">,</span><span class="w"> </span><span class="n">new_hidden</span><span class="p" data-group-id="5420029471-2">}</span><span class="p" data-group-id="5420029471-1">}</span></code></pre><p>You can use the output state as the hidden state of another
 LSTM layer.</p><h2 id="lstm/4-options" class="section-heading">
   <a href="#lstm/4-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -3876,7 +3808,7 @@ <h1 class="signature" translate="no">lstm(x, hidden_state, units, opts \\ [])</h
     </a>
     <h1 class="signature" translate="no">mask(input, eos_token, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2373" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2337" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3918,7 +3850,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">add(x, y, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2218" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2182" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3949,7 +3881,7 @@ <h1 class="signature" translate="no">add(x, y, opts)</h1>
     </a>
     <h1 class="signature" translate="no">concatenate(x, y, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2168" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2132" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -3980,7 +3912,7 @@ <h1 class="signature" translate="no">concatenate(x, y, opts)</h1>
     </a>
     <h1 class="signature" translate="no">cond(parent, cond_fn, true_graph, false_graph, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2269" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2233" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4005,7 +3937,7 @@ <h1 class="signature" translate="no">cond(parent, cond_fn, true_graph, false_gra
     </a>
     <h1 class="signature" translate="no">multiply(x, y, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2218" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2182" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4038,7 +3970,7 @@ <h1 class="signature" translate="no">multiply(x, y, opts)</h1>
     </a>
     <h1 class="signature" translate="no">split(parent, splits, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2298" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2262" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4067,7 +3999,7 @@ <h1 class="signature" translate="no">split(parent, splits, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">subtract(x, y, opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2218" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2182" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4112,7 +4044,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">flatten(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2030" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1994" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4146,7 +4078,7 @@ <h1 class="signature" translate="no">flatten(x, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">pad(x, config, value \\ 0.0, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2100" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2064" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4179,7 +4111,7 @@ <h1 class="signature" translate="no">pad(x, config, value \\ 0.0, opts \\ [])</h
     </a>
     <h1 class="signature" translate="no">reshape(x, new_shape, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2055" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2019" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4213,7 +4145,7 @@ <h1 class="signature" translate="no">reshape(x, new_shape, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">resize(x, resize_shape, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2140" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2104" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4250,7 +4182,7 @@ <h1 class="signature" translate="no">resize(x, resize_shape, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">transpose(x, permutation \\ nil, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2074" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2038" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4292,7 +4224,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">build(model, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3667" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3642" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4312,16 +4244,16 @@ <h1 class="signature" translate="no">build(model, opts \\ [])</h1>
   <span class="text"><code class="inline">init_fn</code></span>
 </h2>
 <p>The <code class="inline">init_fn</code> receives two arguments, the input template and
-an optional map with initial parameters for layers or namespaces:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3011791206-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3011791206-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3011791206-2">(</span><span class="n">model</span><span class="p" data-group-id="3011791206-2">)</span><span class="w">
-</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3011791206-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3011791206-4">(</span><span class="p" data-group-id="3011791206-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3011791206-5">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3011791206-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="3011791206-6">}</span><span class="p" data-group-id="3011791206-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3011791206-7">%{</span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">dense_params</span><span class="p" data-group-id="3011791206-7">}</span><span class="p" data-group-id="3011791206-3">)</span></code></pre><h2 id="build/2-predict_fn" class="section-heading">
+an optional map with initial parameters for layers or namespaces:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2702629205-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="2702629205-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="2702629205-2">(</span><span class="n">model</span><span class="p" data-group-id="2702629205-2">)</span><span class="w">
+</span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2702629205-3">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="2702629205-4">(</span><span class="p" data-group-id="2702629205-5">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2702629205-5">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2702629205-6">{</span><span class="ss">:f</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2702629205-6">}</span><span class="p" data-group-id="2702629205-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2702629205-7">%{</span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">dense_params</span><span class="p" data-group-id="2702629205-7">}</span><span class="p" data-group-id="2702629205-3">)</span></code></pre><h2 id="build/2-predict_fn" class="section-heading">
   <a href="#build/2-predict_fn" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text"><code class="inline">predict_fn</code></span>
 </h2>
 <p>The <code class="inline">predict_fn</code> receives two arguments, the trained parameters
-and the actual inputs:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6751073415-1">{</span><span class="c">_init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6751073415-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6751073415-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="6751073415-2">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6751073415-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="6751073415-3">)</span></code></pre><h2 id="build/2-options" class="section-heading">
+and the actual inputs:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8513883032-1">{</span><span class="c">_init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8513883032-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8513883032-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="8513883032-2">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8513883032-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8513883032-3">)</span></code></pre><h2 id="build/2-options" class="section-heading">
   <a href="#build/2-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -4350,7 +4282,7 @@ <h1 class="signature" translate="no">build(model, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">compile(model, template, init_params \\ %{}, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3698" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3673" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4375,49 +4307,6 @@ <h1 class="signature" translate="no">compile(model, template, init_params \\ %{}
 <p>It accepts the same options as <a href="#build/2"><code class="inline">build/2</code></a>.</p>
   </section>
 </section>
-<section class="detail" id="deserialize/2">
-
-    <span id="deserialize/1"></span>
-
-  <div class="detail-header">
-    <a href="#deserialize/2" class="detail-link" title="Link to this function">
-      <i class="ri-link-m" aria-hidden="true"></i>
-      <span class="sr-only">Link to this function</span>
-    </a>
-    <h1 class="signature" translate="no">deserialize(serialized, opts \\ [])</h1>
-
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3965" class="icon-action" rel="help" title="View Source">
-       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
-       <span class="sr-only">View Source</span>
-     </a>
-
-
-  </div>
-
-  <section class="docstring">
-
-<p>Deserializes serialized model and parameters into a <code class="inline">{model, params}</code>
-tuple.</p><p>It is the opposite of <a href="#serialize/3"><code class="inline">Axon.serialize/3</code></a>.</p><h2 id="deserialize/2-examples" class="section-heading">
-  <a href="#deserialize/2-examples" class="hover-link">
-    <i class="ri-link-m" aria-hidden="true"></i>
-  </a>
-  <span class="text">Examples</span>
-</h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8225979663-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8225979663-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8225979663-2">}</span><span class="p" data-group-id="8225979663-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8225979663-3">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_initializer</span><span class="p">:</span><span class="w"> </span><span class="ss">:zeros</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="8225979663-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="8225979663-4">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="8225979663-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8225979663-5">(</span><span class="n">model</span><span class="p" data-group-id="8225979663-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8225979663-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8225979663-7">(</span><span class="p" data-group-id="8225979663-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8225979663-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8225979663-7">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8225979663-9">%{</span><span class="p" data-group-id="8225979663-9">}</span><span class="p" data-group-id="8225979663-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">serialized</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="8225979663-10">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="8225979663-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="8225979663-11">{</span><span class="n">saved_model</span><span class="p">,</span><span class="w"> </span><span class="n">saved_params</span><span class="p" data-group-id="8225979663-11">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="8225979663-12">(</span><span class="n">serialized</span><span class="p" data-group-id="8225979663-12">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="8225979663-13">{</span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8225979663-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8225979663-14">(</span><span class="n">saved_model</span><span class="p" data-group-id="8225979663-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8225979663-15">(</span><span class="n">saved_params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8225979663-16">(</span><span class="p" data-group-id="8225979663-17">[</span><span class="p" data-group-id="8225979663-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="8225979663-18">]</span><span class="p" data-group-id="8225979663-17">]</span><span class="p" data-group-id="8225979663-16">)</span><span class="p" data-group-id="8225979663-15">)</span><span class="w">
-</span><span class="p" data-group-id="8225979663-19">#</span><span class="nc" data-group-id="8225979663-19">Nx.Tensor</span><span class="p" data-group-id="8225979663-19">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="8225979663-20">[</span><span class="mi">1</span><span class="p" data-group-id="8225979663-20">]</span><span class="p" data-group-id="8225979663-21">[</span><span class="mi">1</span><span class="p" data-group-id="8225979663-21">]</span><span class="w">
-  </span><span class="p" data-group-id="8225979663-22">[</span><span class="w">
-    </span><span class="p" data-group-id="8225979663-23">[</span><span class="mf">0.0</span><span class="p" data-group-id="8225979663-23">]</span><span class="w">
-  </span><span class="p" data-group-id="8225979663-22">]</span><span class="w">
-</span><span class="p" data-group-id="8225979663-19">&gt;</span></code></pre>
-  </section>
-</section>
 <section class="detail" id="freeze/2">
 
     <span id="freeze/1"></span>
@@ -4429,7 +4318,7 @@ <h1 class="signature" translate="no">deserialize(serialized, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">freeze(model, fun_or_predicate \\ :all)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3171" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3145" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4437,6 +4326,10 @@ <h1 class="signature" translate="no">freeze(model, fun_or_predicate \\ :all)</h1
 
   </div>
 
+    <div class="deprecated">
+      This function is deprecated. Use Axon.ModelState.freeze/2 instead.
+    </div>
+
   <section class="docstring">
 
 <p>Freezes parameters returned from the given function or predicate.</p><p><code class="inline">fun</code> can be a predicate <code class="inline">:all</code>, <code class="inline">up: n</code>, or <code class="inline">down: n</code>. <code class="inline">:all</code>
@@ -4449,18 +4342,18 @@ <h1 class="signature" translate="no">freeze(model, fun_or_predicate \\ :all)</h1
 larger models trained on ImageNet with fresh fully-connected classifiers.
 The combined model is then trained on fresh data, with the convolutional
 base frozen so as not to lose information. You can see this example
-in code here:</p><pre><code class="makeup elixir" translate="no"><span class="n">cnn_base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">get_pretrained_cnn_base</span><span class="p" data-group-id="1008218394-1">(</span><span class="p" data-group-id="1008218394-1">)</span><span class="w">
+in code here:</p><pre><code class="makeup elixir" translate="no"><span class="n">cnn_base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">get_pretrained_cnn_base</span><span class="p" data-group-id="9155723716-1">(</span><span class="p" data-group-id="9155723716-1">)</span><span class="w">
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">cnn_base</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">freeze</span><span class="p" data-group-id="1008218394-2">(</span><span class="p" data-group-id="1008218394-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="1008218394-3">(</span><span class="p" data-group-id="1008218394-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1008218394-4">(</span><span class="mi">1024</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="1008218394-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="1008218394-5">(</span><span class="p" data-group-id="1008218394-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1008218394-6">(</span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="1008218394-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">freeze</span><span class="p" data-group-id="9155723716-2">(</span><span class="p" data-group-id="9155723716-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="9155723716-3">(</span><span class="p" data-group-id="9155723716-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9155723716-4">(</span><span class="mi">1024</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9155723716-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="9155723716-5">(</span><span class="p" data-group-id="9155723716-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9155723716-6">(</span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="9155723716-6">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1008218394-7">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="1008218394-8">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.005</span><span class="p" data-group-id="1008218394-8">)</span><span class="p" data-group-id="1008218394-7">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1008218394-9">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="1008218394-9">)</span></code></pre><p>When compiled, frozen parameters are wrapped in <a href="https://hexdocs.pm/nx/0.7.0/Nx.Defn.Kernel.html#stop_grad/1"><code class="inline">Nx.Defn.Kernel.stop_grad/1</code></a>,
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9155723716-7">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="9155723716-8">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.005</span><span class="p" data-group-id="9155723716-8">)</span><span class="p" data-group-id="9155723716-7">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9155723716-9">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="9155723716-9">)</span></code></pre><p>When compiled, frozen parameters are wrapped in <a href="https://hexdocs.pm/nx/0.7.0/Nx.Defn.Kernel.html#stop_grad/1"><code class="inline">Nx.Defn.Kernel.stop_grad/1</code></a>,
 which zeros out the gradient with respect to the frozen parameter. Gradients
 of frozen parameters will return <code class="inline">0.0</code>, meaning they won't be changed during
 the update process.</p>
@@ -4477,7 +4370,7 @@ <h1 class="signature" translate="no">freeze(model, fun_or_predicate \\ :all)</h1
     </a>
     <h1 class="signature" translate="no">predict(model, params, input, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3822" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3797" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4502,54 +4395,6 @@ <h1 class="signature" translate="no">predict(model, params, input, opts \\ [])</
 or backend.</p>
   </section>
 </section>
-<section class="detail" id="serialize/3">
-
-    <span id="serialize/2"></span>
-
-  <div class="detail-header">
-    <a href="#serialize/3" class="detail-link" title="Link to this function">
-      <i class="ri-link-m" aria-hidden="true"></i>
-      <span class="sr-only">Link to this function</span>
-    </a>
-    <h1 class="signature" translate="no">serialize(axon, params, opts \\ [])</h1>
-
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3900" class="icon-action" rel="help" title="View Source">
-       <i class="ri-code-s-slash-line" aria-hidden="true"></i>
-       <span class="sr-only">View Source</span>
-     </a>
-
-
-  </div>
-
-  <section class="docstring">
-
-<p>Serializes a model and its parameters for persisting
-models to disk or elsewhere.</p><p>Model and parameters are serialized as a tuple, where the
-model is converted to a recursive map to ensure compatibility
-with future Axon versions and the parameters are serialized
-using <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#serialize/2"><code class="inline">Nx.serialize/2</code></a>. There is some additional metadata included
-such as current serialization version for compatibility.</p><p>Serialization <code class="inline">opts</code> are forwarded to <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#serialize/2"><code class="inline">Nx.serialize/2</code></a> and
-<a href="https://www.erlang.org/doc/man/erlang.html#term_to_binary-2"><code class="inline">:erlang.term_to_binary/2</code></a> for controlling compression options.</p><h2 id="serialize/3-examples" class="section-heading">
-  <a href="#serialize/3-examples" class="hover-link">
-    <i class="ri-link-m" aria-hidden="true"></i>
-  </a>
-  <span class="text">Examples</span>
-</h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5991153149-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5991153149-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5991153149-2">}</span><span class="p" data-group-id="5991153149-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5991153149-3">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_initializer</span><span class="p">:</span><span class="w"> </span><span class="ss">:zeros</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5991153149-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="5991153149-4">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="5991153149-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5991153149-5">(</span><span class="n">model</span><span class="p" data-group-id="5991153149-5">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5991153149-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="5991153149-7">(</span><span class="p" data-group-id="5991153149-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5991153149-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5991153149-7">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5991153149-9">%{</span><span class="p" data-group-id="5991153149-9">}</span><span class="p" data-group-id="5991153149-6">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">serialized</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="5991153149-10">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p" data-group-id="5991153149-10">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="5991153149-11">{</span><span class="n">saved_model</span><span class="p">,</span><span class="w"> </span><span class="n">saved_params</span><span class="p" data-group-id="5991153149-11">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="5991153149-12">(</span><span class="n">serialized</span><span class="p" data-group-id="5991153149-12">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="p" data-group-id="5991153149-13">{</span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5991153149-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5991153149-14">(</span><span class="n">saved_model</span><span class="p" data-group-id="5991153149-14">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5991153149-15">(</span><span class="n">saved_params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="5991153149-16">(</span><span class="p" data-group-id="5991153149-17">[</span><span class="p" data-group-id="5991153149-18">[</span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="5991153149-18">]</span><span class="p" data-group-id="5991153149-17">]</span><span class="p" data-group-id="5991153149-16">)</span><span class="p" data-group-id="5991153149-15">)</span><span class="w">
-</span><span class="p" data-group-id="5991153149-19">#</span><span class="nc" data-group-id="5991153149-19">Nx.Tensor</span><span class="p" data-group-id="5991153149-19">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5991153149-20">[</span><span class="mi">1</span><span class="p" data-group-id="5991153149-20">]</span><span class="p" data-group-id="5991153149-21">[</span><span class="mi">1</span><span class="p" data-group-id="5991153149-21">]</span><span class="w">
-  </span><span class="p" data-group-id="5991153149-22">[</span><span class="w">
-    </span><span class="p" data-group-id="5991153149-23">[</span><span class="mf">0.0</span><span class="p" data-group-id="5991153149-23">]</span><span class="w">
-  </span><span class="p" data-group-id="5991153149-22">]</span><span class="w">
-</span><span class="p" data-group-id="5991153149-19">&gt;</span></code></pre>
-  </section>
-</section>
 <section class="detail" id="unfreeze/2">
 
     <span id="unfreeze/1"></span>
@@ -4561,7 +4406,7 @@ <h1 class="signature" translate="no">serialize(axon, params, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">unfreeze(model, fun_or_predicate \\ :all)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3243" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3218" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4569,6 +4414,10 @@ <h1 class="signature" translate="no">unfreeze(model, fun_or_predicate \\ :all)</
 
   </div>
 
+    <div class="deprecated">
+      This function is deprecated. Use Axon.ModelState.freeze/2 instead.
+    </div>
+
   <section class="docstring">
 
 <p>Unfreezes parameters returned from the given function or predicate.</p><p><code class="inline">fun</code> can be a predicate <code class="inline">:all</code>, <code class="inline">up: n</code>, or <code class="inline">down: n</code>. <code class="inline">:all</code>
@@ -4578,14 +4427,14 @@ <h1 class="signature" translate="no">unfreeze(model, fun_or_predicate \\ :all)</
 returns <code class="inline">true</code> if a parameter should be unfrozen or <code class="inline">false</code> otherwise.</p><p>Unfreezing parameters is useful when fine tuning a model which you
 have previously frozen and performed transfer learning on. You may
 want to unfreeze some of the later frozen layers in a model and
-fine tune them specifically for your application:</p><pre><code class="makeup elixir" translate="no"><span class="n">cnn_base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">get_pretrained_cnn_base</span><span class="p" data-group-id="7965176066-1">(</span><span class="p" data-group-id="7965176066-1">)</span><span class="w">
+fine tune them specifically for your application:</p><pre><code class="makeup elixir" translate="no"><span class="n">cnn_base</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">get_pretrained_cnn_base</span><span class="p" data-group-id="6433335052-1">(</span><span class="p" data-group-id="6433335052-1">)</span><span class="w">
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">frozen_model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">unfreeze</span><span class="p" data-group-id="7965176066-2">(</span><span class="ss">up</span><span class="p">:</span><span class="w"> </span><span class="mi">25</span><span class="p" data-group-id="7965176066-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">unfreeze</span><span class="p" data-group-id="6433335052-2">(</span><span class="ss">up</span><span class="p">:</span><span class="w"> </span><span class="mi">25</span><span class="p" data-group-id="6433335052-2">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7965176066-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="7965176066-4">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0005</span><span class="p" data-group-id="7965176066-4">)</span><span class="p" data-group-id="7965176066-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7965176066-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="7965176066-5">)</span></code></pre><p>When compiled, frozen parameters are wrapped in <a href="https://hexdocs.pm/nx/0.7.0/Nx.Defn.Kernel.html#stop_grad/1"><code class="inline">Nx.Defn.Kernel.stop_grad/1</code></a>,
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6433335052-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="6433335052-4">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0005</span><span class="p" data-group-id="6433335052-4">)</span><span class="p" data-group-id="6433335052-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6433335052-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="6433335052-5">)</span></code></pre><p>When compiled, frozen parameters are wrapped in <a href="https://hexdocs.pm/nx/0.7.0/Nx.Defn.Kernel.html#stop_grad/1"><code class="inline">Nx.Defn.Kernel.stop_grad/1</code></a>,
 which zeros out the gradient with respect to the frozen parameter. Gradients
 of frozen parameters will return <code class="inline">0.0</code>, meaning they won't be changed during
 the update process.</p>
@@ -4612,7 +4461,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">get_inputs(axon)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3391" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3366" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4634,7 +4483,7 @@ <h1 class="signature" translate="no">get_inputs(axon)</h1>
     </a>
     <h1 class="signature" translate="no">get_op_counts(axon)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3450" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3425" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4651,13 +4500,13 @@ <h1 class="signature" translate="no">get_op_counts(axon)</h1>
   </a>
   <span class="text">Examples</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0683360348-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0683360348-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0683360348-2">}</span><span class="p" data-group-id="0683360348-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0683360348-3">(</span><span class="mi">2</span><span class="p" data-group-id="0683360348-3">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_op_counts</span><span class="p" data-group-id="0683360348-4">(</span><span class="n">model</span><span class="p" data-group-id="0683360348-4">)</span><span class="w">
-</span><span class="p" data-group-id="0683360348-5">%{</span><span class="ss">input</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">dense</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0683360348-5">}</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2130502124-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2130502124-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2130502124-2">}</span><span class="p" data-group-id="2130502124-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2130502124-3">(</span><span class="mi">2</span><span class="p" data-group-id="2130502124-3">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_op_counts</span><span class="p" data-group-id="2130502124-4">(</span><span class="n">model</span><span class="p" data-group-id="2130502124-4">)</span><span class="w">
+</span><span class="p" data-group-id="2130502124-5">%{</span><span class="ss">input</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">dense</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2130502124-5">}</span><span class="w">
 
-</span><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0683360348-6">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0683360348-7">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0683360348-7">}</span><span class="p" data-group-id="0683360348-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="0683360348-8">(</span><span class="p" data-group-id="0683360348-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="0683360348-9">(</span><span class="p" data-group-id="0683360348-9">)</span><span class="w">
-</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_op_counts</span><span class="p" data-group-id="0683360348-10">(</span><span class="n">model</span><span class="p" data-group-id="0683360348-10">)</span><span class="w">
-</span><span class="p" data-group-id="0683360348-11">%{</span><span class="ss">input</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">tanh</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="0683360348-11">}</span></code></pre>
+</span><span class="gp unselectable">iex&gt; </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2130502124-6">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2130502124-7">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2130502124-7">}</span><span class="p" data-group-id="2130502124-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="2130502124-8">(</span><span class="p" data-group-id="2130502124-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="2130502124-9">(</span><span class="p" data-group-id="2130502124-9">)</span><span class="w">
+</span><span class="gp unselectable">iex&gt; </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_op_counts</span><span class="p" data-group-id="2130502124-10">(</span><span class="n">model</span><span class="p" data-group-id="2130502124-10">)</span><span class="w">
+</span><span class="p" data-group-id="2130502124-11">%{</span><span class="ss">input</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">tanh</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="2130502124-11">}</span></code></pre>
   </section>
 </section>
 <section class="detail" id="get_options/1">
@@ -4669,7 +4518,7 @@ <h1 class="signature" translate="no">get_op_counts(axon)</h1>
     </a>
     <h1 class="signature" translate="no">get_options(axon)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3361" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3336" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4695,7 +4544,7 @@ <h1 class="signature" translate="no">get_options(axon)</h1>
     </a>
     <h1 class="signature" translate="no">get_output_shape(axon, inputs, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3407" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3382" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4718,7 +4567,7 @@ <h1 class="signature" translate="no">get_output_shape(axon, inputs, opts \\ [])<
     </a>
     <h1 class="signature" translate="no">get_parameters(axon)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3327" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3302" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4742,7 +4591,7 @@ <h1 class="signature" translate="no">get_parameters(axon)</h1>
     </a>
     <h1 class="signature" translate="no">map_nodes(axon, fun)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3502" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3477" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4766,24 +4615,24 @@ <h1 class="signature" translate="no">map_nodes(axon, fun)</h1>
 instrumentation between layers without needing to build
 a new explicitly instrumented version of a model. For example,
 you can use this function to visualize intermediate activations
-of all convolutional layers in a model:</p><pre><code class="makeup elixir" translate="no"><span class="n">instrumented_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">map_nodes</span><span class="p" data-group-id="0105624749-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0105624749-2">fn</span><span class="w">
-  </span><span class="p" data-group-id="0105624749-3">%</span><span class="nc" data-group-id="0105624749-3">Axon.Node</span><span class="p" data-group-id="0105624749-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:conv</span><span class="p" data-group-id="0105624749-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">axon_node</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0105624749-4">(</span><span class="n">axon_node</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">visualize_activations</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0105624749-4">)</span><span class="w">
+of all convolutional layers in a model:</p><pre><code class="makeup elixir" translate="no"><span class="n">instrumented_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">map_nodes</span><span class="p" data-group-id="4614973712-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="4614973712-2">fn</span><span class="w">
+  </span><span class="p" data-group-id="4614973712-3">%</span><span class="nc" data-group-id="4614973712-3">Axon.Node</span><span class="p" data-group-id="4614973712-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:conv</span><span class="p" data-group-id="4614973712-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">axon_node</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="4614973712-4">(</span><span class="n">axon_node</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="n">visualize_activations</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4614973712-4">)</span><span class="w">
 
   </span><span class="n">axon_node</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
     </span><span class="n">axon_node</span><span class="w">
-</span><span class="k" data-group-id="0105624749-2">end</span><span class="p" data-group-id="0105624749-1">)</span></code></pre><p>Another use case is to replace entire classes of layers
+</span><span class="k" data-group-id="4614973712-2">end</span><span class="p" data-group-id="4614973712-1">)</span></code></pre><p>Another use case is to replace entire classes of layers
 with another. For example, you may want to replace all
-relu layers with tanh layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">new_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">map_nodes</span><span class="p" data-group-id="0484345875-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0484345875-2">fn</span><span class="w">
-  </span><span class="p" data-group-id="0484345875-3">%</span><span class="nc" data-group-id="0484345875-3">Axon</span><span class="p" data-group-id="0484345875-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0484345875-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+relu layers with tanh layers:</p><pre><code class="makeup elixir" translate="no"><span class="n">new_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">map_nodes</span><span class="p" data-group-id="6890038741-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="6890038741-2">fn</span><span class="w">
+  </span><span class="p" data-group-id="6890038741-3">%</span><span class="nc" data-group-id="6890038741-3">Axon</span><span class="p" data-group-id="6890038741-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6890038741-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
     </span><span class="c1"># Get nodes immediate parent</span><span class="w">
-    </span><span class="n">parent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_parent</span><span class="p" data-group-id="0484345875-4">(</span><span class="n">graph</span><span class="p" data-group-id="0484345875-4">)</span><span class="w">
+    </span><span class="n">parent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">get_parent</span><span class="p" data-group-id="6890038741-4">(</span><span class="n">graph</span><span class="p" data-group-id="6890038741-4">)</span><span class="w">
     </span><span class="c1"># Replace node with a tanh</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="0484345875-5">(</span><span class="n">parent</span><span class="p" data-group-id="0484345875-5">)</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">tanh</span><span class="p" data-group-id="6890038741-5">(</span><span class="n">parent</span><span class="p" data-group-id="6890038741-5">)</span><span class="w">
 
   </span><span class="n">graph</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
     </span><span class="n">graph</span><span class="w">
-</span><span class="k" data-group-id="0484345875-2">end</span><span class="p" data-group-id="0484345875-1">)</span></code></pre>
+</span><span class="k" data-group-id="6890038741-2">end</span><span class="p" data-group-id="6890038741-1">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="pop_node/1">
@@ -4795,7 +4644,7 @@ <h1 class="signature" translate="no">map_nodes(axon, fun)</h1>
     </a>
     <h1 class="signature" translate="no">pop_node(axon)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3618" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3593" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4805,7 +4654,7 @@ <h1 class="signature" translate="no">pop_node(axon)</h1>
 
   <section class="docstring">
 
-<p>Pops the top node off of the graph.</p><p>This returns the popped node and the updated graph:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2714498428-1">{</span><span class="c">_node</span><span class="p">,</span><span class="w"> </span><span class="n">model</span><span class="p" data-group-id="2714498428-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">pop_node</span><span class="p" data-group-id="2714498428-2">(</span><span class="n">model</span><span class="p" data-group-id="2714498428-2">)</span></code></pre>
+<p>Pops the top node off of the graph.</p><p>This returns the popped node and the updated graph:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2299128355-1">{</span><span class="c">_node</span><span class="p">,</span><span class="w"> </span><span class="n">model</span><span class="p" data-group-id="2299128355-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">pop_node</span><span class="p" data-group-id="2299128355-2">(</span><span class="n">model</span><span class="p" data-group-id="2299128355-2">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="reduce_nodes/3">
@@ -4817,7 +4666,7 @@ <h1 class="signature" translate="no">pop_node(axon)</h1>
     </a>
     <h1 class="signature" translate="no">reduce_nodes(axon, acc, fun)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3532" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3507" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4839,10 +4688,10 @@ <h1 class="signature" translate="no">reduce_nodes(axon, acc, fun)</h1>
 </h2>
 <p>Internally this function is used in several places to accumulate
 graph metadata. For example, you can use it to count the number
-of a certain type of operation in the graph:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">reduce_nodes</span><span class="p" data-group-id="0571938926-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0571938926-2">fn</span><span class="w">
-  </span><span class="p" data-group-id="0571938926-3">%</span><span class="nc" data-group-id="0571938926-3">Axon.Nodes</span><span class="p" data-group-id="0571938926-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0571938926-3">}</span><span class="p">,</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w">
+of a certain type of operation in the graph:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">reduce_nodes</span><span class="p" data-group-id="6444303283-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="6444303283-2">fn</span><span class="w">
+  </span><span class="p" data-group-id="6444303283-3">%</span><span class="nc" data-group-id="6444303283-3">Axon.Nodes</span><span class="p" data-group-id="6444303283-3">{</span><span class="ss">op</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6444303283-3">}</span><span class="p">,</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w">
   </span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">acc</span><span class="w">
-</span><span class="k" data-group-id="0571938926-2">end</span><span class="p" data-group-id="0571938926-1">)</span></code></pre>
+</span><span class="k" data-group-id="6444303283-2">end</span><span class="p" data-group-id="6444303283-1">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="set_options/2">
@@ -4854,7 +4703,7 @@ <h1 class="signature" translate="no">reduce_nodes(axon, acc, fun)</h1>
     </a>
     <h1 class="signature" translate="no">set_options(axon, new_opts)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3378" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3353" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4881,7 +4730,7 @@ <h1 class="signature" translate="no">set_options(axon, new_opts)</h1>
     </a>
     <h1 class="signature" translate="no">set_parameters(axon, new_params)</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3343" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3318" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4921,7 +4770,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">attach_hook(x, fun, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3295" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3270" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4934,20 +4783,20 @@ <h1 class="signature" translate="no">attach_hook(x, fun, opts \\ [])</h1>
 <p>Attaches a hook to the given Axon model.</p><p>Hooks compile down to <a href="https://hexdocs.pm/nx/0.7.0/Nx.Defn.Kernel.html#hook/3"><code class="inline">Nx.Defn.Kernel.hook/3</code></a> and provide the same
 functionality for adding side-effecting operations to a compiled
 model. For example, you can use hooks to inspect intermediate activations,
-send data to an external service, and more.</p><p>Hooks can be configured to be invoked on the following events:</p><ul><li><code class="inline">:initialize</code> - on model initialization.</li><li><code class="inline">:pre_forward</code> - before layer forward pass is invoked.</li><li><code class="inline">:forward</code> - after layer forward pass is invoked.</li><li><code class="inline">:backward</code> - after layer backward pass is invoked.</li></ul><p>To invoke a hook on every single event, you may pass <code class="inline">:all</code> to <code class="inline">on:</code>.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5359090211-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5359090211-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5359090211-2">}</span><span class="p" data-group-id="5359090211-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="5359090211-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:all</span><span class="p" data-group-id="5359090211-3">)</span></code></pre><p>The default event is <code class="inline">:forward</code>, assuming you want a hook invoked
+send data to an external service, and more.</p><p>Hooks can be configured to be invoked on the following events:</p><ul><li><code class="inline">:initialize</code> - on model initialization.</li><li><code class="inline">:pre_forward</code> - before layer forward pass is invoked.</li><li><code class="inline">:forward</code> - after layer forward pass is invoked.</li><li><code class="inline">:backward</code> - after layer backward pass is invoked.</li></ul><p>To invoke a hook on every single event, you may pass <code class="inline">:all</code> to <code class="inline">on:</code>.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0361507140-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0361507140-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0361507140-2">}</span><span class="p" data-group-id="0361507140-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0361507140-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:all</span><span class="p" data-group-id="0361507140-3">)</span></code></pre><p>The default event is <code class="inline">:forward</code>, assuming you want a hook invoked
 on the layers forward pass.</p><p>You may configure hooks to run in one of only training or inference
 mode using the <code class="inline">:mode</code> option. The default mode is <code class="inline">:both</code> to be invoked
-during both train and inference mode.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0153223572-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0153223572-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0153223572-2">}</span><span class="p" data-group-id="0153223572-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0153223572-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="0153223572-3">)</span></code></pre><p>You can also attach multiple hooks to a single layer. Hooks are invoked in
+during both train and inference mode.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4053023322-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4053023322-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4053023322-2">}</span><span class="p" data-group-id="4053023322-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="4053023322-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="4053023322-3">)</span></code></pre><p>You can also attach multiple hooks to a single layer. Hooks are invoked in
 the order in which they are declared. If order is important, you should attach
-hooks in the order you want them to be executed:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9829237478-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9829237478-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9829237478-2">}</span><span class="p" data-group-id="9829237478-1">)</span><span class="w">
+hooks in the order you want them to be executed:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3375686981-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3375686981-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3375686981-2">}</span><span class="p" data-group-id="3375686981-1">)</span><span class="w">
 </span><span class="c1"># I will be executed first</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="9829237478-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9829237478-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="3375686981-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3375686981-3">)</span><span class="w">
 </span><span class="c1"># I will be executed second</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="9829237478-4">(</span><span class="k" data-group-id="9829237478-5">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">write</span><span class="p" data-group-id="9829237478-6">(</span><span class="s">&quot;HERE&quot;</span><span class="p" data-group-id="9829237478-6">)</span><span class="w"> </span><span class="k" data-group-id="9829237478-5">end</span><span class="p" data-group-id="9829237478-4">)</span></code></pre><p>Hooks are executed at their point of attachment. You must insert hooks at each point
-you want a hook to execute during model execution.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9827537829-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9827537829-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9827537829-2">}</span><span class="p" data-group-id="9827537829-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="9827537829-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9827537829-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9827537829-4">(</span><span class="p" data-group-id="9827537829-4">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="9827537829-5">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9827537829-5">)</span></code></pre>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="3375686981-4">(</span><span class="k" data-group-id="3375686981-5">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">write</span><span class="p" data-group-id="3375686981-6">(</span><span class="s">&quot;HERE&quot;</span><span class="p" data-group-id="3375686981-6">)</span><span class="w"> </span><span class="k" data-group-id="3375686981-5">end</span><span class="p" data-group-id="3375686981-4">)</span></code></pre><p>Hooks are executed at their point of attachment. You must insert hooks at each point
+you want a hook to execute during model execution.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9723809061-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9723809061-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9723809061-2">}</span><span class="p" data-group-id="9723809061-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="9723809061-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9723809061-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9723809061-4">(</span><span class="p" data-group-id="9723809061-4">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="9723809061-5">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9723809061-5">)</span></code></pre>
   </section>
 </section>
 <section class="detail" id="trace_backward/5">
@@ -4961,7 +4810,7 @@ <h1 class="signature" translate="no">attach_hook(x, fun, opts \\ [])</h1>
     </a>
     <h1 class="signature" translate="no">trace_backward(model, inputs, params, loss, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3779" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3754" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -4998,7 +4847,7 @@ <h1 class="signature" translate="no">trace_backward(model, inputs, params, loss,
     </a>
     <h1 class="signature" translate="no">trace_forward(model, inputs, params, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3754" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3729" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -5037,7 +4886,7 @@ <h1 class="signature" translate="no">trace_forward(model, inputs, params, opts \
     </a>
     <h1 class="signature" translate="no">trace_init(model, template, params \\ %{}, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3729" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L3704" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -5051,7 +4900,7 @@ <h1 class="signature" translate="no">trace_init(model, template, params \\ %{},
 expression with the given options.</p><p>The returned expression is an Nx expression which can be
 traversed and lowered to an IR or inspected for debugging
 purposes.</p><p>You may optionally specify initial parameters for some layers or
-namespaces by passing a partial parameter map:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">trace_init</span><span class="p" data-group-id="0312264072-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0312264072-2">%{</span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">dense_params</span><span class="p" data-group-id="0312264072-2">}</span><span class="p" data-group-id="0312264072-1">)</span></code></pre><p>The parameter map will be merged with the initialized model
+namespaces by passing a partial parameter map:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">trace_init</span><span class="p" data-group-id="7827517744-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7827517744-2">%{</span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">dense_params</span><span class="p" data-group-id="7827517744-2">}</span><span class="p" data-group-id="7827517744-1">)</span></code></pre><p>The parameter map will be merged with the initialized model
 parameters.</p><h2 id="trace_init/4-options" class="section-heading">
   <a href="#trace_init/4-options" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
@@ -5084,7 +4933,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">t()</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L287" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L284" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -5126,7 +4975,7 @@ <h1 class="section-heading">
     </a>
     <h1 class="signature" translate="no">bidirectional(input, forward_fun, merge_fun, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2394" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L2358" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
@@ -5158,7 +5007,7 @@ <h1 class="signature" translate="no">bidirectional(input, forward_fun, merge_fun
     </a>
     <h1 class="signature" translate="no">blur_pool(x, opts \\ [])</h1>
 
-      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1675" class="icon-action" rel="help" title="View Source">
+      <a href="https://github.com/elixir-nx/axon/blob/v0.6.1/lib/axon.ex#L1639" class="icon-action" rel="help" title="View Source">
        <i class="ri-code-s-slash-line" aria-hidden="true"></i>
        <span class="sr-only">View Source</span>
      </a>
diff --git a/accelerating_axon.html b/accelerating_axon.html
index c0dcc0ef..d399e1c3 100644
--- a/accelerating_axon.html
+++ b/accelerating_axon.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,103 +136,103 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3226407717-1">(</span><span class="p" data-group-id="3226407717-2">[</span><span class="w">
-  </span><span class="p" data-group-id="3226407717-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3226407717-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3226407717-4">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3226407717-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3226407717-5">{</span><span class="ss">:torchx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3226407717-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3226407717-6">{</span><span class="ss">:benchee</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 1.1&quot;</span><span class="p" data-group-id="3226407717-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3226407717-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3226407717-7">}</span><span class="w">
-</span><span class="p" data-group-id="3226407717-2">]</span><span class="p" data-group-id="3226407717-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="using-nx-backends-in-axon" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3186424066-1">(</span><span class="p" data-group-id="3186424066-2">[</span><span class="w">
+  </span><span class="p" data-group-id="3186424066-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3186424066-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3186424066-4">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3186424066-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3186424066-5">{</span><span class="ss">:torchx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3186424066-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3186424066-6">{</span><span class="ss">:benchee</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 1.1&quot;</span><span class="p" data-group-id="3186424066-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3186424066-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3186424066-7">}</span><span class="w">
+</span><span class="p" data-group-id="3186424066-2">]</span><span class="p" data-group-id="3186424066-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="using-nx-backends-in-axon" class="section-heading">
   <a href="#using-nx-backends-in-axon" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Using Nx Backends in Axon</span>
 </h2>
 <p>Nx provides two mechanisms for accelerating your neural networks: backends and compilers. Before we learn how to effectively use them, first let's create a simple model for benchmarking purposes:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7104376046-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7104376046-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7104376046-2">(</span><span class="mi">32</span><span class="p" data-group-id="7104376046-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7104376046-3">(</span><span class="p" data-group-id="7104376046-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7104376046-4">(</span><span class="mi">1</span><span class="p" data-group-id="7104376046-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="7104376046-5">(</span><span class="p" data-group-id="7104376046-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5640851944-1">#</span><span class="nc" data-group-id="5640851944-1">Axon</span><span class="p" data-group-id="5640851944-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5640851944-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="5640851944-2">}</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9880770064-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="9880770064-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9880770064-2">(</span><span class="mi">32</span><span class="p" data-group-id="9880770064-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9880770064-3">(</span><span class="p" data-group-id="9880770064-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9880770064-4">(</span><span class="mi">1</span><span class="p" data-group-id="9880770064-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">softmax</span><span class="p" data-group-id="9880770064-5">(</span><span class="p" data-group-id="9880770064-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5564844975-1">#</span><span class="nc" data-group-id="5564844975-1">Axon</span><span class="p" data-group-id="5564844975-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5564844975-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="5564844975-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;softmax_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="w">
-</span><span class="p" data-group-id="5640851944-1">&gt;</span></code></pre><p>Backends are where your tensors (your neural network inputs and parameters) are located. By default, Nx and Axon run all computations using the <a href="https://hexdocs.pm/nx/0.7.0/Nx.BinaryBackend.html"><code class="inline">Nx.BinaryBackend</code></a> which is a pure Elixir implementation of various numerical routines. The <a href="https://hexdocs.pm/nx/0.7.0/Nx.BinaryBackend.html"><code class="inline">Nx.BinaryBackend</code></a> is guaranteed to run wherever an Elixir installation runs; however, it is <strong>very</strong> slow. Due to the computational expense of neural networks, you should basically never use the <a href="https://hexdocs.pm/nx/0.7.0/Nx.BinaryBackend.html"><code class="inline">Nx.BinaryBackend</code></a> and instead opt for one of the available accelerated libraries. At the time of writing, Nx officially supports two of them:</p><ol><li>EXLA - Acceleration via Google's <a href="https://www.tensorflow.org/xla">XLA project</a></li><li>TorchX - Bindings to <a href="https://pytorch.org/cppdocs/">LibTorch</a></li></ol><p>Axon will respect the global and process-level Nx backend configuration. Compilers are covered more in-depth in the second half of this example. You can set the default backend using the following APIs:</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Sets the global compilation options (for all Elixir processes)</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="8393786952-1">(</span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="8393786952-1">)</span><span class="w">
+</span><span class="p" data-group-id="5564844975-1">&gt;</span></code></pre><p>Backends are where your tensors (your neural network inputs and parameters) are located. By default, Nx and Axon run all computations using the <a href="https://hexdocs.pm/nx/0.7.0/Nx.BinaryBackend.html"><code class="inline">Nx.BinaryBackend</code></a> which is a pure Elixir implementation of various numerical routines. The <a href="https://hexdocs.pm/nx/0.7.0/Nx.BinaryBackend.html"><code class="inline">Nx.BinaryBackend</code></a> is guaranteed to run wherever an Elixir installation runs; however, it is <strong>very</strong> slow. Due to the computational expense of neural networks, you should basically never use the <a href="https://hexdocs.pm/nx/0.7.0/Nx.BinaryBackend.html"><code class="inline">Nx.BinaryBackend</code></a> and instead opt for one of the available accelerated libraries. At the time of writing, Nx officially supports two of them:</p><ol><li>EXLA - Acceleration via Google's <a href="https://www.tensorflow.org/xla">XLA project</a></li><li>TorchX - Bindings to <a href="https://pytorch.org/cppdocs/">LibTorch</a></li></ol><p>Axon will respect the global and process-level Nx backend configuration. Compilers are covered more in-depth in the second half of this example. You can set the default backend using the following APIs:</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Sets the global compilation options (for all Elixir processes)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="7076418928-1">(</span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="7076418928-1">)</span><span class="w">
 </span><span class="c1"># OR</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="8393786952-2">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="8393786952-2">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="7076418928-2">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="7076418928-2">)</span><span class="w">
 
 </span><span class="c1"># Sets the process-level compilation options (current process only)</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="8393786952-3">(</span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="8393786952-3">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="7076418928-3">(</span><span class="nc">Torchx.Backend</span><span class="p" data-group-id="7076418928-3">)</span><span class="w">
 </span><span class="c1"># OR</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="8393786952-4">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="8393786952-4">)</span></code></pre><p>Now all tensors and operations on them will run on the configured backend:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7840507505-1">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="7840507505-1">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7840507505-2">(</span><span class="mi">9999</span><span class="p" data-group-id="7840507505-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="7840507505-3">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7840507505-4">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7840507505-4">}</span><span class="p" data-group-id="7840507505-3">)</span><span class="w">
-
-</span><span class="p" data-group-id="7840507505-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7840507505-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7840507505-6">(</span><span class="n">model</span><span class="p" data-group-id="7840507505-6">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7840507505-7">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7840507505-8">%{</span><span class="p" data-group-id="7840507505-8">}</span><span class="p" data-group-id="7840507505-7">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7840507505-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7840507505-9">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3940531105-1">#</span><span class="nc" data-group-id="3940531105-1">Nx.Tensor</span><span class="p" data-group-id="3940531105-1">&lt;</span><span class="w">
-  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">cuda</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3278685746</span><span class="o">.</span><span class="mf">4275961901.179470</span><span class="p" data-group-id="3940531105-1">&gt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3940531105-2">[</span><span class="mi">2</span><span class="p" data-group-id="3940531105-2">]</span><span class="p" data-group-id="3940531105-3">[</span><span class="mi">1</span><span class="p" data-group-id="3940531105-3">]</span><span class="w">
-  </span><span class="p" data-group-id="3940531105-4">[</span><span class="w">
-    </span><span class="p" data-group-id="3940531105-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="3940531105-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3940531105-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="3940531105-6">]</span><span class="w">
-  </span><span class="p" data-group-id="3940531105-4">]</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="7076418928-4">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="7076418928-4">)</span></code></pre><p>Now all tensors and operations on them will run on the configured backend:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8767422526-1">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="8767422526-1">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="8767422526-2">(</span><span class="mi">9999</span><span class="p" data-group-id="8767422526-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="8767422526-3">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8767422526-4">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="8767422526-4">}</span><span class="p" data-group-id="8767422526-3">)</span><span class="w">
+
+</span><span class="p" data-group-id="8767422526-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8767422526-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8767422526-6">(</span><span class="n">model</span><span class="p" data-group-id="8767422526-6">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8767422526-7">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8767422526-8">%{</span><span class="p" data-group-id="8767422526-8">}</span><span class="p" data-group-id="8767422526-7">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8767422526-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="8767422526-9">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3622487172-1">#</span><span class="nc" data-group-id="3622487172-1">Nx.Tensor</span><span class="p" data-group-id="3622487172-1">&lt;</span><span class="w">
+  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">cuda</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3278685746</span><span class="o">.</span><span class="mf">4275961901.179470</span><span class="p" data-group-id="3622487172-1">&gt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3622487172-2">[</span><span class="mi">2</span><span class="p" data-group-id="3622487172-2">]</span><span class="p" data-group-id="3622487172-3">[</span><span class="mi">1</span><span class="p" data-group-id="3622487172-3">]</span><span class="w">
+  </span><span class="p" data-group-id="3622487172-4">[</span><span class="w">
+    </span><span class="p" data-group-id="3622487172-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="3622487172-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3622487172-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="3622487172-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3622487172-4">]</span><span class="w">
 </span><span class="o">&gt;</span></code></pre><p>As you swap backends above, you will get tensors allocated on different backends as results. You should be careful using multiple backends in the same project as attempting to mix tensors between backends may result in strange performance bugs or errors, as Nx will require you to explicitly convert between backends.</p><p>With most larger models, using a compiler will bring more performance benefits in addition to the backend.</p><h2 id="using-nx-compilers-in-axon" class="section-heading">
   <a href="#using-nx-compilers-in-axon" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Using Nx Compilers in Axon</span>
 </h2>
-<p>Axon is built entirely on top of Nx's numerical definitions <code class="inline">defn</code>. Functions declared with <code class="inline">defn</code> tell Nx to use <em>just-in-time compilation</em> to compile and execute the given numerical definition with an available Nx compiler. Numerical definitions enable acceleration on CPU/GPU/TPU via pluggable compilers. At the time of this writing, only EXLA supports a compiler in addition to its backend.</p><p>When you call <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a>, Axon can automatically mark your initialization and forward functions as JIT compiled functions. First let's make sure we are using the EXLA backend:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="5659658609-1">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="5659658609-1">)</span></code></pre><p>And now let's build another model, this time passing the EXLA compiler as an option:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7789920776-1">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="7789920776-1">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7789920776-2">(</span><span class="mi">9999</span><span class="p" data-group-id="7789920776-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="7789920776-3">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7789920776-4">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7789920776-4">}</span><span class="p" data-group-id="7789920776-3">)</span><span class="w">
+<p>Axon is built entirely on top of Nx's numerical definitions <code class="inline">defn</code>. Functions declared with <code class="inline">defn</code> tell Nx to use <em>just-in-time compilation</em> to compile and execute the given numerical definition with an available Nx compiler. Numerical definitions enable acceleration on CPU/GPU/TPU via pluggable compilers. At the time of this writing, only EXLA supports a compiler in addition to its backend.</p><p>When you call <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a>, Axon can automatically mark your initialization and forward functions as JIT compiled functions. First let's make sure we are using the EXLA backend:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">default_backend</span><span class="p" data-group-id="3827558780-1">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="3827558780-1">)</span></code></pre><p>And now let's build another model, this time passing the EXLA compiler as an option:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3821552140-1">{</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="3821552140-1">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3821552140-2">(</span><span class="mi">9999</span><span class="p" data-group-id="3821552140-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="3821552140-3">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3821552140-4">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="3821552140-4">}</span><span class="p" data-group-id="3821552140-3">)</span><span class="w">
 
-</span><span class="p" data-group-id="7789920776-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7789920776-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7789920776-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7789920776-6">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7789920776-7">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7789920776-8">%{</span><span class="p" data-group-id="7789920776-8">}</span><span class="p" data-group-id="7789920776-7">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7789920776-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7789920776-9">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="w">
-</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.463</span><span class="w"> </span><span class="p" data-group-id="3886524789-1">[</span><span class="n">info</span><span class="p" data-group-id="3886524789-1">]</span><span class="w"> </span><span class="n">successful</span><span class="w"> </span><span class="nc">NUMA</span><span class="w"> </span><span class="n">node</span><span class="w"> </span><span class="n">read</span><span class="w"> </span><span class="n">from</span><span class="w"> </span><span class="nc">SysFS</span><span class="w"> </span><span class="n">had</span><span class="w"> </span><span class="n">negative</span><span class="w"> </span><span class="n">value</span><span class="w"> </span><span class="p" data-group-id="3886524789-2">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3886524789-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">but</span><span class="w"> </span><span class="n">there</span><span class="w"> </span><span class="n">must</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">at</span><span class="w"> </span><span class="n">least</span><span class="w"> </span><span class="n">one</span><span class="w"> </span><span class="nc">NUMA</span><span class="w"> </span><span class="n">node</span><span class="p">,</span><span class="w"> </span><span class="n">so</span><span class="w"> </span><span class="n">returning</span><span class="w"> </span><span class="nc">NUMA</span><span class="w"> </span><span class="n">node</span><span class="w"> </span><span class="n">zero</span><span class="w">
+</span><span class="p" data-group-id="3821552140-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3821552140-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3821552140-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3821552140-6">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3821552140-7">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3821552140-8">%{</span><span class="p" data-group-id="3821552140-8">}</span><span class="p" data-group-id="3821552140-7">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="3821552140-9">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="3821552140-9">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="w">
+</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.463</span><span class="w"> </span><span class="p" data-group-id="3372465351-1">[</span><span class="n">info</span><span class="p" data-group-id="3372465351-1">]</span><span class="w"> </span><span class="n">successful</span><span class="w"> </span><span class="nc">NUMA</span><span class="w"> </span><span class="n">node</span><span class="w"> </span><span class="n">read</span><span class="w"> </span><span class="n">from</span><span class="w"> </span><span class="nc">SysFS</span><span class="w"> </span><span class="n">had</span><span class="w"> </span><span class="n">negative</span><span class="w"> </span><span class="n">value</span><span class="w"> </span><span class="p" data-group-id="3372465351-2">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="3372465351-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">but</span><span class="w"> </span><span class="n">there</span><span class="w"> </span><span class="n">must</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">at</span><span class="w"> </span><span class="n">least</span><span class="w"> </span><span class="n">one</span><span class="w"> </span><span class="nc">NUMA</span><span class="w"> </span><span class="n">node</span><span class="p">,</span><span class="w"> </span><span class="n">so</span><span class="w"> </span><span class="n">returning</span><span class="w"> </span><span class="nc">NUMA</span><span class="w"> </span><span class="n">node</span><span class="w"> </span><span class="n">zero</span><span class="w">
 
-</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.473</span><span class="w"> </span><span class="p" data-group-id="3886524789-3">[</span><span class="n">info</span><span class="p" data-group-id="3886524789-3">]</span><span class="w"> </span><span class="nc">XLA</span><span class="w"> </span><span class="n">service</span><span class="w"> </span><span class="mh">0x7f3488329030</span><span class="w"> </span><span class="n">initialized</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">platform</span><span class="w"> </span><span class="nc">CUDA</span><span class="w"> </span><span class="p" data-group-id="3886524789-4">(</span><span class="n">this</span><span class="w"> </span><span class="n">does</span><span class="w"> </span><span class="ow">not</span><span class="w"> </span><span class="n">guarantee</span><span class="w"> </span><span class="n">that</span><span class="w"> </span><span class="nc">XLA</span><span class="w"> </span><span class="n">will</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">used</span><span class="p" data-group-id="3886524789-4">)</span><span class="o">.</span><span class="w"> </span><span class="ss">Devices</span><span class="p">:</span><span class="w">
+</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.473</span><span class="w"> </span><span class="p" data-group-id="3372465351-3">[</span><span class="n">info</span><span class="p" data-group-id="3372465351-3">]</span><span class="w"> </span><span class="nc">XLA</span><span class="w"> </span><span class="n">service</span><span class="w"> </span><span class="mh">0x7f3488329030</span><span class="w"> </span><span class="n">initialized</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">platform</span><span class="w"> </span><span class="nc">CUDA</span><span class="w"> </span><span class="p" data-group-id="3372465351-4">(</span><span class="n">this</span><span class="w"> </span><span class="n">does</span><span class="w"> </span><span class="ow">not</span><span class="w"> </span><span class="n">guarantee</span><span class="w"> </span><span class="n">that</span><span class="w"> </span><span class="nc">XLA</span><span class="w"> </span><span class="n">will</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">used</span><span class="p" data-group-id="3372465351-4">)</span><span class="o">.</span><span class="w"> </span><span class="ss">Devices</span><span class="p">:</span><span class="w">
 
-</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.473</span><span class="w"> </span><span class="p" data-group-id="3886524789-5">[</span><span class="n">info</span><span class="p" data-group-id="3886524789-5">]</span><span class="w">   </span><span class="nc">StreamExecutor</span><span class="w"> </span><span class="n">device</span><span class="w"> </span><span class="p" data-group-id="3886524789-6">(</span><span class="mi">0</span><span class="p" data-group-id="3886524789-6">)</span><span class="p">:</span><span class="w"> </span><span class="nc">NVIDIA</span><span class="w"> </span><span class="nc">GeForce</span><span class="w"> </span><span class="nc">RTX</span><span class="w"> </span><span class="mi">3050</span><span class="w"> </span><span class="nc">Ti</span><span class="w"> </span><span class="nc">Laptop</span><span class="w"> </span><span class="nc">GPU</span><span class="p">,</span><span class="w"> </span><span class="nc">Compute</span><span class="w"> </span><span class="nc">Capability</span><span class="w"> </span><span class="mf">8.6</span><span class="w">
+</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.473</span><span class="w"> </span><span class="p" data-group-id="3372465351-5">[</span><span class="n">info</span><span class="p" data-group-id="3372465351-5">]</span><span class="w">   </span><span class="nc">StreamExecutor</span><span class="w"> </span><span class="n">device</span><span class="w"> </span><span class="p" data-group-id="3372465351-6">(</span><span class="mi">0</span><span class="p" data-group-id="3372465351-6">)</span><span class="p">:</span><span class="w"> </span><span class="nc">NVIDIA</span><span class="w"> </span><span class="nc">GeForce</span><span class="w"> </span><span class="nc">RTX</span><span class="w"> </span><span class="mi">3050</span><span class="w"> </span><span class="nc">Ti</span><span class="w"> </span><span class="nc">Laptop</span><span class="w"> </span><span class="nc">GPU</span><span class="p">,</span><span class="w"> </span><span class="nc">Compute</span><span class="w"> </span><span class="nc">Capability</span><span class="w"> </span><span class="mf">8.6</span><span class="w">
 
-</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.473</span><span class="w"> </span><span class="p" data-group-id="3886524789-7">[</span><span class="n">info</span><span class="p" data-group-id="3886524789-7">]</span><span class="w"> </span><span class="nc">Using</span><span class="w"> </span><span class="nc">BFC</span><span class="w"> </span><span class="n">allocator</span><span class="o">.</span><span class="w">
+</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.473</span><span class="w"> </span><span class="p" data-group-id="3372465351-7">[</span><span class="n">info</span><span class="p" data-group-id="3372465351-7">]</span><span class="w"> </span><span class="nc">Using</span><span class="w"> </span><span class="nc">BFC</span><span class="w"> </span><span class="n">allocator</span><span class="o">.</span><span class="w">
 
-</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.473</span><span class="w"> </span><span class="p" data-group-id="3886524789-8">[</span><span class="n">info</span><span class="p" data-group-id="3886524789-8">]</span><span class="w"> </span><span class="nc">XLA</span><span class="w"> </span><span class="n">backend</span><span class="w"> </span><span class="n">allocating</span><span class="w"> </span><span class="mi">3605004288</span><span class="w"> </span><span class="n">bytes</span><span class="w"> </span><span class="n">on</span><span class="w"> </span><span class="n">device</span><span class="w"> </span><span class="mi">0</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="nc">BFCAllocator</span><span class="o">.</span><span class="w">
+</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">26.473</span><span class="w"> </span><span class="p" data-group-id="3372465351-8">[</span><span class="n">info</span><span class="p" data-group-id="3372465351-8">]</span><span class="w"> </span><span class="nc">XLA</span><span class="w"> </span><span class="n">backend</span><span class="w"> </span><span class="n">allocating</span><span class="w"> </span><span class="mi">3605004288</span><span class="w"> </span><span class="n">bytes</span><span class="w"> </span><span class="n">on</span><span class="w"> </span><span class="n">device</span><span class="w"> </span><span class="mi">0</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="nc">BFCAllocator</span><span class="o">.</span><span class="w">
 
-</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">28.272</span><span class="w"> </span><span class="p" data-group-id="3886524789-9">[</span><span class="n">info</span><span class="p" data-group-id="3886524789-9">]</span><span class="w"> </span><span class="nc">TensorFloat</span><span class="o">-</span><span class="mi">32</span><span class="w"> </span><span class="n">will</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">used</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">matrix</span><span class="w"> </span><span class="n">multiplication</span><span class="o">.</span><span class="w"> </span><span class="nc">This</span><span class="w"> </span><span class="n">will</span><span class="w"> </span><span class="n">only</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">logged</span><span class="w"> </span><span class="n">once</span><span class="o">.</span><span class="w">
-</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2779922032-1">#</span><span class="nc" data-group-id="2779922032-1">Nx.Tensor</span><span class="p" data-group-id="2779922032-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2779922032-2">[</span><span class="mi">2</span><span class="p" data-group-id="2779922032-2">]</span><span class="p" data-group-id="2779922032-3">[</span><span class="mi">1</span><span class="p" data-group-id="2779922032-3">]</span><span class="w">
-  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">cuda</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3278685746</span><span class="o">.</span><span class="mf">4275699756.253533</span><span class="p" data-group-id="2779922032-1">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2779922032-4">[</span><span class="w">
-    </span><span class="p" data-group-id="2779922032-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="2779922032-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="2779922032-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="2779922032-6">]</span><span class="w">
-  </span><span class="p" data-group-id="2779922032-4">]</span><span class="w">
-</span><span class="o">&gt;</span></code></pre><p>You can also instead JIT compile functions explicitly via the <code class="inline">Nx.Defn.jit</code> or compiler-specific JIT APIs. This is useful when running benchmarks against various backends:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6976708049-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6976708049-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6976708049-2">(</span><span class="n">model</span><span class="p" data-group-id="6976708049-2">)</span><span class="w">
+</span><span class="mi">15</span><span class="p">:</span><span class="mi">39</span><span class="p">:</span><span class="mf">28.272</span><span class="w"> </span><span class="p" data-group-id="3372465351-9">[</span><span class="n">info</span><span class="p" data-group-id="3372465351-9">]</span><span class="w"> </span><span class="nc">TensorFloat</span><span class="o">-</span><span class="mi">32</span><span class="w"> </span><span class="n">will</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">used</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">matrix</span><span class="w"> </span><span class="n">multiplication</span><span class="o">.</span><span class="w"> </span><span class="nc">This</span><span class="w"> </span><span class="n">will</span><span class="w"> </span><span class="n">only</span><span class="w"> </span><span class="n">be</span><span class="w"> </span><span class="n">logged</span><span class="w"> </span><span class="n">once</span><span class="o">.</span><span class="w">
+</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1847348409-1">#</span><span class="nc" data-group-id="1847348409-1">Nx.Tensor</span><span class="p" data-group-id="1847348409-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="1847348409-2">[</span><span class="mi">2</span><span class="p" data-group-id="1847348409-2">]</span><span class="p" data-group-id="1847348409-3">[</span><span class="mi">1</span><span class="p" data-group-id="1847348409-3">]</span><span class="w">
+  </span><span class="nc">EXLA.Backend</span><span class="o">&lt;</span><span class="n">cuda</span><span class="p">:</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3278685746</span><span class="o">.</span><span class="mf">4275699756.253533</span><span class="p" data-group-id="1847348409-1">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1847348409-4">[</span><span class="w">
+    </span><span class="p" data-group-id="1847348409-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="1847348409-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1847348409-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="1847348409-6">]</span><span class="w">
+  </span><span class="p" data-group-id="1847348409-4">]</span><span class="w">
+</span><span class="o">&gt;</span></code></pre><p>You can also instead JIT compile functions explicitly via the <code class="inline">Nx.Defn.jit</code> or compiler-specific JIT APIs. This is useful when running benchmarks against various backends:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0001467527-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0001467527-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0001467527-2">(</span><span class="n">model</span><span class="p" data-group-id="0001467527-2">)</span><span class="w">
 
 </span><span class="c1"># These will both JIT compile with EXLA</span><span class="w">
-</span><span class="n">exla_init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="6976708049-3">(</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6976708049-3">)</span><span class="w">
-</span><span class="n">exla_predict_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">EXLA</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="6976708049-4">(</span><span class="n">predict_fn</span><span class="p" data-group-id="6976708049-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7922572168-1">#</span><span class="nc" data-group-id="7922572168-1">Function</span><span class="p" data-group-id="7922572168-1">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="7922572168-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Benchee</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6612662531-1">(</span><span class="w">
-  </span><span class="p" data-group-id="6612662531-2">%{</span><span class="w">
-    </span><span class="s">&quot;elixir init&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="6612662531-3">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6612662531-4">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6612662531-5">%{</span><span class="p" data-group-id="6612662531-5">}</span><span class="p" data-group-id="6612662531-4">)</span><span class="w"> </span><span class="k" data-group-id="6612662531-3">end</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;exla init&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="6612662531-6">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">exla_init_fn</span><span class="o">.</span><span class="p" data-group-id="6612662531-7">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6612662531-8">%{</span><span class="p" data-group-id="6612662531-8">}</span><span class="p" data-group-id="6612662531-7">)</span><span class="w"> </span><span class="k" data-group-id="6612662531-6">end</span><span class="w">
-  </span><span class="p" data-group-id="6612662531-2">}</span><span class="p">,</span><span class="w">
+</span><span class="n">exla_init_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="0001467527-3">(</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="0001467527-3">)</span><span class="w">
+</span><span class="n">exla_predict_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">EXLA</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="0001467527-4">(</span><span class="n">predict_fn</span><span class="p" data-group-id="0001467527-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9438488517-1">#</span><span class="nc" data-group-id="9438488517-1">Function</span><span class="p" data-group-id="9438488517-1">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="9438488517-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Benchee</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1065030140-1">(</span><span class="w">
+  </span><span class="p" data-group-id="1065030140-2">%{</span><span class="w">
+    </span><span class="s">&quot;elixir init&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="1065030140-3">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1065030140-4">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1065030140-5">%{</span><span class="p" data-group-id="1065030140-5">}</span><span class="p" data-group-id="1065030140-4">)</span><span class="w"> </span><span class="k" data-group-id="1065030140-3">end</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;exla init&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="1065030140-6">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">exla_init_fn</span><span class="o">.</span><span class="p" data-group-id="1065030140-7">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1065030140-8">%{</span><span class="p" data-group-id="1065030140-8">}</span><span class="p" data-group-id="1065030140-7">)</span><span class="w"> </span><span class="k" data-group-id="1065030140-6">end</span><span class="w">
+  </span><span class="p" data-group-id="1065030140-2">}</span><span class="p">,</span><span class="w">
   </span><span class="ss">time</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w">
   </span><span class="ss">memory_time</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w">
   </span><span class="ss">warmup</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="6612662531-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">elixir</span><span class="w"> </span><span class="n">init</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
+</span><span class="p" data-group-id="1065030140-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">elixir</span><span class="w"> </span><span class="n">init</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
   </span><span class="nc">Evaluated</span><span class="w"> </span><span class="n">functions</span><span class="w"> </span><span class="n">perform</span><span class="w"> </span><span class="n">slower</span><span class="w"> </span><span class="n">than</span><span class="w"> </span><span class="n">compiled</span><span class="w"> </span><span class="n">functions</span><span class="o">.</span><span class="w">
-  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="0452518613-1">(</span><span class="p" data-group-id="0452518613-1">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
+  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="4204068134-1">(</span><span class="p" data-group-id="4204068134-1">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
   </span><span class="nc">Alternatively</span><span class="p">,</span><span class="w"> </span><span class="n">you</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">into</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w"> </span><span class="n">file</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">mix</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w">
 
 </span><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">exla</span><span class="w"> </span><span class="n">init</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
   </span><span class="nc">Evaluated</span><span class="w"> </span><span class="n">functions</span><span class="w"> </span><span class="n">perform</span><span class="w"> </span><span class="n">slower</span><span class="w"> </span><span class="n">than</span><span class="w"> </span><span class="n">compiled</span><span class="w"> </span><span class="n">functions</span><span class="o">.</span><span class="w">
-  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="0452518613-2">(</span><span class="p" data-group-id="0452518613-2">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
+  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="4204068134-2">(</span><span class="p" data-group-id="4204068134-2">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
   </span><span class="nc">Alternatively</span><span class="p">,</span><span class="w"> </span><span class="n">you</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">into</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w"> </span><span class="n">file</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">mix</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w">
 
 </span><span class="nc">Operating</span><span class="w"> </span><span class="ss">System</span><span class="p">:</span><span class="w"> </span><span class="nc">Linux</span><span class="w">
-</span><span class="nc">CPU</span><span class="w"> </span><span class="ss">Information</span><span class="p">:</span><span class="w"> </span><span class="nc">Intel</span><span class="p" data-group-id="0452518613-3">(</span><span class="nc">R</span><span class="p" data-group-id="0452518613-3">)</span><span class="w"> </span><span class="nc">Core</span><span class="p" data-group-id="0452518613-4">(</span><span class="nc">TM</span><span class="p" data-group-id="0452518613-4">)</span><span class="w"> </span><span class="n">i7</span><span class="o">-</span><span class="mi">7600</span><span class="nc">U</span><span class="w"> </span><span class="nc">CPU</span><span class="w"> </span><span class="err">@</span><span class="w"> </span><span class="mf">2.80</span><span class="nc">GHz</span><span class="w">
+</span><span class="nc">CPU</span><span class="w"> </span><span class="ss">Information</span><span class="p">:</span><span class="w"> </span><span class="nc">Intel</span><span class="p" data-group-id="4204068134-3">(</span><span class="nc">R</span><span class="p" data-group-id="4204068134-3">)</span><span class="w"> </span><span class="nc">Core</span><span class="p" data-group-id="4204068134-4">(</span><span class="nc">TM</span><span class="p" data-group-id="4204068134-4">)</span><span class="w"> </span><span class="n">i7</span><span class="o">-</span><span class="mi">7600</span><span class="nc">U</span><span class="w"> </span><span class="nc">CPU</span><span class="w"> </span><span class="err">@</span><span class="w"> </span><span class="mf">2.80</span><span class="nc">GHz</span><span class="w">
 </span><span class="nc">Number</span><span class="w"> </span><span class="n">of</span><span class="w"> </span><span class="nc">Available</span><span class="w"> </span><span class="ss">Cores</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="w">
 </span><span class="nc">Available</span><span class="w"> </span><span class="ss">memory</span><span class="p">:</span><span class="w"> </span><span class="mf">24.95</span><span class="w"> </span><span class="nc">GB</span><span class="w">
 </span><span class="nc">Elixir</span><span class="w"> </span><span class="mf">1.13</span><span class="o">.</span><span class="mi">4</span><span class="w">
@@ -264,26 +264,26 @@ <h1>
 </span><span class="n">exla</span><span class="w"> </span><span class="n">init</span><span class="w">           </span><span class="mf">9.80</span><span class="w"> </span><span class="nc">KB</span><span class="w">
 </span><span class="n">elixir</span><span class="w"> </span><span class="n">init</span><span class="w">       </span><span class="mf">644.63</span><span class="w"> </span><span class="nc">KB</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mf">65.80</span><span class="n">x</span><span class="w"> </span><span class="n">memory</span><span class="w"> </span><span class="n">usage</span><span class="w"> </span><span class="o">+</span><span class="mf">634.83</span><span class="w"> </span><span class="nc">KB</span><span class="w">
 
-</span><span class="o">*</span><span class="o">*</span><span class="nc">All</span><span class="w"> </span><span class="n">measurements</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">memory</span><span class="w"> </span><span class="n">usage</span><span class="w"> </span><span class="n">were</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">same</span><span class="o">*</span><span class="o">*</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Benchee</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6468857038-1">(</span><span class="w">
-  </span><span class="p" data-group-id="6468857038-2">%{</span><span class="w">
-    </span><span class="s">&quot;elixir predict&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="6468857038-3">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6468857038-4">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="6468857038-4">)</span><span class="w"> </span><span class="k" data-group-id="6468857038-3">end</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;exla predict&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="6468857038-5">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">exla_predict_fn</span><span class="o">.</span><span class="p" data-group-id="6468857038-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="6468857038-6">)</span><span class="w"> </span><span class="k" data-group-id="6468857038-5">end</span><span class="w">
-  </span><span class="p" data-group-id="6468857038-2">}</span><span class="p">,</span><span class="w">
+</span><span class="o">*</span><span class="o">*</span><span class="nc">All</span><span class="w"> </span><span class="n">measurements</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">memory</span><span class="w"> </span><span class="n">usage</span><span class="w"> </span><span class="n">were</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">same</span><span class="o">*</span><span class="o">*</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Benchee</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7405497634-1">(</span><span class="w">
+  </span><span class="p" data-group-id="7405497634-2">%{</span><span class="w">
+    </span><span class="s">&quot;elixir predict&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="7405497634-3">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7405497634-4">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7405497634-4">)</span><span class="w"> </span><span class="k" data-group-id="7405497634-3">end</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;exla predict&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="k" data-group-id="7405497634-5">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">exla_predict_fn</span><span class="o">.</span><span class="p" data-group-id="7405497634-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7405497634-6">)</span><span class="w"> </span><span class="k" data-group-id="7405497634-5">end</span><span class="w">
+  </span><span class="p" data-group-id="7405497634-2">}</span><span class="p">,</span><span class="w">
   </span><span class="ss">time</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w">
   </span><span class="ss">memory_time</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w">
   </span><span class="ss">warmup</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="6468857038-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">elixir</span><span class="w"> </span><span class="n">predict</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
+</span><span class="p" data-group-id="7405497634-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">elixir</span><span class="w"> </span><span class="n">predict</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
   </span><span class="nc">Evaluated</span><span class="w"> </span><span class="n">functions</span><span class="w"> </span><span class="n">perform</span><span class="w"> </span><span class="n">slower</span><span class="w"> </span><span class="n">than</span><span class="w"> </span><span class="n">compiled</span><span class="w"> </span><span class="n">functions</span><span class="o">.</span><span class="w">
-  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="7743678089-1">(</span><span class="p" data-group-id="7743678089-1">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
+  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="1327631785-1">(</span><span class="p" data-group-id="1327631785-1">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
   </span><span class="nc">Alternatively</span><span class="p">,</span><span class="w"> </span><span class="n">you</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">into</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w"> </span><span class="n">file</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">mix</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w">
 
 </span><span class="ss">Warning</span><span class="p">:</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">exla</span><span class="w"> </span><span class="n">predict</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">using</span><span class="w"> </span><span class="n">an</span><span class="w"> </span><span class="n">evaluated</span><span class="w"> </span><span class="n">function</span><span class="o">.</span><span class="w">
   </span><span class="nc">Evaluated</span><span class="w"> </span><span class="n">functions</span><span class="w"> </span><span class="n">perform</span><span class="w"> </span><span class="n">slower</span><span class="w"> </span><span class="n">than</span><span class="w"> </span><span class="n">compiled</span><span class="w"> </span><span class="n">functions</span><span class="o">.</span><span class="w">
-  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="7743678089-2">(</span><span class="p" data-group-id="7743678089-2">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
+  </span><span class="nc">You</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="nc">Benchee</span><span class="w"> </span><span class="n">caller</span><span class="w"> </span><span class="n">to</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">function</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">module</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">invoke</span><span class="w"> </span><span class="err">`</span><span class="nc">Mod</span><span class="o">.</span><span class="n">fun</span><span class="p" data-group-id="1327631785-2">(</span><span class="p" data-group-id="1327631785-2">)</span><span class="err">`</span><span class="w"> </span><span class="n">instead</span><span class="o">.</span><span class="w">
   </span><span class="nc">Alternatively</span><span class="p">,</span><span class="w"> </span><span class="n">you</span><span class="w"> </span><span class="n">can</span><span class="w"> </span><span class="n">move</span><span class="w"> </span><span class="n">the</span><span class="w"> </span><span class="n">benchmark</span><span class="w"> </span><span class="n">into</span><span class="w"> </span><span class="n">a</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w"> </span><span class="n">file</span><span class="w"> </span><span class="ow">and</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">mix</span><span class="w"> </span><span class="n">run</span><span class="w"> </span><span class="n">benchmark</span><span class="o">.</span><span class="n">exs</span><span class="w">
 
 </span><span class="nc">Operating</span><span class="w"> </span><span class="ss">System</span><span class="p">:</span><span class="w"> </span><span class="nc">Linux</span><span class="w">
-</span><span class="nc">CPU</span><span class="w"> </span><span class="ss">Information</span><span class="p">:</span><span class="w"> </span><span class="nc">Intel</span><span class="p" data-group-id="7743678089-3">(</span><span class="nc">R</span><span class="p" data-group-id="7743678089-3">)</span><span class="w"> </span><span class="nc">Core</span><span class="p" data-group-id="7743678089-4">(</span><span class="nc">TM</span><span class="p" data-group-id="7743678089-4">)</span><span class="w"> </span><span class="n">i7</span><span class="o">-</span><span class="mi">7600</span><span class="nc">U</span><span class="w"> </span><span class="nc">CPU</span><span class="w"> </span><span class="err">@</span><span class="w"> </span><span class="mf">2.80</span><span class="nc">GHz</span><span class="w">
+</span><span class="nc">CPU</span><span class="w"> </span><span class="ss">Information</span><span class="p">:</span><span class="w"> </span><span class="nc">Intel</span><span class="p" data-group-id="1327631785-3">(</span><span class="nc">R</span><span class="p" data-group-id="1327631785-3">)</span><span class="w"> </span><span class="nc">Core</span><span class="p" data-group-id="1327631785-4">(</span><span class="nc">TM</span><span class="p" data-group-id="1327631785-4">)</span><span class="w"> </span><span class="n">i7</span><span class="o">-</span><span class="mi">7600</span><span class="nc">U</span><span class="w"> </span><span class="nc">CPU</span><span class="w"> </span><span class="err">@</span><span class="w"> </span><span class="mf">2.80</span><span class="nc">GHz</span><span class="w">
 </span><span class="nc">Number</span><span class="w"> </span><span class="n">of</span><span class="w"> </span><span class="nc">Available</span><span class="w"> </span><span class="ss">Cores</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="w">
 </span><span class="nc">Available</span><span class="w"> </span><span class="ss">memory</span><span class="p">:</span><span class="w"> </span><span class="mf">24.95</span><span class="w"> </span><span class="nc">GB</span><span class="w">
 </span><span class="nc">Elixir</span><span class="w"> </span><span class="mf">1.13</span><span class="o">.</span><span class="mi">4</span><span class="w">
diff --git a/api-reference.html b/api-reference.html
index 2e3c45f1..ccc90c05 100644
--- a/api-reference.html
+++ b/api-reference.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -248,6 +248,15 @@ <h2 id="modules" class="section-heading">
 
     <div class="summary-synopsis"><p>Utilities for creating mixed precision policies.</p></div>
 
+</div>
+<div class="summary-row">
+  <div class="summary-signature">
+    <a href="Axon.ModelState.html" translate="no">Axon.ModelState</a>
+
+  </div>
+
+    <div class="summary-synopsis"><p>Model State Data Structure.</p></div>
+
 </div>
 <div class="summary-row">
   <div class="summary-signature">
diff --git a/complex_models.html b/complex_models.html
index 7c0c3c28..01c5ab14 100644
--- a/complex_models.html
+++ b/complex_models.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,26 +136,26 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0470329644-1">(</span><span class="p" data-group-id="0470329644-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0470329644-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="0470329644-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0470329644-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="0470329644-4">}</span><span class="w">
-</span><span class="p" data-group-id="0470329644-2">]</span><span class="p" data-group-id="0470329644-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-more-complex-models" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="4974477885-1">(</span><span class="p" data-group-id="4974477885-2">[</span><span class="w">
+  </span><span class="p" data-group-id="4974477885-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="4974477885-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4974477885-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="4974477885-4">}</span><span class="w">
+</span><span class="p" data-group-id="4974477885-2">]</span><span class="p" data-group-id="4974477885-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-more-complex-models" class="section-heading">
   <a href="#creating-more-complex-models" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Creating more complex models</span>
 </h2>
-<p>Not all models you'd want to create fit cleanly in the <em>sequential</em> paradigm. Some models require a more flexible API. Fortunately, because Axon models are just Elixir data structures, you can manipulate them and decompose architectures as you would any other Elixir program:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1738026022-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="1738026022-1">)</span><span class="w">
+<p>Not all models you'd want to create fit cleanly in the <em>sequential</em> paradigm. Some models require a more flexible API. Fortunately, because Axon models are just Elixir data structures, you can manipulate them and decompose architectures as you would any other Elixir program:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6068342399-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6068342399-1">)</span><span class="w">
 
-</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1738026022-2">(</span><span class="mi">32</span><span class="p" data-group-id="1738026022-2">)</span><span class="w">
-</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1738026022-3">(</span><span class="mi">64</span><span class="p" data-group-id="1738026022-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1738026022-4">(</span><span class="p" data-group-id="1738026022-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1738026022-5">(</span><span class="mi">32</span><span class="p" data-group-id="1738026022-5">)</span><span class="w">
+</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6068342399-2">(</span><span class="mi">32</span><span class="p" data-group-id="6068342399-2">)</span><span class="w">
+</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6068342399-3">(</span><span class="mi">64</span><span class="p" data-group-id="6068342399-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6068342399-4">(</span><span class="p" data-group-id="6068342399-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6068342399-5">(</span><span class="mi">32</span><span class="p" data-group-id="6068342399-5">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="1738026022-6">(</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="1738026022-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9607899275-1">#</span><span class="nc" data-group-id="9607899275-1">Axon</span><span class="p" data-group-id="9607899275-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9607899275-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="9607899275-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6068342399-6">(</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="6068342399-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9022880972-1">#</span><span class="nc" data-group-id="9022880972-1">Axon</span><span class="p" data-group-id="9022880972-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9022880972-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="9022880972-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;add_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">7</span><span class="w">
-</span><span class="p" data-group-id="9607899275-1">&gt;</span></code></pre><p>In the snippet above, your model branches <code class="inline">input</code> into <code class="inline">x1</code> and <code class="inline">x2</code>. Each branch performs a different set of transformations; however, at the end the branches are merged with an <a href="Axon.html#add/3"><code class="inline">Axon.add/3</code></a>. You might sometimes see layers like <a href="Axon.html#add/3"><code class="inline">Axon.add/3</code></a> called <em>combinators</em>. Really they're just layers that operate on multiple Axon models at once - typically to merge some branches together.</p><p><code class="inline">out</code> represents your final Axon model.</p><p>If you visualize this model, you can see the full effect of the branching in this model:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0388419326-1">(</span><span class="p" data-group-id="0388419326-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0388419326-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0388419326-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="0388419326-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="0388419326-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="9022880972-1">&gt;</span></code></pre><p>In the snippet above, your model branches <code class="inline">input</code> into <code class="inline">x1</code> and <code class="inline">x2</code>. Each branch performs a different set of transformations; however, at the end the branches are merged with an <a href="Axon.html#add/3"><code class="inline">Axon.add/3</code></a>. You might sometimes see layers like <a href="Axon.html#add/3"><code class="inline">Axon.add/3</code></a> called <em>combinators</em>. Really they're just layers that operate on multiple Axon models at once - typically to merge some branches together.</p><p><code class="inline">out</code> represents your final Axon model.</p><p>If you visualize this model, you can see the full effect of the branching in this model:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="9784693470-1">(</span><span class="p" data-group-id="9784693470-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="9784693470-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="9784693470-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="9784693470-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="9784693470-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 4[&quot;dense_0 (:dense) {2, 32}&quot;];
 5[&quot;dense_1 (:dense) {2, 64}&quot;];
@@ -169,43 +169,43 @@ <h1>
 6 --&gt; 7;
 5 --&gt; 6;
 3 --&gt; 5;
-3 --&gt; 4;</code></pre><p>And you can use <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a> on <code class="inline">out</code> as you would any other Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2640179996-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="2640179996-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="2640179996-2">(</span><span class="n">out</span><span class="p" data-group-id="2640179996-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5306241831-1">{</span><span class="p" data-group-id="5306241831-2">#</span><span class="nc" data-group-id="5306241831-2">Function</span><span class="p" data-group-id="5306241831-2">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="5306241831-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="5306241831-3">#</span><span class="nc" data-group-id="5306241831-3">Function</span><span class="p" data-group-id="5306241831-3">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="5306241831-3">&gt;</span><span class="p" data-group-id="5306241831-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5961154077-1">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5961154077-2">%{</span><span class="p" data-group-id="5961154077-2">}</span><span class="p" data-group-id="5961154077-1">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5961154077-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5961154077-4">(</span><span class="p" data-group-id="5961154077-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5961154077-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5961154077-4">)</span><span class="p" data-group-id="5961154077-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7070618663-1">#</span><span class="nc" data-group-id="7070618663-1">Nx.Tensor</span><span class="p" data-group-id="7070618663-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7070618663-2">[</span><span class="mi">2</span><span class="p" data-group-id="7070618663-2">]</span><span class="p" data-group-id="7070618663-3">[</span><span class="mi">32</span><span class="p" data-group-id="7070618663-3">]</span><span class="w">
-  </span><span class="p" data-group-id="7070618663-4">[</span><span class="w">
-    </span><span class="p" data-group-id="7070618663-5">[</span><span class="o">-</span><span class="mf">4.283246040344238</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8983498811721802</span><span class="p">,</span><span class="w"> </span><span class="mf">3.697357654571533</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.720174789428711</span><span class="p">,</span><span class="w"> </span><span class="mf">4.1636152267456055</span><span class="p">,</span><span class="w"> </span><span class="mf">1.001131534576416</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7027540802955627</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7821826934814453</span><span class="p">,</span><span class="w"> </span><span class="mf">0.027841567993164062</span><span class="p">,</span><span class="w"> </span><span class="mf">9.267499923706055</span><span class="p">,</span><span class="w"> </span><span class="mf">3.33616304397583</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5465859174728394</span><span class="p">,</span><span class="w"> </span><span class="mf">8.983413696289062</span><span class="p">,</span><span class="w"> </span><span class="mf">3.7445120811462402</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2405576705932617</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.61336350440979</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7320983409881592</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5740477442741394</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22006472945213318</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1806044578552246</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1092393398284912</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29313594102859497</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41948509216308594</span><span class="p">,</span><span class="w"> </span><span class="mf">3.526411533355713</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9127179384231567</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8373844623565674</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1746022701263428</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6885149478912354</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4326229095458984</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3498257398605347</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.803186416625977</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5204020738601685</span><span class="p" data-group-id="7070618663-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7070618663-6">[</span><span class="o">-</span><span class="mf">15.615742683410645</span><span class="p">,</span><span class="w"> </span><span class="mf">6.555544853210449</span><span class="p">,</span><span class="w"> </span><span class="mf">7.033155918121338</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.33556842803955</span><span class="p">,</span><span class="w"> </span><span class="mf">14.105436325073242</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.230871200561523</span><span class="p">,</span><span class="w"> </span><span class="mf">5.985136032104492</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.445676803588867</span><span class="p">,</span><span class="w"> </span><span class="mf">5.383096694946289</span><span class="p">,</span><span class="w"> </span><span class="mf">23.413570404052734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8907639980316162</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.400709629058838</span><span class="p">,</span><span class="w"> </span><span class="mf">19.19326400756836</span><span class="p">,</span><span class="w"> </span><span class="mf">13.784171104431152</span><span class="p">,</span><span class="w"> </span><span class="mf">9.641424179077148</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.407038688659668</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.688483238220215</span><span class="p">,</span><span class="w"> </span><span class="mf">4.383636474609375</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="7070618663-6">]</span><span class="w">
-  </span><span class="p" data-group-id="7070618663-4">]</span><span class="w">
-</span><span class="p" data-group-id="7070618663-1">&gt;</span></code></pre><p>As your architectures grow in complexity, you might find yourself reaching for better abstractions to organize your model creation code. For example, PyTorch models are often organized into <code class="inline">nn.Module</code>. The equivalent of an <code class="inline">nn.Module</code> in Axon is a regular Elixir function. If you're translating models from PyTorch to Axon, it's natural to create one Elixir function per <code class="inline">nn.Module</code>.</p><p>You should write your models as you would write any other Elixir code - you don't need to worry about any framework specific constructs:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">MyModel</span><span class="w"> </span><span class="k" data-group-id="5383749736-1">do</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">model</span><span class="p" data-group-id="5383749736-2">(</span><span class="p" data-group-id="5383749736-2">)</span><span class="w"> </span><span class="k" data-group-id="5383749736-3">do</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5383749736-4">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5383749736-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">conv_block</span><span class="p" data-group-id="5383749736-5">(</span><span class="p" data-group-id="5383749736-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="5383749736-6">(</span><span class="p" data-group-id="5383749736-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense_block</span><span class="p" data-group-id="5383749736-7">(</span><span class="p" data-group-id="5383749736-7">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense_block</span><span class="p" data-group-id="5383749736-8">(</span><span class="p" data-group-id="5383749736-8">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5383749736-9">(</span><span class="mi">1</span><span class="p" data-group-id="5383749736-9">)</span><span class="w">
-  </span><span class="k" data-group-id="5383749736-3">end</span><span class="w">
-
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">conv_block</span><span class="p" data-group-id="5383749736-10">(</span><span class="n">input</span><span class="p" data-group-id="5383749736-10">)</span><span class="w"> </span><span class="k" data-group-id="5383749736-11">do</span><span class="w">
+3 --&gt; 4;</code></pre><p>And you can use <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a> on <code class="inline">out</code> as you would any other Axon model:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4913706032-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4913706032-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4913706032-2">(</span><span class="n">out</span><span class="p" data-group-id="4913706032-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2694850457-1">{</span><span class="p" data-group-id="2694850457-2">#</span><span class="nc" data-group-id="2694850457-2">Function</span><span class="p" data-group-id="2694850457-2">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2694850457-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="2694850457-3">#</span><span class="nc" data-group-id="2694850457-3">Function</span><span class="p" data-group-id="2694850457-3">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2694850457-3">&gt;</span><span class="p" data-group-id="2694850457-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6611730134-1">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6611730134-2">%{</span><span class="p" data-group-id="6611730134-2">}</span><span class="p" data-group-id="6611730134-1">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6611730134-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6611730134-4">(</span><span class="p" data-group-id="6611730134-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6611730134-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6611730134-4">)</span><span class="p" data-group-id="6611730134-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8368840031-1">#</span><span class="nc" data-group-id="8368840031-1">Nx.Tensor</span><span class="p" data-group-id="8368840031-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="8368840031-2">[</span><span class="mi">2</span><span class="p" data-group-id="8368840031-2">]</span><span class="p" data-group-id="8368840031-3">[</span><span class="mi">32</span><span class="p" data-group-id="8368840031-3">]</span><span class="w">
+  </span><span class="p" data-group-id="8368840031-4">[</span><span class="w">
+    </span><span class="p" data-group-id="8368840031-5">[</span><span class="o">-</span><span class="mf">4.283246040344238</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8983498811721802</span><span class="p">,</span><span class="w"> </span><span class="mf">3.697357654571533</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.720174789428711</span><span class="p">,</span><span class="w"> </span><span class="mf">4.1636152267456055</span><span class="p">,</span><span class="w"> </span><span class="mf">1.001131534576416</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7027540802955627</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7821826934814453</span><span class="p">,</span><span class="w"> </span><span class="mf">0.027841567993164062</span><span class="p">,</span><span class="w"> </span><span class="mf">9.267499923706055</span><span class="p">,</span><span class="w"> </span><span class="mf">3.33616304397583</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.5465859174728394</span><span class="p">,</span><span class="w"> </span><span class="mf">8.983413696289062</span><span class="p">,</span><span class="w"> </span><span class="mf">3.7445120811462402</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2405576705932617</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.61336350440979</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.7320983409881592</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5740477442741394</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22006472945213318</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1806044578552246</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1092393398284912</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29313594102859497</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41948509216308594</span><span class="p">,</span><span class="w"> </span><span class="mf">3.526411533355713</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9127179384231567</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8373844623565674</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1746022701263428</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6885149478912354</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.4326229095458984</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3498257398605347</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.803186416625977</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5204020738601685</span><span class="p" data-group-id="8368840031-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="8368840031-6">[</span><span class="o">-</span><span class="mf">15.615742683410645</span><span class="p">,</span><span class="w"> </span><span class="mf">6.555544853210449</span><span class="p">,</span><span class="w"> </span><span class="mf">7.033155918121338</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.33556842803955</span><span class="p">,</span><span class="w"> </span><span class="mf">14.105436325073242</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.230871200561523</span><span class="p">,</span><span class="w"> </span><span class="mf">5.985136032104492</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.445676803588867</span><span class="p">,</span><span class="w"> </span><span class="mf">5.383096694946289</span><span class="p">,</span><span class="w"> </span><span class="mf">23.413570404052734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8907639980316162</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.400709629058838</span><span class="p">,</span><span class="w"> </span><span class="mf">19.19326400756836</span><span class="p">,</span><span class="w"> </span><span class="mf">13.784171104431152</span><span class="p">,</span><span class="w"> </span><span class="mf">9.641424179077148</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">8.407038688659668</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.688483238220215</span><span class="p">,</span><span class="w"> </span><span class="mf">4.383636474609375</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="8368840031-6">]</span><span class="w">
+  </span><span class="p" data-group-id="8368840031-4">]</span><span class="w">
+</span><span class="p" data-group-id="8368840031-1">&gt;</span></code></pre><p>As your architectures grow in complexity, you might find yourself reaching for better abstractions to organize your model creation code. For example, PyTorch models are often organized into <code class="inline">nn.Module</code>. The equivalent of an <code class="inline">nn.Module</code> in Axon is a regular Elixir function. If you're translating models from PyTorch to Axon, it's natural to create one Elixir function per <code class="inline">nn.Module</code>.</p><p>You should write your models as you would write any other Elixir code - you don't need to worry about any framework specific constructs:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">MyModel</span><span class="w"> </span><span class="k" data-group-id="6462182265-1">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">model</span><span class="p" data-group-id="6462182265-2">(</span><span class="p" data-group-id="6462182265-2">)</span><span class="w"> </span><span class="k" data-group-id="6462182265-3">do</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6462182265-4">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6462182265-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">conv_block</span><span class="p" data-group-id="6462182265-5">(</span><span class="p" data-group-id="6462182265-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="6462182265-6">(</span><span class="p" data-group-id="6462182265-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense_block</span><span class="p" data-group-id="6462182265-7">(</span><span class="p" data-group-id="6462182265-7">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">dense_block</span><span class="p" data-group-id="6462182265-8">(</span><span class="p" data-group-id="6462182265-8">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6462182265-9">(</span><span class="mi">1</span><span class="p" data-group-id="6462182265-9">)</span><span class="w">
+  </span><span class="k" data-group-id="6462182265-3">end</span><span class="w">
+
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">conv_block</span><span class="p" data-group-id="6462182265-10">(</span><span class="n">input</span><span class="p" data-group-id="6462182265-10">)</span><span class="w"> </span><span class="k" data-group-id="6462182265-11">do</span><span class="w">
     </span><span class="n">residual</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w">
 
-    </span><span class="n">x</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="5383749736-12">(</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">padding</span><span class="p">:</span><span class="w"> </span><span class="ss">:same</span><span class="p" data-group-id="5383749736-12">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="5383749736-13">(</span><span class="p" data-group-id="5383749736-13">)</span><span class="w">
+    </span><span class="n">x</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="6462182265-12">(</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">padding</span><span class="p">:</span><span class="w"> </span><span class="ss">:same</span><span class="p" data-group-id="6462182265-12">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">mish</span><span class="p" data-group-id="6462182265-13">(</span><span class="p" data-group-id="6462182265-13">)</span><span class="w">
 
     </span><span class="n">x</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5383749736-14">(</span><span class="n">residual</span><span class="p" data-group-id="5383749736-14">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="5383749736-15">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5383749736-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5383749736-16">}</span><span class="p" data-group-id="5383749736-15">)</span><span class="w">
-  </span><span class="k" data-group-id="5383749736-11">end</span><span class="w">
-
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">dense_block</span><span class="p" data-group-id="5383749736-17">(</span><span class="n">input</span><span class="p" data-group-id="5383749736-17">)</span><span class="w"> </span><span class="k" data-group-id="5383749736-18">do</span><span class="w">
-    </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5383749736-19">(</span><span class="mi">32</span><span class="p" data-group-id="5383749736-19">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5383749736-20">(</span><span class="p" data-group-id="5383749736-20">)</span><span class="w">
-  </span><span class="k" data-group-id="5383749736-18">end</span><span class="w">
-</span><span class="k" data-group-id="5383749736-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4282687848-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">MyModel</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4282687848-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="4282687848-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4282687848-3">{</span><span class="ss">:dense_block</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4282687848-3">}</span><span class="p" data-group-id="4282687848-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">MyModel</span><span class="o">.</span><span class="n">model</span><span class="p" data-group-id="0111085297-1">(</span><span class="p" data-group-id="0111085297-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7824821287-1">#</span><span class="nc" data-group-id="7824821287-1">Axon</span><span class="p" data-group-id="7824821287-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7824821287-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="7824821287-2">}</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6462182265-14">(</span><span class="n">residual</span><span class="p" data-group-id="6462182265-14">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="6462182265-15">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6462182265-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6462182265-16">}</span><span class="p" data-group-id="6462182265-15">)</span><span class="w">
+  </span><span class="k" data-group-id="6462182265-11">end</span><span class="w">
+
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">dense_block</span><span class="p" data-group-id="6462182265-17">(</span><span class="n">input</span><span class="p" data-group-id="6462182265-17">)</span><span class="w"> </span><span class="k" data-group-id="6462182265-18">do</span><span class="w">
+    </span><span class="n">input</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6462182265-19">(</span><span class="mi">32</span><span class="p" data-group-id="6462182265-19">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6462182265-20">(</span><span class="p" data-group-id="6462182265-20">)</span><span class="w">
+  </span><span class="k" data-group-id="6462182265-18">end</span><span class="w">
+</span><span class="k" data-group-id="6462182265-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7628910915-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">MyModel</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7628910915-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="7628910915-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7628910915-3">{</span><span class="ss">:dense_block</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7628910915-3">}</span><span class="p" data-group-id="7628910915-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">MyModel</span><span class="o">.</span><span class="n">model</span><span class="p" data-group-id="4471171001-1">(</span><span class="p" data-group-id="4471171001-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2252865814-1">#</span><span class="nc" data-group-id="2252865814-1">Axon</span><span class="p" data-group-id="2252865814-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2252865814-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="2252865814-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;dense_2&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">12</span><span class="w">
-</span><span class="p" data-group-id="7824821287-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0655188160-1">(</span><span class="p" data-group-id="0655188160-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="0655188160-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0655188160-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="0655188160-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="0655188160-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="2252865814-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="6393429432-1">(</span><span class="p" data-group-id="6393429432-2">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6393429432-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6393429432-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="6393429432-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="6393429432-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 10[/&quot;data (:input) {1, 28, 28, 3}&quot;/];
 11[&quot;conv_0 (:conv) {1, 28, 28, 3}&quot;];
 12[&quot;mish_0 (:mish) {1, 28, 28, 3}&quot;];
diff --git a/credit_card_fraud.html b/credit_card_fraud.html
index 9bcc5d04..69993efc 100644
--- a/credit_card_fraud.html
+++ b/credit_card_fraud.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,18 +136,18 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1641865830-1">(</span><span class="p" data-group-id="1641865830-2">[</span><span class="w">
-  </span><span class="p" data-group-id="1641865830-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="1641865830-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1641865830-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="1641865830-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1641865830-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="1641865830-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1641865830-6">{</span><span class="ss">:explorer</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="1641865830-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="1641865830-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="1641865830-7">}</span><span class="w">
-</span><span class="p" data-group-id="1641865830-2">]</span><span class="p" data-group-id="1641865830-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2450968044-1">(</span><span class="p" data-group-id="2450968044-2">[</span><span class="w">
+  </span><span class="p" data-group-id="2450968044-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="2450968044-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2450968044-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2450968044-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2450968044-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="2450968044-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2450968044-6">{</span><span class="ss">:explorer</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="2450968044-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2450968044-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="2450968044-7">}</span><span class="w">
+</span><span class="p" data-group-id="2450968044-2">]</span><span class="p" data-group-id="2450968044-1">)</span><span class="w">
 
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="1641865830-8">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1641865830-8">)</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="1641865830-9">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="1641865830-9">)</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="2450968044-8">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2450968044-8">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="2450968044-9">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="2450968044-9">)</span><span class="w">
 
-</span><span class="kn">alias</span><span class="w"> </span><span class="nc">Explorer</span><span class="o">.</span><span class="p" data-group-id="1641865830-10">{</span><span class="nc">DataFrame</span><span class="p">,</span><span class="w"> </span><span class="nc">Series</span><span class="p" data-group-id="1641865830-10">}</span></code></pre><h2 id="introduction" class="section-heading">
+</span><span class="kn">alias</span><span class="w"> </span><span class="nc">Explorer</span><span class="o">.</span><span class="p" data-group-id="2450968044-10">{</span><span class="nc">DataFrame</span><span class="p">,</span><span class="w"> </span><span class="nc">Series</span><span class="p" data-group-id="2450968044-10">}</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -159,58 +159,58 @@ <h1>
   </a>
   <span class="text">Data processing</span>
 </h2>
-<p>The first step is to prepare the data for training and evaluation. Please download the dataset in the CSV format from <a href="https://www.kaggle.com/mlg-ulb/creditcardfraud">https://www.kaggle.com/mlg-ulb/creditcardfraud</a> (this requires a Kaggla account). Once done, put the file path in the input below.</p><pre><code class="makeup elixir" translate="no"><span class="n">data_path_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">text</span><span class="p" data-group-id="7509463715-1">(</span><span class="s">&quot;Data path (CSV)&quot;</span><span class="p" data-group-id="7509463715-1">)</span></code></pre><p>Now, let's read the data into an <code class="inline">Explorer.Dataframe</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">data_path</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">read</span><span class="p" data-group-id="0909745735-1">(</span><span class="n">data_path_input</span><span class="p" data-group-id="0909745735-1">)</span><span class="w">
+<p>The first step is to prepare the data for training and evaluation. Please download the dataset in the CSV format from <a href="https://www.kaggle.com/mlg-ulb/creditcardfraud">https://www.kaggle.com/mlg-ulb/creditcardfraud</a> (this requires a Kaggla account). Once done, put the file path in the input below.</p><pre><code class="makeup elixir" translate="no"><span class="n">data_path_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">text</span><span class="p" data-group-id="2633262485-1">(</span><span class="s">&quot;Data path (CSV)&quot;</span><span class="p" data-group-id="2633262485-1">)</span></code></pre><p>Now, let's read the data into an <code class="inline">Explorer.Dataframe</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">data_path</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">read</span><span class="p" data-group-id="9589202586-1">(</span><span class="n">data_path_input</span><span class="p" data-group-id="9589202586-1">)</span><span class="w">
 
-</span><span class="n">df</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">from_csv!</span><span class="p" data-group-id="0909745735-2">(</span><span class="n">data_path</span><span class="p">,</span><span class="w"> </span><span class="ss">dtypes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0909745735-3">[</span><span class="p" data-group-id="0909745735-4">{</span><span class="s">&quot;Time&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:float</span><span class="p" data-group-id="0909745735-4">}</span><span class="p" data-group-id="0909745735-3">]</span><span class="p" data-group-id="0909745735-2">)</span></code></pre><p>For further processing, we will need a couple helper functions. We will group them in a module for convenience.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="w"> </span><span class="k" data-group-id="7689605728-1">do</span><span class="w">
+</span><span class="n">df</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">from_csv!</span><span class="p" data-group-id="9589202586-2">(</span><span class="n">data_path</span><span class="p">,</span><span class="w"> </span><span class="ss">dtypes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9589202586-3">[</span><span class="p" data-group-id="9589202586-4">{</span><span class="s">&quot;Time&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:float</span><span class="p" data-group-id="9589202586-4">}</span><span class="p" data-group-id="9589202586-3">]</span><span class="p" data-group-id="9589202586-2">)</span></code></pre><p>For further processing, we will need a couple helper functions. We will group them in a module for convenience.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="w"> </span><span class="k" data-group-id="9489406135-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">split_train_test</span><span class="p" data-group-id="7689605728-2">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="n">portion</span><span class="p" data-group-id="7689605728-2">)</span><span class="w"> </span><span class="k" data-group-id="7689605728-3">do</span><span class="w">
-    </span><span class="n">num_examples</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="7689605728-4">(</span><span class="n">df</span><span class="p" data-group-id="7689605728-4">)</span><span class="w">
-    </span><span class="n">num_train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">ceil</span><span class="p" data-group-id="7689605728-5">(</span><span class="n">portion</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">num_examples</span><span class="p" data-group-id="7689605728-5">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">split_train_test</span><span class="p" data-group-id="9489406135-2">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="n">portion</span><span class="p" data-group-id="9489406135-2">)</span><span class="w"> </span><span class="k" data-group-id="9489406135-3">do</span><span class="w">
+    </span><span class="n">num_examples</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="9489406135-4">(</span><span class="n">df</span><span class="p" data-group-id="9489406135-4">)</span><span class="w">
+    </span><span class="n">num_train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">ceil</span><span class="p" data-group-id="9489406135-5">(</span><span class="n">portion</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">num_examples</span><span class="p" data-group-id="9489406135-5">)</span><span class="w">
     </span><span class="n">num_test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">num_examples</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">num_train</span><span class="w">
 
-    </span><span class="n">train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">slice</span><span class="p" data-group-id="7689605728-6">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="n">num_train</span><span class="p" data-group-id="7689605728-6">)</span><span class="w">
-    </span><span class="n">test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">slice</span><span class="p" data-group-id="7689605728-7">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="n">num_train</span><span class="p">,</span><span class="w"> </span><span class="n">num_test</span><span class="p" data-group-id="7689605728-7">)</span><span class="w">
-    </span><span class="p" data-group-id="7689605728-8">{</span><span class="n">train</span><span class="p">,</span><span class="w"> </span><span class="n">test</span><span class="p" data-group-id="7689605728-8">}</span><span class="w">
-  </span><span class="k" data-group-id="7689605728-3">end</span><span class="w">
+    </span><span class="n">train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">slice</span><span class="p" data-group-id="9489406135-6">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="n">num_train</span><span class="p" data-group-id="9489406135-6">)</span><span class="w">
+    </span><span class="n">test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">slice</span><span class="p" data-group-id="9489406135-7">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="n">num_train</span><span class="p">,</span><span class="w"> </span><span class="n">num_test</span><span class="p" data-group-id="9489406135-7">)</span><span class="w">
+    </span><span class="p" data-group-id="9489406135-8">{</span><span class="n">train</span><span class="p">,</span><span class="w"> </span><span class="n">test</span><span class="p" data-group-id="9489406135-8">}</span><span class="w">
+  </span><span class="k" data-group-id="9489406135-3">end</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">split_features_targets</span><span class="p" data-group-id="7689605728-9">(</span><span class="n">df</span><span class="p" data-group-id="7689605728-9">)</span><span class="w"> </span><span class="k" data-group-id="7689605728-10">do</span><span class="w">
-    </span><span class="n">features</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">select</span><span class="p" data-group-id="7689605728-11">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="7689605728-12">(</span><span class="ni">&amp;1</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="s">&quot;Class&quot;</span><span class="p" data-group-id="7689605728-12">)</span><span class="p">,</span><span class="w"> </span><span class="ss">:drop</span><span class="p" data-group-id="7689605728-11">)</span><span class="w">
-    </span><span class="n">targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">select</span><span class="p" data-group-id="7689605728-13">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="7689605728-14">(</span><span class="ni">&amp;1</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="s">&quot;Class&quot;</span><span class="p" data-group-id="7689605728-14">)</span><span class="p">,</span><span class="w"> </span><span class="ss">:keep</span><span class="p" data-group-id="7689605728-13">)</span><span class="w">
-    </span><span class="p" data-group-id="7689605728-15">{</span><span class="n">features</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="7689605728-15">}</span><span class="w">
-  </span><span class="k" data-group-id="7689605728-10">end</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">split_features_targets</span><span class="p" data-group-id="9489406135-9">(</span><span class="n">df</span><span class="p" data-group-id="9489406135-9">)</span><span class="w"> </span><span class="k" data-group-id="9489406135-10">do</span><span class="w">
+    </span><span class="n">features</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">select</span><span class="p" data-group-id="9489406135-11">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="9489406135-12">(</span><span class="ni">&amp;1</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="s">&quot;Class&quot;</span><span class="p" data-group-id="9489406135-12">)</span><span class="p">,</span><span class="w"> </span><span class="ss">:drop</span><span class="p" data-group-id="9489406135-11">)</span><span class="w">
+    </span><span class="n">targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">select</span><span class="p" data-group-id="9489406135-13">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="p" data-group-id="9489406135-14">(</span><span class="ni">&amp;1</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="s">&quot;Class&quot;</span><span class="p" data-group-id="9489406135-14">)</span><span class="p">,</span><span class="w"> </span><span class="ss">:keep</span><span class="p" data-group-id="9489406135-13">)</span><span class="w">
+    </span><span class="p" data-group-id="9489406135-15">{</span><span class="n">features</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="9489406135-15">}</span><span class="w">
+  </span><span class="k" data-group-id="9489406135-10">end</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">df_to_tensor</span><span class="p" data-group-id="7689605728-16">(</span><span class="n">df</span><span class="p" data-group-id="7689605728-16">)</span><span class="w"> </span><span class="k" data-group-id="7689605728-17">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">df_to_tensor</span><span class="p" data-group-id="9489406135-16">(</span><span class="n">df</span><span class="p" data-group-id="9489406135-16">)</span><span class="w"> </span><span class="k" data-group-id="9489406135-17">do</span><span class="w">
     </span><span class="n">df</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">names</span><span class="p" data-group-id="7689605728-18">(</span><span class="p" data-group-id="7689605728-18">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7689605728-19">(</span><span class="o">&amp;</span><span class="nc">Series</span><span class="o">.</span><span class="n">to_tensor</span><span class="p" data-group-id="7689605728-20">(</span><span class="n">df</span><span class="p" data-group-id="7689605728-21">[</span><span class="ni">&amp;1</span><span class="p" data-group-id="7689605728-21">]</span><span class="p" data-group-id="7689605728-20">)</span><span class="p" data-group-id="7689605728-19">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="7689605728-22">(</span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7689605728-22">)</span><span class="w">
-  </span><span class="k" data-group-id="7689605728-17">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">names</span><span class="p" data-group-id="9489406135-18">(</span><span class="p" data-group-id="9489406135-18">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="9489406135-19">(</span><span class="o">&amp;</span><span class="nc">Series</span><span class="o">.</span><span class="n">to_tensor</span><span class="p" data-group-id="9489406135-20">(</span><span class="n">df</span><span class="p" data-group-id="9489406135-21">[</span><span class="ni">&amp;1</span><span class="p" data-group-id="9489406135-21">]</span><span class="p" data-group-id="9489406135-20">)</span><span class="p" data-group-id="9489406135-19">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="9489406135-22">(</span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9489406135-22">)</span><span class="w">
+  </span><span class="k" data-group-id="9489406135-17">end</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">normalize_features</span><span class="p" data-group-id="7689605728-23">(</span><span class="n">tensor</span><span class="p" data-group-id="7689605728-23">)</span><span class="w"> </span><span class="k" data-group-id="7689605728-24">do</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">normalize_features</span><span class="p" data-group-id="9489406135-23">(</span><span class="n">tensor</span><span class="p" data-group-id="9489406135-23">)</span><span class="w"> </span><span class="k" data-group-id="9489406135-24">do</span><span class="w">
     </span><span class="n">max</span><span class="w"> </span><span class="o">=</span><span class="w">
       </span><span class="n">tensor</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">abs</span><span class="p" data-group-id="7689605728-25">(</span><span class="p" data-group-id="7689605728-25">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reduce_max</span><span class="p" data-group-id="7689605728-26">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7689605728-27">[</span><span class="mi">0</span><span class="p" data-group-id="7689605728-27">]</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="7689605728-26">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">abs</span><span class="p" data-group-id="9489406135-25">(</span><span class="p" data-group-id="9489406135-25">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reduce_max</span><span class="p" data-group-id="9489406135-26">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9489406135-27">[</span><span class="mi">0</span><span class="p" data-group-id="9489406135-27">]</span><span class="p">,</span><span class="w"> </span><span class="ss">keep_axes</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9489406135-26">)</span><span class="w">
 
     </span><span class="n">tensor</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">max</span><span class="w">
-  </span><span class="k" data-group-id="7689605728-24">end</span><span class="w">
-</span><span class="k" data-group-id="7689605728-1">end</span></code></pre><p>With that, we can start converting the data into the desired format. First, we split the data into training and test data (in proportion 80% into a training set and 20% into a test set).</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8763527480-1">{</span><span class="n">train_df</span><span class="p">,</span><span class="w"> </span><span class="n">test_df</span><span class="p" data-group-id="8763527480-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_train_test</span><span class="p" data-group-id="8763527480-2">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p" data-group-id="8763527480-2">)</span><span class="w">
-</span><span class="p" data-group-id="8763527480-3">{</span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="8763527480-4">(</span><span class="n">train_df</span><span class="p" data-group-id="8763527480-4">)</span><span class="p">,</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="8763527480-5">(</span><span class="n">test_df</span><span class="p" data-group-id="8763527480-5">)</span><span class="p" data-group-id="8763527480-3">}</span></code></pre><p>Next, we separate features from labels and convert both to tensors. In case of features we additionally normalize each of them, dividing by the maximum absolute value of that feature.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8721197366-1">{</span><span class="n">train_features</span><span class="p">,</span><span class="w"> </span><span class="n">train_targets</span><span class="p" data-group-id="8721197366-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_features_targets</span><span class="p" data-group-id="8721197366-2">(</span><span class="n">train_df</span><span class="p" data-group-id="8721197366-2">)</span><span class="w">
-</span><span class="p" data-group-id="8721197366-3">{</span><span class="n">test_features</span><span class="p">,</span><span class="w"> </span><span class="n">test_targets</span><span class="p" data-group-id="8721197366-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_features_targets</span><span class="p" data-group-id="8721197366-4">(</span><span class="n">test_df</span><span class="p" data-group-id="8721197366-4">)</span><span class="w">
+  </span><span class="k" data-group-id="9489406135-24">end</span><span class="w">
+</span><span class="k" data-group-id="9489406135-1">end</span></code></pre><p>With that, we can start converting the data into the desired format. First, we split the data into training and test data (in proportion 80% into a training set and 20% into a test set).</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2500508174-1">{</span><span class="n">train_df</span><span class="p">,</span><span class="w"> </span><span class="n">test_df</span><span class="p" data-group-id="2500508174-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_train_test</span><span class="p" data-group-id="2500508174-2">(</span><span class="n">df</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8</span><span class="p" data-group-id="2500508174-2">)</span><span class="w">
+</span><span class="p" data-group-id="2500508174-3">{</span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="2500508174-4">(</span><span class="n">train_df</span><span class="p" data-group-id="2500508174-4">)</span><span class="p">,</span><span class="w"> </span><span class="nc">DataFrame</span><span class="o">.</span><span class="n">n_rows</span><span class="p" data-group-id="2500508174-5">(</span><span class="n">test_df</span><span class="p" data-group-id="2500508174-5">)</span><span class="p" data-group-id="2500508174-3">}</span></code></pre><p>Next, we separate features from labels and convert both to tensors. In case of features we additionally normalize each of them, dividing by the maximum absolute value of that feature.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9932852346-1">{</span><span class="n">train_features</span><span class="p">,</span><span class="w"> </span><span class="n">train_targets</span><span class="p" data-group-id="9932852346-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_features_targets</span><span class="p" data-group-id="9932852346-2">(</span><span class="n">train_df</span><span class="p" data-group-id="9932852346-2">)</span><span class="w">
+</span><span class="p" data-group-id="9932852346-3">{</span><span class="n">test_features</span><span class="p">,</span><span class="w"> </span><span class="n">test_targets</span><span class="p" data-group-id="9932852346-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">split_features_targets</span><span class="p" data-group-id="9932852346-4">(</span><span class="n">test_df</span><span class="p" data-group-id="9932852346-4">)</span><span class="w">
 
 </span><span class="n">train_inputs</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">train_features</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="8721197366-5">(</span><span class="p" data-group-id="8721197366-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">normalize_features</span><span class="p" data-group-id="8721197366-6">(</span><span class="p" data-group-id="8721197366-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="9932852346-5">(</span><span class="p" data-group-id="9932852346-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">normalize_features</span><span class="p" data-group-id="9932852346-6">(</span><span class="p" data-group-id="9932852346-6">)</span><span class="w">
 
 </span><span class="n">test_inputs</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">test_features</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="8721197366-7">(</span><span class="p" data-group-id="8721197366-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">normalize_features</span><span class="p" data-group-id="8721197366-8">(</span><span class="p" data-group-id="8721197366-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="9932852346-7">(</span><span class="p" data-group-id="9932852346-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">normalize_features</span><span class="p" data-group-id="9932852346-8">(</span><span class="p" data-group-id="9932852346-8">)</span><span class="w">
 
-</span><span class="n">train_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="8721197366-9">(</span><span class="n">train_targets</span><span class="p" data-group-id="8721197366-9">)</span><span class="w">
-</span><span class="n">test_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="8721197366-10">(</span><span class="n">test_targets</span><span class="p" data-group-id="8721197366-10">)</span><span class="w">
+</span><span class="n">train_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="9932852346-9">(</span><span class="n">train_targets</span><span class="p" data-group-id="9932852346-9">)</span><span class="w">
+</span><span class="n">test_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">CredidCard.Data</span><span class="o">.</span><span class="n">df_to_tensor</span><span class="p" data-group-id="9932852346-10">(</span><span class="n">test_targets</span><span class="p" data-group-id="9932852346-10">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="building-the-model" class="section-heading">
   <a href="#building-the-model" class="hover-link">
@@ -219,43 +219,43 @@ <h1>
   <span class="text">Building the model</span>
 </h2>
 <p>Our model for predicting whether a transaction was fraudulent or not is a dense neural network. It consists of two dense layers with 256 neurons, ReLU activation functions, one dropout layer, and a dense layer with one neuron (since the problem is a binary prediction) followed by a sigmoid activation function.</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4790022460-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="4790022460-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4790022460-2">(</span><span class="mi">256</span><span class="p" data-group-id="4790022460-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4790022460-3">(</span><span class="p" data-group-id="4790022460-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4790022460-4">(</span><span class="mi">256</span><span class="p" data-group-id="4790022460-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4790022460-5">(</span><span class="p" data-group-id="4790022460-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4790022460-6">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3</span><span class="p" data-group-id="4790022460-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4790022460-7">(</span><span class="mi">1</span><span class="p" data-group-id="4790022460-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="4790022460-8">(</span><span class="p" data-group-id="4790022460-8">)</span></code></pre><h2 id="training-our-model" class="section-heading">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2903976924-1">(</span><span class="s">&quot;input&quot;</span><span class="p" data-group-id="2903976924-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2903976924-2">(</span><span class="mi">256</span><span class="p" data-group-id="2903976924-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="2903976924-3">(</span><span class="p" data-group-id="2903976924-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2903976924-4">(</span><span class="mi">256</span><span class="p" data-group-id="2903976924-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="2903976924-5">(</span><span class="p" data-group-id="2903976924-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="2903976924-6">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3</span><span class="p" data-group-id="2903976924-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2903976924-7">(</span><span class="mi">1</span><span class="p" data-group-id="2903976924-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="2903976924-8">(</span><span class="p" data-group-id="2903976924-8">)</span></code></pre><h2 id="training-our-model" class="section-heading">
   <a href="#training-our-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Training our model</span>
 </h2>
-<p>Now we have both data and model architecture prepared, it's time to train!</p><p>Note the disproportion in the data samples:</p><pre><code class="makeup elixir" translate="no"><span class="n">fraud</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="0523367529-1">(</span><span class="n">train_targets</span><span class="p" data-group-id="0523367529-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="0523367529-2">(</span><span class="p" data-group-id="0523367529-2">)</span><span class="w">
-</span><span class="n">legit</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">size</span><span class="p" data-group-id="0523367529-3">(</span><span class="n">train_targets</span><span class="p" data-group-id="0523367529-3">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">fraud</span><span class="w">
+<p>Now we have both data and model architecture prepared, it's time to train!</p><p>Note the disproportion in the data samples:</p><pre><code class="makeup elixir" translate="no"><span class="n">fraud</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="4875110935-1">(</span><span class="n">train_targets</span><span class="p" data-group-id="4875110935-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="4875110935-2">(</span><span class="p" data-group-id="4875110935-2">)</span><span class="w">
+</span><span class="n">legit</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">size</span><span class="p" data-group-id="4875110935-3">(</span><span class="n">train_targets</span><span class="p" data-group-id="4875110935-3">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">fraud</span><span class="w">
 
-</span><span class="n">batched_train_inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="0523367529-4">(</span><span class="n">train_inputs</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="0523367529-4">)</span><span class="w">
-</span><span class="n">batched_train_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="0523367529-5">(</span><span class="n">train_targets</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="0523367529-5">)</span><span class="w">
-</span><span class="n">batched_train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="0523367529-6">(</span><span class="n">batched_train_inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batched_train_targets</span><span class="p" data-group-id="0523367529-6">)</span><span class="w">
+</span><span class="n">batched_train_inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="4875110935-4">(</span><span class="n">train_inputs</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="4875110935-4">)</span><span class="w">
+</span><span class="n">batched_train_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="4875110935-5">(</span><span class="n">train_targets</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="4875110935-5">)</span><span class="w">
+</span><span class="n">batched_train</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="4875110935-6">(</span><span class="n">batched_train_inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batched_train_targets</span><span class="p" data-group-id="4875110935-6">)</span><span class="w">
 
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0523367529-7">(</span><span class="s">&quot;# of legit transactions (train): </span><span class="si" data-group-id="0523367529-8">#{</span><span class="n">legit</span><span class="si" data-group-id="0523367529-8">}</span><span class="s">&quot;</span><span class="p" data-group-id="0523367529-7">)</span><span class="w">
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0523367529-9">(</span><span class="s">&quot;# of fraudulent transactions (train): </span><span class="si" data-group-id="0523367529-10">#{</span><span class="n">fraud</span><span class="si" data-group-id="0523367529-10">}</span><span class="s">&quot;</span><span class="p" data-group-id="0523367529-9">)</span><span class="w">
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0523367529-11">(</span><span class="s">&quot;% fraudlent transactions (train): </span><span class="si" data-group-id="0523367529-12">#{</span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="0523367529-13">(</span><span class="n">fraud</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="p" data-group-id="0523367529-14">(</span><span class="n">legit</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">fraud</span><span class="p" data-group-id="0523367529-14">)</span><span class="p" data-group-id="0523367529-13">)</span><span class="si" data-group-id="0523367529-12">}</span><span class="s">%&quot;</span><span class="p" data-group-id="0523367529-11">)</span></code></pre><p>As always, we define our train loop. We are using <em>binary cross-entropy</em> as our loss function and Adam as the optimizer with a learning rate of 0.01. Then we immediately start the training passing our train portion of the dataset.</p><pre><code class="makeup elixir" translate="no"><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="o">&amp;</span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="5117560457-1">(</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="4875110935-7">(</span><span class="s">&quot;# of legit transactions (train): </span><span class="si" data-group-id="4875110935-8">#{</span><span class="n">legit</span><span class="si" data-group-id="4875110935-8">}</span><span class="s">&quot;</span><span class="p" data-group-id="4875110935-7">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="4875110935-9">(</span><span class="s">&quot;# of fraudulent transactions (train): </span><span class="si" data-group-id="4875110935-10">#{</span><span class="n">fraud</span><span class="si" data-group-id="4875110935-10">}</span><span class="s">&quot;</span><span class="p" data-group-id="4875110935-9">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="4875110935-11">(</span><span class="s">&quot;% fraudlent transactions (train): </span><span class="si" data-group-id="4875110935-12">#{</span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="4875110935-13">(</span><span class="n">fraud</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="p" data-group-id="4875110935-14">(</span><span class="n">legit</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">fraud</span><span class="p" data-group-id="4875110935-14">)</span><span class="p" data-group-id="4875110935-13">)</span><span class="si" data-group-id="4875110935-12">}</span><span class="s">%&quot;</span><span class="p" data-group-id="4875110935-11">)</span></code></pre><p>As always, we define our train loop. We are using <em>binary cross-entropy</em> as our loss function and Adam as the optimizer with a learning rate of 0.01. Then we immediately start the training passing our train portion of the dataset.</p><pre><code class="makeup elixir" translate="no"><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="o">&amp;</span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">binary_cross_entropy</span><span class="p" data-group-id="4211253746-1">(</span><span class="w">
     </span><span class="ni">&amp;1</span><span class="p">,</span><span class="w">
     </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w">
     </span><span class="ss">negative_weight</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">legit</span><span class="p">,</span><span class="w">
     </span><span class="ss">positive_weight</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">fraud</span><span class="p">,</span><span class="w">
     </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="w">
-  </span><span class="p" data-group-id="5117560457-1">)</span><span class="w">
+  </span><span class="p" data-group-id="4211253746-1">)</span><span class="w">
 
-</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="5117560457-2">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-2</span><span class="p" data-group-id="5117560457-2">)</span><span class="w">
+</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="4211253746-2">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-2</span><span class="p" data-group-id="4211253746-2">)</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5117560457-3">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="5117560457-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5117560457-4">(</span><span class="n">batched_train</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5117560457-5">%{</span><span class="p" data-group-id="5117560457-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">30</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5117560457-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4211253746-3">(</span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="4211253746-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4211253746-4">(</span><span class="n">batched_train</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4211253746-5">%{</span><span class="p" data-group-id="4211253746-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">30</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4211253746-4">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="model-evaluation" class="section-heading">
   <a href="#model-evaluation" class="hover-link">
@@ -263,39 +263,39 @@ <h1>
   </a>
   <span class="text">Model evaluation</span>
 </h2>
-<p>After the training, there is only one thing left: testing. Here, we will focus on the number of true positive, true negative, false positive, and false negative values, but also on the likelihood of denying legit and fraudulent transactions.</p><pre><code class="makeup elixir" translate="no"><span class="n">batched_test_inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6157012889-1">(</span><span class="n">test_inputs</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="6157012889-1">)</span><span class="w">
-</span><span class="n">batched_test_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6157012889-2">(</span><span class="n">test_targets</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="6157012889-2">)</span><span class="w">
-</span><span class="n">batched_test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="6157012889-3">(</span><span class="n">batched_test_inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batched_test_targets</span><span class="p" data-group-id="6157012889-3">)</span><span class="w">
-
-</span><span class="n">summarize</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6157012889-4">fn</span><span class="w"> </span><span class="p" data-group-id="6157012889-5">%</span><span class="nc" data-group-id="6157012889-5">Axon.Loop.State</span><span class="p" data-group-id="6157012889-5">{</span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="6157012889-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="6157012889-6">(</span><span class="n">metrics</span><span class="p" data-group-id="6157012889-7">[</span><span class="s">&quot;fp&quot;</span><span class="p" data-group-id="6157012889-7">]</span><span class="p" data-group-id="6157012889-6">)</span><span class="w">
-  </span><span class="n">legit_transactions_accepted</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="6157012889-8">(</span><span class="n">metrics</span><span class="p" data-group-id="6157012889-9">[</span><span class="s">&quot;tn&quot;</span><span class="p" data-group-id="6157012889-9">]</span><span class="p" data-group-id="6157012889-8">)</span><span class="w">
-  </span><span class="n">fraud_transactions_accepted</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="6157012889-10">(</span><span class="n">metrics</span><span class="p" data-group-id="6157012889-11">[</span><span class="s">&quot;fn&quot;</span><span class="p" data-group-id="6157012889-11">]</span><span class="p" data-group-id="6157012889-10">)</span><span class="w">
-  </span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="6157012889-12">(</span><span class="n">metrics</span><span class="p" data-group-id="6157012889-13">[</span><span class="s">&quot;tp&quot;</span><span class="p" data-group-id="6157012889-13">]</span><span class="p" data-group-id="6157012889-12">)</span><span class="w">
+<p>After the training, there is only one thing left: testing. Here, we will focus on the number of true positive, true negative, false positive, and false negative values, but also on the likelihood of denying legit and fraudulent transactions.</p><pre><code class="makeup elixir" translate="no"><span class="n">batched_test_inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="8132709978-1">(</span><span class="n">test_inputs</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="8132709978-1">)</span><span class="w">
+</span><span class="n">batched_test_targets</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="8132709978-2">(</span><span class="n">test_targets</span><span class="p">,</span><span class="w"> </span><span class="mi">2048</span><span class="p" data-group-id="8132709978-2">)</span><span class="w">
+</span><span class="n">batched_test</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="8132709978-3">(</span><span class="n">batched_test_inputs</span><span class="p">,</span><span class="w"> </span><span class="n">batched_test_targets</span><span class="p" data-group-id="8132709978-3">)</span><span class="w">
+
+</span><span class="n">summarize</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="8132709978-4">fn</span><span class="w"> </span><span class="p" data-group-id="8132709978-5">%</span><span class="nc" data-group-id="8132709978-5">Axon.Loop.State</span><span class="p" data-group-id="8132709978-5">{</span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="8132709978-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="8132709978-6">(</span><span class="n">metrics</span><span class="p" data-group-id="8132709978-7">[</span><span class="s">&quot;fp&quot;</span><span class="p" data-group-id="8132709978-7">]</span><span class="p" data-group-id="8132709978-6">)</span><span class="w">
+  </span><span class="n">legit_transactions_accepted</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="8132709978-8">(</span><span class="n">metrics</span><span class="p" data-group-id="8132709978-9">[</span><span class="s">&quot;tn&quot;</span><span class="p" data-group-id="8132709978-9">]</span><span class="p" data-group-id="8132709978-8">)</span><span class="w">
+  </span><span class="n">fraud_transactions_accepted</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="8132709978-10">(</span><span class="n">metrics</span><span class="p" data-group-id="8132709978-11">[</span><span class="s">&quot;fn&quot;</span><span class="p" data-group-id="8132709978-11">]</span><span class="p" data-group-id="8132709978-10">)</span><span class="w">
+  </span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="8132709978-12">(</span><span class="n">metrics</span><span class="p" data-group-id="8132709978-13">[</span><span class="s">&quot;tp&quot;</span><span class="p" data-group-id="8132709978-13">]</span><span class="p" data-group-id="8132709978-12">)</span><span class="w">
   </span><span class="n">total_fraud</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">fraud_transactions_accepted</span><span class="w">
   </span><span class="n">total_legit</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">legit_transactions_accepted</span><span class="w">
 
-  </span><span class="n">fraud_denial_percent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="6157012889-14">(</span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">total_fraud</span><span class="p" data-group-id="6157012889-14">)</span><span class="w">
-  </span><span class="n">legit_denial_percent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="6157012889-15">(</span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">total_legit</span><span class="p" data-group-id="6157012889-15">)</span><span class="w">
+  </span><span class="n">fraud_denial_percent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="8132709978-14">(</span><span class="n">fraud_transactions_declined</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">total_fraud</span><span class="p" data-group-id="8132709978-14">)</span><span class="w">
+  </span><span class="n">legit_denial_percent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="8132709978-15">(</span><span class="n">legit_transactions_declined</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="n">total_legit</span><span class="p" data-group-id="8132709978-15">)</span><span class="w">
 
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">write</span><span class="p" data-group-id="6157012889-16">(</span><span class="s">&quot;</span><span class="se">\n</span><span class="s">&quot;</span><span class="p" data-group-id="6157012889-16">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6157012889-17">(</span><span class="s">&quot;Legit Transactions Declined: </span><span class="si" data-group-id="6157012889-18">#{</span><span class="n">legit_transactions_declined</span><span class="si" data-group-id="6157012889-18">}</span><span class="s">&quot;</span><span class="p" data-group-id="6157012889-17">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6157012889-19">(</span><span class="s">&quot;Fraudulent Transactions Caught: </span><span class="si" data-group-id="6157012889-20">#{</span><span class="n">fraud_transactions_declined</span><span class="si" data-group-id="6157012889-20">}</span><span class="s">&quot;</span><span class="p" data-group-id="6157012889-19">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6157012889-21">(</span><span class="s">&quot;Fraudulent Transactions Missed: </span><span class="si" data-group-id="6157012889-22">#{</span><span class="n">fraud_transactions_accepted</span><span class="si" data-group-id="6157012889-22">}</span><span class="s">&quot;</span><span class="p" data-group-id="6157012889-21">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6157012889-23">(</span><span class="s">&quot;Likelihood of catching fraud: </span><span class="si" data-group-id="6157012889-24">#{</span><span class="n">fraud_denial_percent</span><span class="si" data-group-id="6157012889-24">}</span><span class="s">%&quot;</span><span class="p" data-group-id="6157012889-23">)</span><span class="w">
-  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="6157012889-25">(</span><span class="s">&quot;Likelihood of denying legit transaction: </span><span class="si" data-group-id="6157012889-26">#{</span><span class="n">legit_denial_percent</span><span class="si" data-group-id="6157012889-26">}</span><span class="s">%&quot;</span><span class="p" data-group-id="6157012889-25">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">write</span><span class="p" data-group-id="8132709978-16">(</span><span class="s">&quot;</span><span class="se">\n</span><span class="s">&quot;</span><span class="p" data-group-id="8132709978-16">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8132709978-17">(</span><span class="s">&quot;Legit Transactions Declined: </span><span class="si" data-group-id="8132709978-18">#{</span><span class="n">legit_transactions_declined</span><span class="si" data-group-id="8132709978-18">}</span><span class="s">&quot;</span><span class="p" data-group-id="8132709978-17">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8132709978-19">(</span><span class="s">&quot;Fraudulent Transactions Caught: </span><span class="si" data-group-id="8132709978-20">#{</span><span class="n">fraud_transactions_declined</span><span class="si" data-group-id="8132709978-20">}</span><span class="s">&quot;</span><span class="p" data-group-id="8132709978-19">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8132709978-21">(</span><span class="s">&quot;Fraudulent Transactions Missed: </span><span class="si" data-group-id="8132709978-22">#{</span><span class="n">fraud_transactions_accepted</span><span class="si" data-group-id="8132709978-22">}</span><span class="s">&quot;</span><span class="p" data-group-id="8132709978-21">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8132709978-23">(</span><span class="s">&quot;Likelihood of catching fraud: </span><span class="si" data-group-id="8132709978-24">#{</span><span class="n">fraud_denial_percent</span><span class="si" data-group-id="8132709978-24">}</span><span class="s">%&quot;</span><span class="p" data-group-id="8132709978-23">)</span><span class="w">
+  </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8132709978-25">(</span><span class="s">&quot;Likelihood of denying legit transaction: </span><span class="si" data-group-id="8132709978-26">#{</span><span class="n">legit_denial_percent</span><span class="si" data-group-id="8132709978-26">}</span><span class="s">%&quot;</span><span class="p" data-group-id="8132709978-25">)</span><span class="w">
 
-  </span><span class="p" data-group-id="6157012889-27">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6157012889-27">}</span><span class="w">
-</span><span class="k" data-group-id="6157012889-4">end</span><span class="w">
+  </span><span class="p" data-group-id="8132709978-27">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="8132709978-27">}</span><span class="w">
+</span><span class="k" data-group-id="8132709978-4">end</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="6157012889-28">(</span><span class="p" data-group-id="6157012889-28">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6157012889-29">(</span><span class="ss">:true_positives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tp&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="6157012889-29">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6157012889-30">(</span><span class="ss">:true_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="6157012889-30">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6157012889-31">(</span><span class="ss">:false_positives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;fp&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="6157012889-31">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6157012889-32">(</span><span class="ss">:false_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;fn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="6157012889-32">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="6157012889-33">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">summarize</span><span class="p" data-group-id="6157012889-33">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6157012889-34">(</span><span class="n">batched_test</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6157012889-34">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="8132709978-28">(</span><span class="p" data-group-id="8132709978-28">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8132709978-29">(</span><span class="ss">:true_positives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tp&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="8132709978-29">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8132709978-30">(</span><span class="ss">:true_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;tn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="8132709978-30">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8132709978-31">(</span><span class="ss">:false_positives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;fp&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="8132709978-31">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8132709978-32">(</span><span class="ss">:false_negatives</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;fn&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="8132709978-32">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="8132709978-33">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">summarize</span><span class="p" data-group-id="8132709978-33">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8132709978-34">(</span><span class="n">batched_test</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8132709978-34">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre>
 <div class="bottom-actions">
diff --git a/custom_layers.html b/custom_layers.html
index 22d7cf97..36c9a5f0 100644
--- a/custom_layers.html
+++ b/custom_layers.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,103 +136,103 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="5557840398-1">(</span><span class="p" data-group-id="5557840398-2">[</span><span class="w">
-  </span><span class="p" data-group-id="5557840398-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="5557840398-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5557840398-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="5557840398-4">}</span><span class="w">
-</span><span class="p" data-group-id="5557840398-2">]</span><span class="p" data-group-id="5557840398-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-custom-layers" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0800753194-1">(</span><span class="p" data-group-id="0800753194-2">[</span><span class="w">
+  </span><span class="p" data-group-id="0800753194-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="0800753194-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0800753194-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="0800753194-4">}</span><span class="w">
+</span><span class="p" data-group-id="0800753194-2">]</span><span class="p" data-group-id="0800753194-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-custom-layers" class="section-heading">
   <a href="#creating-custom-layers" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Creating custom layers</span>
 </h2>
-<p>While Axon has a plethora of built-in layers, more than likely you'll run into a case where you need something not provided by the framework. In these instances, you can use <em>custom layers</em>.</p><p>To Axon, layers are really just <code class="inline">defn</code> implementations with special Axon inputs. Every layer in Axon (including the built-in layers), are implemented with the <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> function. The API of <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> intentionally mirrors the API of <a href="https://hexdocs.pm/elixir/Kernel.html#apply/2"><code class="inline">Kernel.apply/2</code></a>. To declare a custom layer you need 2 things:</p><ol><li>A <code class="inline">defn</code> implementation</li><li>Inputs</li></ol><p>The <code class="inline">defn</code> implementation looks like any other <code class="inline">defn</code> you'd write; however, it must always account for additional <code class="inline">opts</code> as an argument:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers0</span><span class="w"> </span><span class="k" data-group-id="4919071217-1">do</span><span class="w">
+<p>While Axon has a plethora of built-in layers, more than likely you'll run into a case where you need something not provided by the framework. In these instances, you can use <em>custom layers</em>.</p><p>To Axon, layers are really just <code class="inline">defn</code> implementations with special Axon inputs. Every layer in Axon (including the built-in layers), are implemented with the <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> function. The API of <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> intentionally mirrors the API of <a href="https://hexdocs.pm/elixir/Kernel.html#apply/2"><code class="inline">Kernel.apply/2</code></a>. To declare a custom layer you need 2 things:</p><ol><li>A <code class="inline">defn</code> implementation</li><li>Inputs</li></ol><p>The <code class="inline">defn</code> implementation looks like any other <code class="inline">defn</code> you'd write; however, it must always account for additional <code class="inline">opts</code> as an argument:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers0</span><span class="w"> </span><span class="k" data-group-id="6685991919-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="4919071217-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="4919071217-3">[</span><span class="p" data-group-id="4919071217-3">]</span><span class="p" data-group-id="4919071217-2">)</span><span class="w"> </span><span class="k" data-group-id="4919071217-4">do</span><span class="w">
-    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">keyword!</span><span class="p" data-group-id="4919071217-5">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="4919071217-5">)</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="6685991919-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="6685991919-3">[</span><span class="p" data-group-id="6685991919-3">]</span><span class="p" data-group-id="6685991919-2">)</span><span class="w"> </span><span class="k" data-group-id="6685991919-4">do</span><span class="w">
+    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">keyword!</span><span class="p" data-group-id="6685991919-5">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="6685991919-5">)</span><span class="w">
 
     </span><span class="n">input</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="4919071217-6">(</span><span class="p" data-group-id="4919071217-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="4919071217-7">(</span><span class="n">opts</span><span class="p" data-group-id="4919071217-8">[</span><span class="ss">:alpha</span><span class="p" data-group-id="4919071217-8">]</span><span class="p" data-group-id="4919071217-7">)</span><span class="w">
-  </span><span class="k" data-group-id="4919071217-4">end</span><span class="w">
-</span><span class="k" data-group-id="4919071217-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5202024193-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers0</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5202024193-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5202024193-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="5202024193-1">}</span></code></pre><p>Regardless of the options you configure your layer to accept, the <code class="inline">defn</code> implementation will always receive a <code class="inline">:mode</code> option indicating whether or not the model is running in training or inference mode. You can customize the behavior of your layer depending on the mode.</p><p>With an implementation defined, you need only to call <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> to apply our custom layer to an Axon input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8718978885-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8718978885-1">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="6685991919-6">(</span><span class="p" data-group-id="6685991919-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6685991919-7">(</span><span class="n">opts</span><span class="p" data-group-id="6685991919-8">[</span><span class="ss">:alpha</span><span class="p" data-group-id="6685991919-8">]</span><span class="p" data-group-id="6685991919-7">)</span><span class="w">
+  </span><span class="k" data-group-id="6685991919-4">end</span><span class="w">
+</span><span class="k" data-group-id="6685991919-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6868915570-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers0</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6868915570-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6868915570-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6868915570-1">}</span></code></pre><p>Regardless of the options you configure your layer to accept, the <code class="inline">defn</code> implementation will always receive a <code class="inline">:mode</code> option indicating whether or not the model is running in training or inference mode. You can customize the behavior of your layer depending on the mode.</p><p>With an implementation defined, you need only to call <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a> to apply our custom layer to an Axon input:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="2061929315-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="2061929315-1">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="8718978885-2">(</span><span class="o">&amp;</span><span class="nc">CustomLayers0</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8718978885-3">[</span><span class="n">input</span><span class="p" data-group-id="8718978885-3">]</span><span class="p" data-group-id="8718978885-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5833213512-1">#</span><span class="nc" data-group-id="5833213512-1">Axon</span><span class="p" data-group-id="5833213512-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5833213512-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="5833213512-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="2061929315-2">(</span><span class="o">&amp;</span><span class="nc">CustomLayers0</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2061929315-3">[</span><span class="n">input</span><span class="p" data-group-id="2061929315-3">]</span><span class="p" data-group-id="2061929315-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6409486104-1">#</span><span class="nc" data-group-id="6409486104-1">Axon</span><span class="p" data-group-id="6409486104-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6409486104-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="6409486104-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;custom_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="5833213512-1">&gt;</span></code></pre><p>Now you can inspect and execute your model as normal:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0695802525-1">(</span><span class="p" data-group-id="0695802525-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0695802525-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0695802525-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="0695802525-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="0695802525-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="6409486104-1">&gt;</span></code></pre><p>Now you can inspect and execute your model as normal:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="2472518332-1">(</span><span class="p" data-group-id="2472518332-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="2472518332-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="2472518332-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="2472518332-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="2472518332-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 4[&quot;custom_0 (:custom) {2, 8}&quot;];
-3 --&gt; 4;</code></pre><p>Notice that by default custom layers render with a default operation marked as <code class="inline">:custom</code>. This can make it difficult to determine which layer is which during inspection. You can control the rendering by passing <code class="inline">:op_name</code> to <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="2224105269-1">(</span><span class="o">&amp;</span><span class="nc">CustomLayers0</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2224105269-2">[</span><span class="n">input</span><span class="p" data-group-id="2224105269-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="2224105269-1">)</span><span class="w">
+3 --&gt; 4;</code></pre><p>Notice that by default custom layers render with a default operation marked as <code class="inline">:custom</code>. This can make it difficult to determine which layer is which during inspection. You can control the rendering by passing <code class="inline">:op_name</code> to <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="2238211500-1">(</span><span class="o">&amp;</span><span class="nc">CustomLayers0</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2238211500-2">[</span><span class="n">input</span><span class="p" data-group-id="2238211500-2">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="2238211500-1">)</span><span class="w">
 
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="2224105269-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="2224105269-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="2238211500-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="2238211500-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 5[&quot;my_layer_0 (:my_layer) {2, 8}&quot;];
 3 --&gt; 5;</code></pre><p>You can also control the name of your layer via the <code class="inline">:name</code> option. All other options are forwarded to the layer implementation function:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="2376474012-1">(</span><span class="o">&amp;</span><span class="nc">CustomLayers0</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2376474012-2">[</span><span class="n">input</span><span class="p" data-group-id="2376474012-2">]</span><span class="p">,</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="7480997335-1">(</span><span class="o">&amp;</span><span class="nc">CustomLayers0</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7480997335-2">[</span><span class="n">input</span><span class="p" data-group-id="7480997335-2">]</span><span class="p">,</span><span class="w">
     </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;layer&quot;</span><span class="p">,</span><span class="w">
     </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p">,</span><span class="w">
     </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">2.0</span><span class="w">
-  </span><span class="p" data-group-id="2376474012-1">)</span><span class="w">
+  </span><span class="p" data-group-id="7480997335-1">)</span><span class="w">
 
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="2376474012-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="2376474012-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="7480997335-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="7480997335-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 6[&quot;layer (:my_layer) {2, 8}&quot;];
-3 --&gt; 6;</code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9346000946-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9346000946-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9346000946-2">(</span><span class="n">out</span><span class="p" data-group-id="9346000946-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9346000946-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9346000946-4">%{</span><span class="p" data-group-id="9346000946-4">}</span><span class="p" data-group-id="9346000946-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6355326980-1">%{</span><span class="p" data-group-id="6355326980-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6074833335-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6074833335-2">(</span><span class="p" data-group-id="6074833335-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6074833335-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6074833335-2">)</span><span class="p" data-group-id="6074833335-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9382793809-1">#</span><span class="nc" data-group-id="9382793809-1">Nx.Tensor</span><span class="p" data-group-id="9382793809-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9382793809-2">[</span><span class="mi">2</span><span class="p" data-group-id="9382793809-2">]</span><span class="p" data-group-id="9382793809-3">[</span><span class="mi">8</span><span class="p" data-group-id="9382793809-3">]</span><span class="w">
-  </span><span class="p" data-group-id="9382793809-4">[</span><span class="w">
-    </span><span class="p" data-group-id="9382793809-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6829419136047363</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8185948133468628</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28224000334739685</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.513604998588562</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9178485870361328</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.558830976486206</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3139731884002686</span><span class="p" data-group-id="9382793809-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9382793809-6">[</span><span class="mf">1.978716492652893</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8242369890213013</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0880422592163086</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9999804496765137</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.073145866394043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8403340578079224</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9812147617340088</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3005757331848145</span><span class="p" data-group-id="9382793809-6">]</span><span class="w">
-  </span><span class="p" data-group-id="9382793809-4">]</span><span class="w">
-</span><span class="p" data-group-id="9382793809-1">&gt;</span></code></pre><p>Notice that this model does not have any trainable parameters because none of the layers have trainable parameters. You can introduce trainable parameters by passing inputs created with <a href="Axon.html#param/3"><code class="inline">Axon.param/3</code></a> to <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a>. For example, you can modify your original custom layer to take an additional trainable parameter:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers1</span><span class="w"> </span><span class="k" data-group-id="8436987655-1">do</span><span class="w">
+3 --&gt; 6;</code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2423212275-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="2423212275-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="2423212275-2">(</span><span class="n">out</span><span class="p" data-group-id="2423212275-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2423212275-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2423212275-4">%{</span><span class="p" data-group-id="2423212275-4">}</span><span class="p" data-group-id="2423212275-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7850442105-1">%{</span><span class="p" data-group-id="7850442105-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8322818461-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="8322818461-2">(</span><span class="p" data-group-id="8322818461-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="8322818461-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8322818461-2">)</span><span class="p" data-group-id="8322818461-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4681667152-1">#</span><span class="nc" data-group-id="4681667152-1">Nx.Tensor</span><span class="p" data-group-id="4681667152-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4681667152-2">[</span><span class="mi">2</span><span class="p" data-group-id="4681667152-2">]</span><span class="p" data-group-id="4681667152-3">[</span><span class="mi">8</span><span class="p" data-group-id="4681667152-3">]</span><span class="w">
+  </span><span class="p" data-group-id="4681667152-4">[</span><span class="w">
+    </span><span class="p" data-group-id="4681667152-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6829419136047363</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8185948133468628</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28224000334739685</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.513604998588562</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9178485870361328</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.558830976486206</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3139731884002686</span><span class="p" data-group-id="4681667152-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4681667152-6">[</span><span class="mf">1.978716492652893</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8242369890213013</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.0880422592163086</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9999804496765137</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.073145866394043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8403340578079224</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9812147617340088</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3005757331848145</span><span class="p" data-group-id="4681667152-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4681667152-4">]</span><span class="w">
+</span><span class="p" data-group-id="4681667152-1">&gt;</span></code></pre><p>Notice that this model does not have any trainable parameters because none of the layers have trainable parameters. You can introduce trainable parameters by passing inputs created with <a href="Axon.html#param/3"><code class="inline">Axon.param/3</code></a> to <a href="Axon.html#layer/3"><code class="inline">Axon.layer/3</code></a>. For example, you can modify your original custom layer to take an additional trainable parameter:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers1</span><span class="w"> </span><span class="k" data-group-id="2533570662-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="8436987655-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="8436987655-3">[</span><span class="p" data-group-id="8436987655-3">]</span><span class="p" data-group-id="8436987655-2">)</span><span class="w"> </span><span class="k" data-group-id="8436987655-4">do</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="2533570662-2">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="2533570662-3">[</span><span class="p" data-group-id="2533570662-3">]</span><span class="p" data-group-id="2533570662-2">)</span><span class="w"> </span><span class="k" data-group-id="2533570662-4">do</span><span class="w">
     </span><span class="n">input</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="8436987655-5">(</span><span class="p" data-group-id="8436987655-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="8436987655-6">(</span><span class="n">alpha</span><span class="p" data-group-id="8436987655-6">)</span><span class="w">
-  </span><span class="k" data-group-id="8436987655-4">end</span><span class="w">
-</span><span class="k" data-group-id="8436987655-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8196175892-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8196175892-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="8196175892-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8196175892-1">}</span></code></pre><p>And then construct the layer with a regular Axon input and a trainable parameter:</p><pre><code class="makeup elixir" translate="no"><span class="n">alpha</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="8102281102-1">(</span><span class="s">&quot;alpha&quot;</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="8102281102-2">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="8102281102-3">{</span><span class="p" data-group-id="8102281102-3">}</span><span class="w"> </span><span class="k" data-group-id="8102281102-2">end</span><span class="p" data-group-id="8102281102-1">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="2533570662-5">(</span><span class="p" data-group-id="2533570662-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="2533570662-6">(</span><span class="n">alpha</span><span class="p" data-group-id="2533570662-6">)</span><span class="w">
+  </span><span class="k" data-group-id="2533570662-4">end</span><span class="w">
+</span><span class="k" data-group-id="2533570662-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6605996787-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6605996787-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6605996787-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6605996787-1">}</span></code></pre><p>And then construct the layer with a regular Axon input and a trainable parameter:</p><pre><code class="makeup elixir" translate="no"><span class="n">alpha</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="1932122396-1">(</span><span class="s">&quot;alpha&quot;</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="1932122396-2">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="1932122396-3">{</span><span class="p" data-group-id="1932122396-3">}</span><span class="w"> </span><span class="k" data-group-id="1932122396-2">end</span><span class="p" data-group-id="1932122396-1">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="8102281102-4">(</span><span class="o">&amp;</span><span class="nc">CustomLayers1</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8102281102-5">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p" data-group-id="8102281102-5">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="8102281102-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9533244325-1">#</span><span class="nc" data-group-id="9533244325-1">Axon</span><span class="p" data-group-id="9533244325-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9533244325-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="9533244325-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="1932122396-4">(</span><span class="o">&amp;</span><span class="nc">CustomLayers1</span><span class="o">.</span><span class="n">my_layer</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1932122396-5">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p" data-group-id="1932122396-5">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="1932122396-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1816547540-1">#</span><span class="nc" data-group-id="1816547540-1">Axon</span><span class="p" data-group-id="1816547540-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1816547540-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="1816547540-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;my_layer_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="w">
-</span><span class="p" data-group-id="9533244325-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7601645271-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7601645271-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7601645271-2">(</span><span class="n">out</span><span class="p" data-group-id="7601645271-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7601645271-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7601645271-4">%{</span><span class="p" data-group-id="7601645271-4">}</span><span class="p" data-group-id="7601645271-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3716929181-1">%{</span><span class="w">
-  </span><span class="s">&quot;my_layer_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3716929181-2">%{</span><span class="w">
-    </span><span class="s">&quot;alpha&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3716929181-3">#</span><span class="nc" data-group-id="3716929181-3">Nx.Tensor</span><span class="p" data-group-id="3716929181-3">&lt;</span><span class="w">
+</span><span class="p" data-group-id="1816547540-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0494162004-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0494162004-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0494162004-2">(</span><span class="n">out</span><span class="p" data-group-id="0494162004-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0494162004-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0494162004-4">%{</span><span class="p" data-group-id="0494162004-4">}</span><span class="p" data-group-id="0494162004-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8916049348-1">%{</span><span class="w">
+  </span><span class="s">&quot;my_layer_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8916049348-2">%{</span><span class="w">
+    </span><span class="s">&quot;alpha&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8916049348-3">#</span><span class="nc" data-group-id="8916049348-3">Nx.Tensor</span><span class="p" data-group-id="8916049348-3">&lt;</span><span class="w">
       </span><span class="n">f32</span><span class="w">
       </span><span class="o">-</span><span class="mf">1.2601861953735352</span><span class="w">
-    </span><span class="p" data-group-id="3716929181-3">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3716929181-2">}</span><span class="w">
-</span><span class="p" data-group-id="3716929181-1">}</span></code></pre><p>Notice how your model now initializes with a trainable parameter <code class="inline">&quot;alpha&quot;</code> for your custom layer. Each parameter requires a unique (per-layer) string name and a function which determines the parameter's shape from the layer's input shapes.</p><!-- livebook:{"break_markdown":true} --><p>If you plan on re-using custom layers in many locations, it's recommended that you wrap them in an Elixir function as an interface:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers2</span><span class="w"> </span><span class="k" data-group-id="0787793733-1">do</span><span class="w">
+    </span><span class="p" data-group-id="8916049348-3">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8916049348-2">}</span><span class="w">
+</span><span class="p" data-group-id="8916049348-1">}</span></code></pre><p>Notice how your model now initializes with a trainable parameter <code class="inline">&quot;alpha&quot;</code> for your custom layer. Each parameter requires a unique (per-layer) string name and a function which determines the parameter's shape from the layer's input shapes.</p><!-- livebook:{"break_markdown":true} --><p>If you plan on re-using custom layers in many locations, it's recommended that you wrap them in an Elixir function as an interface:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayers2</span><span class="w"> </span><span class="k" data-group-id="4634035366-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="0787793733-2">(</span><span class="p" data-group-id="0787793733-3">%</span><span class="nc" data-group-id="0787793733-3">Axon</span><span class="p" data-group-id="0787793733-3">{</span><span class="p" data-group-id="0787793733-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="0787793733-4">[</span><span class="p" data-group-id="0787793733-4">]</span><span class="p" data-group-id="0787793733-2">)</span><span class="w"> </span><span class="k" data-group-id="0787793733-5">do</span><span class="w">
-    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Keyword</span><span class="o">.</span><span class="n">validate!</span><span class="p" data-group-id="0787793733-6">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0787793733-7">[</span><span class="ss">:name</span><span class="p" data-group-id="0787793733-7">]</span><span class="p" data-group-id="0787793733-6">)</span><span class="w">
-    </span><span class="n">alpha</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="0787793733-8">(</span><span class="s">&quot;alpha&quot;</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0787793733-9">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="0787793733-10">{</span><span class="p" data-group-id="0787793733-10">}</span><span class="w"> </span><span class="k" data-group-id="0787793733-9">end</span><span class="p" data-group-id="0787793733-8">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">my_layer</span><span class="p" data-group-id="4634035366-2">(</span><span class="p" data-group-id="4634035366-3">%</span><span class="nc" data-group-id="4634035366-3">Axon</span><span class="p" data-group-id="4634035366-3">{</span><span class="p" data-group-id="4634035366-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="4634035366-4">[</span><span class="p" data-group-id="4634035366-4">]</span><span class="p" data-group-id="4634035366-2">)</span><span class="w"> </span><span class="k" data-group-id="4634035366-5">do</span><span class="w">
+    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Keyword</span><span class="o">.</span><span class="n">validate!</span><span class="p" data-group-id="4634035366-6">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4634035366-7">[</span><span class="ss">:name</span><span class="p" data-group-id="4634035366-7">]</span><span class="p" data-group-id="4634035366-6">)</span><span class="w">
+    </span><span class="n">alpha</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">param</span><span class="p" data-group-id="4634035366-8">(</span><span class="s">&quot;alpha&quot;</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="4634035366-9">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="4634035366-10">{</span><span class="p" data-group-id="4634035366-10">}</span><span class="w"> </span><span class="k" data-group-id="4634035366-9">end</span><span class="p" data-group-id="4634035366-8">)</span><span class="w">
 
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="0787793733-11">(</span><span class="o">&amp;</span><span class="n">my_layer_impl</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0787793733-12">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p" data-group-id="0787793733-12">]</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="0787793733-13">[</span><span class="ss">:name</span><span class="p" data-group-id="0787793733-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="0787793733-11">)</span><span class="w">
-  </span><span class="k" data-group-id="0787793733-5">end</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="4634035366-11">(</span><span class="o">&amp;</span><span class="n">my_layer_impl</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4634035366-12">[</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p" data-group-id="4634035366-12">]</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="4634035366-13">[</span><span class="ss">:name</span><span class="p" data-group-id="4634035366-13">]</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:my_layer</span><span class="p" data-group-id="4634035366-11">)</span><span class="w">
+  </span><span class="k" data-group-id="4634035366-5">end</span><span class="w">
 
-  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">my_layer_impl</span><span class="p" data-group-id="0787793733-14">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="0787793733-15">[</span><span class="p" data-group-id="0787793733-15">]</span><span class="p" data-group-id="0787793733-14">)</span><span class="w"> </span><span class="k" data-group-id="0787793733-16">do</span><span class="w">
+  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">my_layer_impl</span><span class="p" data-group-id="4634035366-14">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">alpha</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="4634035366-15">[</span><span class="p" data-group-id="4634035366-15">]</span><span class="p" data-group-id="4634035366-14">)</span><span class="w"> </span><span class="k" data-group-id="4634035366-16">do</span><span class="w">
     </span><span class="n">input</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="0787793733-17">(</span><span class="p" data-group-id="0787793733-17">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="0787793733-18">(</span><span class="n">alpha</span><span class="p" data-group-id="0787793733-18">)</span><span class="w">
-  </span><span class="k" data-group-id="0787793733-16">end</span><span class="w">
-</span><span class="k" data-group-id="0787793733-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0478305216-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0478305216-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">12</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0478305216-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0478305216-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="4634035366-17">(</span><span class="p" data-group-id="4634035366-17">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="4634035366-18">(</span><span class="n">alpha</span><span class="p" data-group-id="4634035366-18">)</span><span class="w">
+  </span><span class="k" data-group-id="4634035366-16">end</span><span class="w">
+</span><span class="k" data-group-id="4634035366-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9603921946-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomLayers2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9603921946-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">12</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="9603921946-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9603921946-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">input</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayers2</span><span class="o">.</span><span class="n">my_layer</span><span class="p" data-group-id="5549901423-1">(</span><span class="p" data-group-id="5549901423-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayers2</span><span class="o">.</span><span class="n">my_layer</span><span class="p" data-group-id="5549901423-2">(</span><span class="p" data-group-id="5549901423-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5549901423-3">(</span><span class="mi">1</span><span class="p" data-group-id="5549901423-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4135926061-1">#</span><span class="nc" data-group-id="4135926061-1">Axon</span><span class="p" data-group-id="4135926061-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4135926061-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="4135926061-2">}</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayers2</span><span class="o">.</span><span class="n">my_layer</span><span class="p" data-group-id="7755361081-1">(</span><span class="p" data-group-id="7755361081-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayers2</span><span class="o">.</span><span class="n">my_layer</span><span class="p" data-group-id="7755361081-2">(</span><span class="p" data-group-id="7755361081-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7755361081-3">(</span><span class="mi">1</span><span class="p" data-group-id="7755361081-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9905334671-1">#</span><span class="nc" data-group-id="9905334671-1">Axon</span><span class="p" data-group-id="9905334671-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9905334671-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="9905334671-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;dense_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="w">
-</span><span class="p" data-group-id="4135926061-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="3385554195-1">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="3385554195-1">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="9905334671-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="8120664109-1">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="8120664109-1">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
 8[&quot;my_layer_0 (:my_layer) {2, 8}&quot;];
 9[&quot;my_layer_1 (:my_layer) {2, 8}&quot;];
diff --git a/custom_models_loss_optimizers.html b/custom_models_loss_optimizers.html
index 2ad5e699..6a30d3e0 100644
--- a/custom_models_loss_optimizers.html
+++ b/custom_models_loss_optimizers.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,320 +136,320 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0871606000-1">(</span><span class="p" data-group-id="0871606000-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0871606000-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="0871606000-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0871606000-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0871606000-4">}</span><span class="w">
-</span><span class="p" data-group-id="0871606000-2">]</span><span class="p" data-group-id="0871606000-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="using-custom-models-in-training-loops" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="9025097085-1">(</span><span class="p" data-group-id="9025097085-2">[</span><span class="w">
+  </span><span class="p" data-group-id="9025097085-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/axon&quot;</span><span class="p" data-group-id="9025097085-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9025097085-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">github</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;elixir-nx/nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">sparse</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;nx&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9025097085-4">}</span><span class="w">
+</span><span class="p" data-group-id="9025097085-2">]</span><span class="p" data-group-id="9025097085-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="using-custom-models-in-training-loops" class="section-heading">
   <a href="#using-custom-models-in-training-loops" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Using custom models in training loops</span>
 </h2>
 <p>In the <a href="your_first_training_loop.html">Your first training loop</a>, you learned how to declare a supervised training loop using <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> with a model, loss function, and optimizer. Your overall model and loop declaration looked something like this:</p><!-- livebook:{"force_markdown":true} --><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5599471422-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5599471422-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5599471422-2">(</span><span class="mi">8</span><span class="p" data-group-id="5599471422-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5599471422-3">(</span><span class="p" data-group-id="5599471422-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5599471422-4">(</span><span class="mi">4</span><span class="p" data-group-id="5599471422-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5599471422-5">(</span><span class="p" data-group-id="5599471422-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5599471422-6">(</span><span class="mi">1</span><span class="p" data-group-id="5599471422-6">)</span><span class="w">
-
-</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5599471422-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5599471422-7">)</span></code></pre><p>This example uses an <code class="inline">%Axon{}</code> struct to represent your <code class="inline">model</code> to train, and atoms to represent your loss function and optimizer. Some of your problems will require a bit more flexibility than this example affords. Fortunately, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is designed for flexibility.</p><p>For example, if your model cannot be cleanly represented as an <code class="inline">%Axon{}</code> model, you can instead opt instead to define custom initialization and forward functions to pass to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. Actually, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is doing this for you under the hood - the ability to pass an <code class="inline">%Axon{}</code> struct directly is just a convenience:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4932241847-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4932241847-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4932241847-2">(</span><span class="mi">8</span><span class="p" data-group-id="4932241847-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4932241847-3">(</span><span class="p" data-group-id="4932241847-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4932241847-4">(</span><span class="mi">4</span><span class="p" data-group-id="4932241847-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4932241847-5">(</span><span class="p" data-group-id="4932241847-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4932241847-6">(</span><span class="mi">1</span><span class="p" data-group-id="4932241847-6">)</span><span class="w">
-
-</span><span class="n">lowered_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="4932241847-7">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4932241847-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4932241847-8">(</span><span class="n">model</span><span class="p" data-group-id="4932241847-8">)</span><span class="w">
-
-</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4932241847-9">(</span><span class="n">lowered_model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="4932241847-9">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3722211967-1">#</span><span class="nc" data-group-id="3722211967-1">Axon.Loop</span><span class="p" data-group-id="3722211967-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-3">[</span><span class="p" data-group-id="3722211967-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-4">[</span><span class="w">
-      </span><span class="p" data-group-id="3722211967-5">{</span><span class="p" data-group-id="3722211967-6">#</span><span class="nc" data-group-id="3722211967-6">Function</span><span class="p" data-group-id="3722211967-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3722211967-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="3722211967-7">#</span><span class="nc" data-group-id="3722211967-7">Function</span><span class="p" data-group-id="3722211967-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3722211967-7">&gt;</span><span class="p" data-group-id="3722211967-5">}</span><span class="w">
-    </span><span class="p" data-group-id="3722211967-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-8">[</span><span class="p" data-group-id="3722211967-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-9">[</span><span class="p" data-group-id="3722211967-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-10">[</span><span class="p" data-group-id="3722211967-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-11">[</span><span class="w">
-      </span><span class="p" data-group-id="3722211967-12">{</span><span class="p" data-group-id="3722211967-13">#</span><span class="nc" data-group-id="3722211967-13">Function</span><span class="p" data-group-id="3722211967-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3722211967-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="3722211967-14">#</span><span class="nc" data-group-id="3722211967-14">Function</span><span class="p" data-group-id="3722211967-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3722211967-14">&gt;</span><span class="p" data-group-id="3722211967-12">}</span><span class="w">
-    </span><span class="p" data-group-id="3722211967-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-15">[</span><span class="p" data-group-id="3722211967-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-16">[</span><span class="p" data-group-id="3722211967-16">]</span><span class="w">
-  </span><span class="p" data-group-id="3722211967-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3722211967-17">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3722211967-18">{</span><span class="p" data-group-id="3722211967-19">#</span><span class="nc" data-group-id="3722211967-19">Function</span><span class="p" data-group-id="3722211967-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3722211967-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="3722211967-20">#</span><span class="nc" data-group-id="3722211967-20">Function</span><span class="p" data-group-id="3722211967-20">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3722211967-20">&gt;</span><span class="p" data-group-id="3722211967-18">}</span><span class="w">
-  </span><span class="p" data-group-id="3722211967-17">}</span><span class="p">,</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7061376622-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7061376622-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7061376622-2">(</span><span class="mi">8</span><span class="p" data-group-id="7061376622-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7061376622-3">(</span><span class="p" data-group-id="7061376622-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7061376622-4">(</span><span class="mi">4</span><span class="p" data-group-id="7061376622-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7061376622-5">(</span><span class="p" data-group-id="7061376622-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7061376622-6">(</span><span class="mi">1</span><span class="p" data-group-id="7061376622-6">)</span><span class="w">
+
+</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7061376622-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7061376622-7">)</span></code></pre><p>This example uses an <code class="inline">%Axon{}</code> struct to represent your <code class="inline">model</code> to train, and atoms to represent your loss function and optimizer. Some of your problems will require a bit more flexibility than this example affords. Fortunately, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is designed for flexibility.</p><p>For example, if your model cannot be cleanly represented as an <code class="inline">%Axon{}</code> model, you can instead opt instead to define custom initialization and forward functions to pass to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. Actually, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is doing this for you under the hood - the ability to pass an <code class="inline">%Axon{}</code> struct directly is just a convenience:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4613044893-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4613044893-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4613044893-2">(</span><span class="mi">8</span><span class="p" data-group-id="4613044893-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4613044893-3">(</span><span class="p" data-group-id="4613044893-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4613044893-4">(</span><span class="mi">4</span><span class="p" data-group-id="4613044893-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4613044893-5">(</span><span class="p" data-group-id="4613044893-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4613044893-6">(</span><span class="mi">1</span><span class="p" data-group-id="4613044893-6">)</span><span class="w">
+
+</span><span class="n">lowered_model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="4613044893-7">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4613044893-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4613044893-8">(</span><span class="n">model</span><span class="p" data-group-id="4613044893-8">)</span><span class="w">
+
+</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4613044893-9">(</span><span class="n">lowered_model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="4613044893-9">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4174687271-1">#</span><span class="nc" data-group-id="4174687271-1">Axon.Loop</span><span class="p" data-group-id="4174687271-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-3">[</span><span class="p" data-group-id="4174687271-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-4">[</span><span class="w">
+      </span><span class="p" data-group-id="4174687271-5">{</span><span class="p" data-group-id="4174687271-6">#</span><span class="nc" data-group-id="4174687271-6">Function</span><span class="p" data-group-id="4174687271-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="4174687271-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="4174687271-7">#</span><span class="nc" data-group-id="4174687271-7">Function</span><span class="p" data-group-id="4174687271-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4174687271-7">&gt;</span><span class="p" data-group-id="4174687271-5">}</span><span class="w">
+    </span><span class="p" data-group-id="4174687271-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-8">[</span><span class="p" data-group-id="4174687271-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-9">[</span><span class="p" data-group-id="4174687271-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-10">[</span><span class="p" data-group-id="4174687271-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-11">[</span><span class="w">
+      </span><span class="p" data-group-id="4174687271-12">{</span><span class="p" data-group-id="4174687271-13">#</span><span class="nc" data-group-id="4174687271-13">Function</span><span class="p" data-group-id="4174687271-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="4174687271-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="4174687271-14">#</span><span class="nc" data-group-id="4174687271-14">Function</span><span class="p" data-group-id="4174687271-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4174687271-14">&gt;</span><span class="p" data-group-id="4174687271-12">}</span><span class="w">
+    </span><span class="p" data-group-id="4174687271-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-15">[</span><span class="p" data-group-id="4174687271-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-16">[</span><span class="p" data-group-id="4174687271-16">]</span><span class="w">
+  </span><span class="p" data-group-id="4174687271-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4174687271-17">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4174687271-18">{</span><span class="p" data-group-id="4174687271-19">#</span><span class="nc" data-group-id="4174687271-19">Function</span><span class="p" data-group-id="4174687271-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4174687271-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="4174687271-20">#</span><span class="nc" data-group-id="4174687271-20">Function</span><span class="p" data-group-id="4174687271-20">&lt;</span><span class="mf">6.20267452</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4174687271-20">&gt;</span><span class="p" data-group-id="4174687271-18">}</span><span class="w">
+  </span><span class="p" data-group-id="4174687271-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="3722211967-1">&gt;</span></code></pre><p>Notice that <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> handles the &quot;lowered&quot; form of an Axon model without issue. When you pass an <code class="inline">%Axon{}</code> struct, the trainer factory converts it to a lowered representation for you. With this construct, you can build custom models entirely with Nx <code class="inline">defn</code>, or readily mix your Axon models into custom workflows without worrying about compatibility with the <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> API:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomModel</span><span class="w"> </span><span class="k" data-group-id="9877888702-1">do</span><span class="w">
+</span><span class="p" data-group-id="4174687271-1">&gt;</span></code></pre><p>Notice that <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> handles the &quot;lowered&quot; form of an Axon model without issue. When you pass an <code class="inline">%Axon{}</code> struct, the trainer factory converts it to a lowered representation for you. With this construct, you can build custom models entirely with Nx <code class="inline">defn</code>, or readily mix your Axon models into custom workflows without worrying about compatibility with the <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> API:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomModel</span><span class="w"> </span><span class="k" data-group-id="3421761208-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">custom_predict_fn</span><span class="p" data-group-id="9877888702-2">(</span><span class="n">model_predict_fn</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="9877888702-2">)</span><span class="w"> </span><span class="k" data-group-id="9877888702-3">do</span><span class="w">
-    </span><span class="p" data-group-id="9877888702-4">%{</span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="n">preds</span><span class="p" data-group-id="9877888702-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model_predict_fn</span><span class="o">.</span><span class="p" data-group-id="9877888702-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="9877888702-5">)</span><span class="w">
-    </span><span class="p" data-group-id="9877888702-6">%{</span><span class="n">out</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="9877888702-7">(</span><span class="n">preds</span><span class="p" data-group-id="9877888702-7">)</span><span class="p" data-group-id="9877888702-6">}</span><span class="w">
-  </span><span class="k" data-group-id="9877888702-3">end</span><span class="w">
-</span><span class="k" data-group-id="9877888702-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3751747804-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomModel</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3751747804-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">9</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="3751747804-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3751747804-3">{</span><span class="ss">:custom_predict_fn</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3751747804-3">}</span><span class="p" data-group-id="3751747804-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="0823825661-1">(</span><span class="k" data-group-id="0823825661-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="0823825661-3">(</span><span class="p" data-group-id="0823825661-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0823825661-4">}</span><span class="p" data-group-id="0823825661-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="0823825661-5">(</span><span class="n">xs</span><span class="p" data-group-id="0823825661-5">)</span><span class="w">
-    </span><span class="p" data-group-id="0823825661-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="0823825661-6">}</span><span class="w">
-  </span><span class="k" data-group-id="0823825661-2">end</span><span class="p" data-group-id="0823825661-1">)</span><span class="w">
-
-</span><span class="p" data-group-id="0823825661-7">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0823825661-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0823825661-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="0823825661-8">)</span><span class="w">
-</span><span class="n">custom_predict_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomModel</span><span class="o">.</span><span class="n">custom_predict_fn</span><span class="p" data-group-id="0823825661-9">(</span><span class="n">predict_fn</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p" data-group-id="0823825661-9">)</span><span class="w">
-
-</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0823825661-10">(</span><span class="p" data-group-id="0823825661-11">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">custom_predict_fn</span><span class="p" data-group-id="0823825661-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0823825661-10">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0823825661-12">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0823825661-13">%{</span><span class="p" data-group-id="0823825661-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p" data-group-id="0823825661-12">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3053460</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7483873042-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-3">#</span><span class="nc" data-group-id="7483873042-3">Nx.Tensor</span><span class="p" data-group-id="7483873042-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7483873042-4">[</span><span class="mi">8</span><span class="p" data-group-id="7483873042-4">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-5">[</span><span class="o">-</span><span class="mf">0.06573846191167831</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37533989548683167</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.014221129938960075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0056641618721187115</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.013241665437817574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04930500313639641</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03238297998905182</span><span class="p">,</span><span class="w"> </span><span class="mf">0.019304191693663597</span><span class="p" data-group-id="7483873042-5">]</span><span class="w">
-    </span><span class="p" data-group-id="7483873042-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-6">#</span><span class="nc" data-group-id="7483873042-6">Nx.Tensor</span><span class="p" data-group-id="7483873042-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7483873042-7">[</span><span class="mi">1</span><span class="p" data-group-id="7483873042-7">]</span><span class="p" data-group-id="7483873042-8">[</span><span class="mi">8</span><span class="p" data-group-id="7483873042-8">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-9">[</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-10">[</span><span class="o">-</span><span class="mf">0.3132522702217102</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9284062385559082</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5041953921318054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09051526337862015</span><span class="p">,</span><span class="w"> </span><span class="mf">0.003381401300430298</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22686156630516052</span><span class="p">,</span><span class="w"> </span><span class="mf">0.506594181060791</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46744370460510254</span><span class="p" data-group-id="7483873042-10">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-9">]</span><span class="w">
-    </span><span class="p" data-group-id="7483873042-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7483873042-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-12">#</span><span class="nc" data-group-id="7483873042-12">Nx.Tensor</span><span class="p" data-group-id="7483873042-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7483873042-13">[</span><span class="mi">4</span><span class="p" data-group-id="7483873042-13">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-14">[</span><span class="mf">0.008441010490059853</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5370790958404541</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03584281727671623</span><span class="p" data-group-id="7483873042-14">]</span><span class="w">
-    </span><span class="p" data-group-id="7483873042-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-15">#</span><span class="nc" data-group-id="7483873042-15">Nx.Tensor</span><span class="p" data-group-id="7483873042-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7483873042-16">[</span><span class="mi">8</span><span class="p" data-group-id="7483873042-16">]</span><span class="p" data-group-id="7483873042-17">[</span><span class="mi">4</span><span class="p" data-group-id="7483873042-17">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-18">[</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-19">[</span><span class="o">-</span><span class="mf">0.3442431688308716</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33131587505340576</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03751888871192932</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5497395396232605</span><span class="p" data-group-id="7483873042-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-20">[</span><span class="o">-</span><span class="mf">0.4568001925945282</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5024663805961609</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8712142109870911</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13484779000282288</span><span class="p" data-group-id="7483873042-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-21">[</span><span class="mf">0.7310590744018555</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34318023920059204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3977772295475006</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6045383214950562</span><span class="p" data-group-id="7483873042-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-22">[</span><span class="o">-</span><span class="mf">0.5255699157714844</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2829623818397522</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45367464423179626</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.157784566283226</span><span class="p" data-group-id="7483873042-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-23">[</span><span class="o">-</span><span class="mf">0.47948920726776123</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2930692136287689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3784458339214325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.69244384765625</span><span class="p" data-group-id="7483873042-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-24">[</span><span class="mf">0.7052943706512451</span><span class="p">,</span><span class="w"> </span><span class="mf">0.015830136835575104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02979498915374279</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6160839796066284</span><span class="p" data-group-id="7483873042-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-25">[</span><span class="mf">0.3201732933521271</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1367085874080658</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17100055515766144</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7335636019706726</span><span class="p" data-group-id="7483873042-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-26">[</span><span class="o">-</span><span class="mf">0.2825513482093811</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.424674928188324</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3110836148262024</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46001508831977844</span><span class="p" data-group-id="7483873042-26">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-18">]</span><span class="w">
-    </span><span class="p" data-group-id="7483873042-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7483873042-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-28">#</span><span class="nc" data-group-id="7483873042-28">Nx.Tensor</span><span class="p" data-group-id="7483873042-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7483873042-29">[</span><span class="mi">1</span><span class="p" data-group-id="7483873042-29">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-30">[</span><span class="mf">0.6889857649803162</span><span class="p" data-group-id="7483873042-30">]</span><span class="w">
-    </span><span class="p" data-group-id="7483873042-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7483873042-31">#</span><span class="nc" data-group-id="7483873042-31">Nx.Tensor</span><span class="p" data-group-id="7483873042-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7483873042-32">[</span><span class="mi">4</span><span class="p" data-group-id="7483873042-32">]</span><span class="p" data-group-id="7483873042-33">[</span><span class="mi">1</span><span class="p" data-group-id="7483873042-33">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-34">[</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-35">[</span><span class="o">-</span><span class="mf">0.7191283106803894</span><span class="p" data-group-id="7483873042-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-36">[</span><span class="o">-</span><span class="mf">0.4222411513328552</span><span class="p" data-group-id="7483873042-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-37">[</span><span class="mf">1.122635006904602</span><span class="p" data-group-id="7483873042-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7483873042-38">[</span><span class="o">-</span><span class="mf">0.7385509014129639</span><span class="p" data-group-id="7483873042-38">]</span><span class="w">
-      </span><span class="p" data-group-id="7483873042-34">]</span><span class="w">
-    </span><span class="p" data-group-id="7483873042-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7483873042-27">}</span><span class="w">
-</span><span class="p" data-group-id="7483873042-1">}</span></code></pre><h2 id="using-custom-loss-functions-in-training-loops" class="section-heading">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">custom_predict_fn</span><span class="p" data-group-id="3421761208-2">(</span><span class="n">model_predict_fn</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="3421761208-2">)</span><span class="w"> </span><span class="k" data-group-id="3421761208-3">do</span><span class="w">
+    </span><span class="p" data-group-id="3421761208-4">%{</span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="n">preds</span><span class="p" data-group-id="3421761208-4">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">model_predict_fn</span><span class="o">.</span><span class="p" data-group-id="3421761208-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="3421761208-5">)</span><span class="w">
+    </span><span class="p" data-group-id="3421761208-6">%{</span><span class="n">out</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="3421761208-7">(</span><span class="n">preds</span><span class="p" data-group-id="3421761208-7">)</span><span class="p" data-group-id="3421761208-6">}</span><span class="w">
+  </span><span class="k" data-group-id="3421761208-3">end</span><span class="w">
+</span><span class="k" data-group-id="3421761208-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6412908150-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomModel</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6412908150-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">9</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6412908150-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6412908150-3">{</span><span class="ss">:custom_predict_fn</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6412908150-3">}</span><span class="p" data-group-id="6412908150-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5551265230-1">(</span><span class="k" data-group-id="5551265230-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5551265230-3">(</span><span class="p" data-group-id="5551265230-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5551265230-4">}</span><span class="p" data-group-id="5551265230-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="5551265230-5">(</span><span class="n">xs</span><span class="p" data-group-id="5551265230-5">)</span><span class="w">
+    </span><span class="p" data-group-id="5551265230-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="5551265230-6">}</span><span class="w">
+  </span><span class="k" data-group-id="5551265230-2">end</span><span class="p" data-group-id="5551265230-1">)</span><span class="w">
+
+</span><span class="p" data-group-id="5551265230-7">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5551265230-7">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5551265230-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="5551265230-8">)</span><span class="w">
+</span><span class="n">custom_predict_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomModel</span><span class="o">.</span><span class="n">custom_predict_fn</span><span class="p" data-group-id="5551265230-9">(</span><span class="n">predict_fn</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p" data-group-id="5551265230-9">)</span><span class="w">
+
+</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5551265230-10">(</span><span class="p" data-group-id="5551265230-11">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">custom_predict_fn</span><span class="p" data-group-id="5551265230-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5551265230-10">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5551265230-12">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5551265230-13">%{</span><span class="p" data-group-id="5551265230-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p" data-group-id="5551265230-12">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3053460</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5558705338-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-3">#</span><span class="nc" data-group-id="5558705338-3">Nx.Tensor</span><span class="p" data-group-id="5558705338-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5558705338-4">[</span><span class="mi">8</span><span class="p" data-group-id="5558705338-4">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-5">[</span><span class="o">-</span><span class="mf">0.06573846191167831</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37533989548683167</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.014221129938960075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0056641618721187115</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.013241665437817574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04930500313639641</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03238297998905182</span><span class="p">,</span><span class="w"> </span><span class="mf">0.019304191693663597</span><span class="p" data-group-id="5558705338-5">]</span><span class="w">
+    </span><span class="p" data-group-id="5558705338-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-6">#</span><span class="nc" data-group-id="5558705338-6">Nx.Tensor</span><span class="p" data-group-id="5558705338-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5558705338-7">[</span><span class="mi">1</span><span class="p" data-group-id="5558705338-7">]</span><span class="p" data-group-id="5558705338-8">[</span><span class="mi">8</span><span class="p" data-group-id="5558705338-8">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-9">[</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-10">[</span><span class="o">-</span><span class="mf">0.3132522702217102</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9284062385559082</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5041953921318054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09051526337862015</span><span class="p">,</span><span class="w"> </span><span class="mf">0.003381401300430298</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22686156630516052</span><span class="p">,</span><span class="w"> </span><span class="mf">0.506594181060791</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46744370460510254</span><span class="p" data-group-id="5558705338-10">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-9">]</span><span class="w">
+    </span><span class="p" data-group-id="5558705338-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5558705338-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-12">#</span><span class="nc" data-group-id="5558705338-12">Nx.Tensor</span><span class="p" data-group-id="5558705338-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5558705338-13">[</span><span class="mi">4</span><span class="p" data-group-id="5558705338-13">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-14">[</span><span class="mf">0.008441010490059853</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5370790958404541</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03584281727671623</span><span class="p" data-group-id="5558705338-14">]</span><span class="w">
+    </span><span class="p" data-group-id="5558705338-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-15">#</span><span class="nc" data-group-id="5558705338-15">Nx.Tensor</span><span class="p" data-group-id="5558705338-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5558705338-16">[</span><span class="mi">8</span><span class="p" data-group-id="5558705338-16">]</span><span class="p" data-group-id="5558705338-17">[</span><span class="mi">4</span><span class="p" data-group-id="5558705338-17">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-18">[</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-19">[</span><span class="o">-</span><span class="mf">0.3442431688308716</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33131587505340576</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03751888871192932</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5497395396232605</span><span class="p" data-group-id="5558705338-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-20">[</span><span class="o">-</span><span class="mf">0.4568001925945282</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5024663805961609</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8712142109870911</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13484779000282288</span><span class="p" data-group-id="5558705338-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-21">[</span><span class="mf">0.7310590744018555</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34318023920059204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3977772295475006</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6045383214950562</span><span class="p" data-group-id="5558705338-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-22">[</span><span class="o">-</span><span class="mf">0.5255699157714844</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2829623818397522</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45367464423179626</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.157784566283226</span><span class="p" data-group-id="5558705338-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-23">[</span><span class="o">-</span><span class="mf">0.47948920726776123</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2930692136287689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3784458339214325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.69244384765625</span><span class="p" data-group-id="5558705338-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-24">[</span><span class="mf">0.7052943706512451</span><span class="p">,</span><span class="w"> </span><span class="mf">0.015830136835575104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02979498915374279</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6160839796066284</span><span class="p" data-group-id="5558705338-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-25">[</span><span class="mf">0.3201732933521271</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1367085874080658</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17100055515766144</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7335636019706726</span><span class="p" data-group-id="5558705338-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-26">[</span><span class="o">-</span><span class="mf">0.2825513482093811</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.424674928188324</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3110836148262024</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46001508831977844</span><span class="p" data-group-id="5558705338-26">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-18">]</span><span class="w">
+    </span><span class="p" data-group-id="5558705338-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5558705338-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-28">#</span><span class="nc" data-group-id="5558705338-28">Nx.Tensor</span><span class="p" data-group-id="5558705338-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5558705338-29">[</span><span class="mi">1</span><span class="p" data-group-id="5558705338-29">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-30">[</span><span class="mf">0.6889857649803162</span><span class="p" data-group-id="5558705338-30">]</span><span class="w">
+    </span><span class="p" data-group-id="5558705338-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5558705338-31">#</span><span class="nc" data-group-id="5558705338-31">Nx.Tensor</span><span class="p" data-group-id="5558705338-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5558705338-32">[</span><span class="mi">4</span><span class="p" data-group-id="5558705338-32">]</span><span class="p" data-group-id="5558705338-33">[</span><span class="mi">1</span><span class="p" data-group-id="5558705338-33">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-34">[</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-35">[</span><span class="o">-</span><span class="mf">0.7191283106803894</span><span class="p" data-group-id="5558705338-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-36">[</span><span class="o">-</span><span class="mf">0.4222411513328552</span><span class="p" data-group-id="5558705338-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-37">[</span><span class="mf">1.122635006904602</span><span class="p" data-group-id="5558705338-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5558705338-38">[</span><span class="o">-</span><span class="mf">0.7385509014129639</span><span class="p" data-group-id="5558705338-38">]</span><span class="w">
+      </span><span class="p" data-group-id="5558705338-34">]</span><span class="w">
+    </span><span class="p" data-group-id="5558705338-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5558705338-27">}</span><span class="w">
+</span><span class="p" data-group-id="5558705338-1">}</span></code></pre><h2 id="using-custom-loss-functions-in-training-loops" class="section-heading">
   <a href="#using-custom-loss-functions-in-training-loops" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Using custom loss functions in training loops</span>
 </h2>
-<p>Just as <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> allows more flexibility with models, it also supports more flexible loss functions. In most cases, you can get away with using one of Axon's built-in loss functions by specifying an atom. Atoms map directly to a loss-function defined in <a href="Axon.Losses.html"><code class="inline">Axon.Losses</code></a>. Under the hood, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is doing something like:</p><!-- livebook:{"force_markdown":true} --><pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="n">apply</span><span class="p" data-group-id="7433013697-1">(</span><span class="nc">Axon.Losses</span><span class="p">,</span><span class="w"> </span><span class="n">loss_atom</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7433013697-2">[</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p" data-group-id="7433013697-2">]</span><span class="p" data-group-id="7433013697-1">)</span></code></pre><p>Rather than pass an atom, you can pass your own custom arity-2 function to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. This arises most often in cases where you want to control some parameters of the loss function, such as the batch-level reduction:</p><pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="9986186478-1">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="9986186478-1">)</span><span class="w">
-
-</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9986186478-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">loss_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9986186478-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3570498753-1">#</span><span class="nc" data-group-id="3570498753-1">Axon.Loop</span><span class="p" data-group-id="3570498753-1">&lt;</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-2">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-3">[</span><span class="p" data-group-id="3570498753-3">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-4">[</span><span class="w">
-      </span><span class="p" data-group-id="3570498753-5">{</span><span class="p" data-group-id="3570498753-6">#</span><span class="nc" data-group-id="3570498753-6">Function</span><span class="p" data-group-id="3570498753-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3570498753-6">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="3570498753-7">#</span><span class="nc" data-group-id="3570498753-7">Function</span><span class="p" data-group-id="3570498753-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3570498753-7">&gt;</span><span class="p" data-group-id="3570498753-5">}</span><span class="w">
-    </span><span class="p" data-group-id="3570498753-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-8">[</span><span class="p" data-group-id="3570498753-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-9">[</span><span class="p" data-group-id="3570498753-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-10">[</span><span class="p" data-group-id="3570498753-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-11">[</span><span class="w">
-      </span><span class="p" data-group-id="3570498753-12">{</span><span class="p" data-group-id="3570498753-13">#</span><span class="nc" data-group-id="3570498753-13">Function</span><span class="p" data-group-id="3570498753-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3570498753-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="3570498753-14">#</span><span class="nc" data-group-id="3570498753-14">Function</span><span class="p" data-group-id="3570498753-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3570498753-14">&gt;</span><span class="p" data-group-id="3570498753-12">}</span><span class="w">
-    </span><span class="p" data-group-id="3570498753-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-15">[</span><span class="p" data-group-id="3570498753-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-16">[</span><span class="p" data-group-id="3570498753-16">]</span><span class="w">
-  </span><span class="p" data-group-id="3570498753-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3570498753-17">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3570498753-18">{</span><span class="p" data-group-id="3570498753-19">#</span><span class="nc" data-group-id="3570498753-19">Function</span><span class="p" data-group-id="3570498753-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3570498753-19">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="3570498753-20">#</span><span class="nc" data-group-id="3570498753-20">Function</span><span class="p" data-group-id="3570498753-20">&lt;</span><span class="mf">41.3316493</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">:erl_eval</span><span class="o">.</span><span class="n">expr</span><span class="o">/</span><span class="mi">6</span><span class="p" data-group-id="3570498753-20">&gt;</span><span class="p" data-group-id="3570498753-18">}</span><span class="w">
-  </span><span class="p" data-group-id="3570498753-17">}</span><span class="p">,</span><span class="w">
+<p>Just as <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> allows more flexibility with models, it also supports more flexible loss functions. In most cases, you can get away with using one of Axon's built-in loss functions by specifying an atom. Atoms map directly to a loss-function defined in <a href="Axon.Losses.html"><code class="inline">Axon.Losses</code></a>. Under the hood, <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> is doing something like:</p><!-- livebook:{"force_markdown":true} --><pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="n">apply</span><span class="p" data-group-id="8207285065-1">(</span><span class="nc">Axon.Losses</span><span class="p">,</span><span class="w"> </span><span class="n">loss_atom</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8207285065-2">[</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p" data-group-id="8207285065-2">]</span><span class="p" data-group-id="8207285065-1">)</span></code></pre><p>Rather than pass an atom, you can pass your own custom arity-2 function to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. This arises most often in cases where you want to control some parameters of the loss function, such as the batch-level reduction:</p><pre><code class="makeup elixir" translate="no"><span class="n">loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="2945419045-1">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="2945419045-1">)</span><span class="w">
+
+</span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2945419045-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">loss_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="2945419045-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3563719838-1">#</span><span class="nc" data-group-id="3563719838-1">Axon.Loop</span><span class="p" data-group-id="3563719838-1">&lt;</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-2">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-3">[</span><span class="p" data-group-id="3563719838-3">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-4">[</span><span class="w">
+      </span><span class="p" data-group-id="3563719838-5">{</span><span class="p" data-group-id="3563719838-6">#</span><span class="nc" data-group-id="3563719838-6">Function</span><span class="p" data-group-id="3563719838-6">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3563719838-6">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="3563719838-7">#</span><span class="nc" data-group-id="3563719838-7">Function</span><span class="p" data-group-id="3563719838-7">&lt;</span><span class="mf">5.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3563719838-7">&gt;</span><span class="p" data-group-id="3563719838-5">}</span><span class="w">
+    </span><span class="p" data-group-id="3563719838-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-8">[</span><span class="p" data-group-id="3563719838-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-9">[</span><span class="p" data-group-id="3563719838-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-10">[</span><span class="p" data-group-id="3563719838-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-11">[</span><span class="w">
+      </span><span class="p" data-group-id="3563719838-12">{</span><span class="p" data-group-id="3563719838-13">#</span><span class="nc" data-group-id="3563719838-13">Function</span><span class="p" data-group-id="3563719838-13">&lt;</span><span class="mf">23.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">5</span><span class="p" data-group-id="3563719838-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="3563719838-14">#</span><span class="nc" data-group-id="3563719838-14">Function</span><span class="p" data-group-id="3563719838-14">&lt;</span><span class="mf">3.20267452</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3563719838-14">&gt;</span><span class="p" data-group-id="3563719838-12">}</span><span class="w">
+    </span><span class="p" data-group-id="3563719838-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-15">[</span><span class="p" data-group-id="3563719838-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-16">[</span><span class="p" data-group-id="3563719838-16">]</span><span class="w">
+  </span><span class="p" data-group-id="3563719838-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3563719838-17">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3563719838-18">{</span><span class="p" data-group-id="3563719838-19">#</span><span class="nc" data-group-id="3563719838-19">Function</span><span class="p" data-group-id="3563719838-19">&lt;</span><span class="mf">12.6031754</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3563719838-19">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="3563719838-20">#</span><span class="nc" data-group-id="3563719838-20">Function</span><span class="p" data-group-id="3563719838-20">&lt;</span><span class="mf">41.3316493</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">:erl_eval</span><span class="o">.</span><span class="n">expr</span><span class="o">/</span><span class="mi">6</span><span class="p" data-group-id="3563719838-20">&gt;</span><span class="p" data-group-id="3563719838-18">}</span><span class="w">
+  </span><span class="p" data-group-id="3563719838-17">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="3570498753-1">&gt;</span></code></pre><p>You can also define your own custom loss functions, so long as they match the following spec:</p><!-- livebook:{"force_markdown":true} --><pre><code class="makeup elixir" translate="no"><span class="n">loss</span><span class="p" data-group-id="7661668715-1">(</span><span class="w">
-  </span><span class="n">y_true</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="7661668715-2">[</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="7661668715-2">]</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="7661668715-3">(</span><span class="n">tensor</span><span class="p" data-group-id="7661668715-3">)</span><span class="p">,</span><span class="w">
-  </span><span class="n">y_preds</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="7661668715-4">[</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="7661668715-4">]</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="7661668715-5">(</span><span class="n">tensor</span><span class="p" data-group-id="7661668715-5">)</span><span class="w">
-  </span><span class="p" data-group-id="7661668715-1">)</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">scalar</span></code></pre><p>This is useful for constructing loss functions when dealing with multi-output scenarios. For example, it's very easy to construct a custom loss function which is a weighted average of several loss functions on multiple inputs:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="3344111120-1">(</span><span class="k" data-group-id="3344111120-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="3344111120-3">(</span><span class="p" data-group-id="3344111120-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3344111120-4">}</span><span class="p" data-group-id="3344111120-3">)</span><span class="w">
-    </span><span class="n">y1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="3344111120-5">(</span><span class="n">xs</span><span class="p" data-group-id="3344111120-5">)</span><span class="w">
-    </span><span class="n">y2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="3344111120-6">(</span><span class="n">xs</span><span class="p" data-group-id="3344111120-6">)</span><span class="w">
-    </span><span class="p" data-group-id="3344111120-7">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3344111120-8">{</span><span class="n">y1</span><span class="p">,</span><span class="w"> </span><span class="n">y2</span><span class="p" data-group-id="3344111120-8">}</span><span class="p" data-group-id="3344111120-7">}</span><span class="w">
-  </span><span class="k" data-group-id="3344111120-2">end</span><span class="p" data-group-id="3344111120-1">)</span><span class="w">
+</span><span class="p" data-group-id="3563719838-1">&gt;</span></code></pre><p>You can also define your own custom loss functions, so long as they match the following spec:</p><!-- livebook:{"force_markdown":true} --><pre><code class="makeup elixir" translate="no"><span class="n">loss</span><span class="p" data-group-id="0568414988-1">(</span><span class="w">
+  </span><span class="n">y_true</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="0568414988-2">[</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0568414988-2">]</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="0568414988-3">(</span><span class="n">tensor</span><span class="p" data-group-id="0568414988-3">)</span><span class="p">,</span><span class="w">
+  </span><span class="n">y_preds</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="0568414988-4">[</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0568414988-4">]</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">container</span><span class="p" data-group-id="0568414988-5">(</span><span class="n">tensor</span><span class="p" data-group-id="0568414988-5">)</span><span class="w">
+  </span><span class="p" data-group-id="0568414988-1">)</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">scalar</span></code></pre><p>This is useful for constructing loss functions when dealing with multi-output scenarios. For example, it's very easy to construct a custom loss function which is a weighted average of several loss functions on multiple inputs:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="6693131780-1">(</span><span class="k" data-group-id="6693131780-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="6693131780-3">(</span><span class="p" data-group-id="6693131780-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6693131780-4">}</span><span class="p" data-group-id="6693131780-3">)</span><span class="w">
+    </span><span class="n">y1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="6693131780-5">(</span><span class="n">xs</span><span class="p" data-group-id="6693131780-5">)</span><span class="w">
+    </span><span class="n">y2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">cos</span><span class="p" data-group-id="6693131780-6">(</span><span class="n">xs</span><span class="p" data-group-id="6693131780-6">)</span><span class="w">
+    </span><span class="p" data-group-id="6693131780-7">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6693131780-8">{</span><span class="n">y1</span><span class="p">,</span><span class="w"> </span><span class="n">y2</span><span class="p" data-group-id="6693131780-8">}</span><span class="p" data-group-id="6693131780-7">}</span><span class="w">
+  </span><span class="k" data-group-id="6693131780-2">end</span><span class="p" data-group-id="6693131780-1">)</span><span class="w">
 
 </span><span class="n">shared</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3344111120-9">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3344111120-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3344111120-10">(</span><span class="mi">8</span><span class="p" data-group-id="3344111120-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3344111120-11">(</span><span class="p" data-group-id="3344111120-11">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3344111120-12">(</span><span class="mi">4</span><span class="p" data-group-id="3344111120-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3344111120-13">(</span><span class="p" data-group-id="3344111120-13">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6693131780-9">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6693131780-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6693131780-10">(</span><span class="mi">8</span><span class="p" data-group-id="6693131780-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6693131780-11">(</span><span class="p" data-group-id="6693131780-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6693131780-12">(</span><span class="mi">4</span><span class="p" data-group-id="6693131780-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6693131780-13">(</span><span class="p" data-group-id="6693131780-13">)</span><span class="w">
 
-</span><span class="n">y1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3344111120-14">(</span><span class="n">shared</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3344111120-14">)</span><span class="w">
-</span><span class="n">y2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3344111120-15">(</span><span class="n">shared</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3344111120-15">)</span><span class="w">
+</span><span class="n">y1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6693131780-14">(</span><span class="n">shared</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6693131780-14">)</span><span class="w">
+</span><span class="n">y2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6693131780-15">(</span><span class="n">shared</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6693131780-15">)</span><span class="w">
 
-</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="3344111120-16">(</span><span class="p" data-group-id="3344111120-17">{</span><span class="n">y1</span><span class="p">,</span><span class="w"> </span><span class="n">y2</span><span class="p" data-group-id="3344111120-17">}</span><span class="p" data-group-id="3344111120-16">)</span><span class="w">
+</span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="6693131780-16">(</span><span class="p" data-group-id="6693131780-17">{</span><span class="n">y1</span><span class="p">,</span><span class="w"> </span><span class="n">y2</span><span class="p" data-group-id="6693131780-17">}</span><span class="p" data-group-id="6693131780-16">)</span><span class="w">
 
-</span><span class="n">custom_loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3344111120-18">fn</span><span class="w"> </span><span class="p" data-group-id="3344111120-19">{</span><span class="n">y_true1</span><span class="p">,</span><span class="w"> </span><span class="n">y_true2</span><span class="p" data-group-id="3344111120-19">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3344111120-20">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="3344111120-20">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">loss1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="3344111120-21">(</span><span class="n">y_true1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="3344111120-21">)</span><span class="w">
-  </span><span class="n">loss2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="3344111120-22">(</span><span class="n">y_true2</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="3344111120-22">)</span><span class="w">
+</span><span class="n">custom_loss_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6693131780-18">fn</span><span class="w"> </span><span class="p" data-group-id="6693131780-19">{</span><span class="n">y_true1</span><span class="p">,</span><span class="w"> </span><span class="n">y_true2</span><span class="p" data-group-id="6693131780-19">}</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6693131780-20">{</span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p" data-group-id="6693131780-20">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">loss1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="6693131780-21">(</span><span class="n">y_true1</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred1</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="6693131780-21">)</span><span class="w">
+  </span><span class="n">loss2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="6693131780-22">(</span><span class="n">y_true2</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred2</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:mean</span><span class="p" data-group-id="6693131780-22">)</span><span class="w">
 
   </span><span class="n">loss1</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3344111120-23">(</span><span class="mf">0.4</span><span class="p" data-group-id="3344111120-23">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="3344111120-24">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3344111120-25">(</span><span class="n">loss2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="3344111120-25">)</span><span class="p" data-group-id="3344111120-24">)</span><span class="w">
-</span><span class="k" data-group-id="3344111120-18">end</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6693131780-23">(</span><span class="mf">0.4</span><span class="p" data-group-id="6693131780-23">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6693131780-24">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6693131780-25">(</span><span class="n">loss2</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6</span><span class="p" data-group-id="6693131780-25">)</span><span class="p" data-group-id="6693131780-24">)</span><span class="w">
+</span><span class="k" data-group-id="6693131780-18">end</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3344111120-26">(</span><span class="n">custom_loss_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="3344111120-26">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3344111120-27">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3344111120-28">%{</span><span class="p" data-group-id="3344111120-28">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3344111120-27">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1098235</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5978283966-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-3">#</span><span class="nc" data-group-id="5978283966-3">Nx.Tensor</span><span class="p" data-group-id="5978283966-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5978283966-4">[</span><span class="mi">8</span><span class="p" data-group-id="5978283966-4">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-5">[</span><span class="mf">0.07738334685564041</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04548311233520508</span><span class="p">,</span><span class="w"> </span><span class="mf">0.049238916486501694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38714033365249634</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.030310271307826042</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07575170695781708</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02918776497244835</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15639683604240417</span><span class="p" data-group-id="5978283966-5">]</span><span class="w">
-    </span><span class="p" data-group-id="5978283966-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-6">#</span><span class="nc" data-group-id="5978283966-6">Nx.Tensor</span><span class="p" data-group-id="5978283966-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5978283966-7">[</span><span class="mi">1</span><span class="p" data-group-id="5978283966-7">]</span><span class="p" data-group-id="5978283966-8">[</span><span class="mi">8</span><span class="p" data-group-id="5978283966-8">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-9">[</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-10">[</span><span class="o">-</span><span class="mf">0.5250527858734131</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9252119660377502</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7720071077346802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3685735762119293</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15688209235668182</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41163918375968933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7827479839324951</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07295594364404678</span><span class="p" data-group-id="5978283966-10">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-9">]</span><span class="w">
-    </span><span class="p" data-group-id="5978283966-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5978283966-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-12">#</span><span class="nc" data-group-id="5978283966-12">Nx.Tensor</span><span class="p" data-group-id="5978283966-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5978283966-13">[</span><span class="mi">4</span><span class="p" data-group-id="5978283966-13">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-14">[</span><span class="mf">0.012770675122737885</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6008449792861938</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29370757937431335</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05354489013552666</span><span class="p" data-group-id="5978283966-14">]</span><span class="w">
-    </span><span class="p" data-group-id="5978283966-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-15">#</span><span class="nc" data-group-id="5978283966-15">Nx.Tensor</span><span class="p" data-group-id="5978283966-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5978283966-16">[</span><span class="mi">8</span><span class="p" data-group-id="5978283966-16">]</span><span class="p" data-group-id="5978283966-17">[</span><span class="mi">4</span><span class="p" data-group-id="5978283966-17">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-18">[</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-19">[</span><span class="o">-</span><span class="mf">0.08783119916915894</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4296257495880127</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07153885811567307</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6921477317810059</span><span class="p" data-group-id="5978283966-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-20">[</span><span class="mf">0.15848888456821442</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4663836658000946</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7126847505569458</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0693722814321518</span><span class="p" data-group-id="5978283966-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-21">[</span><span class="o">-</span><span class="mf">0.24852830171585083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7588720321655273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5033655166625977</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6524038314819336</span><span class="p" data-group-id="5978283966-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-22">[</span><span class="mf">0.2933746874332428</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6656989455223083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046741705387830734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44998466968536377</span><span class="p" data-group-id="5978283966-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-23">[</span><span class="mf">0.17215801775455475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3072860836982727</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2046997845172882</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7001357078552246</span><span class="p" data-group-id="5978283966-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-24">[</span><span class="mf">0.6354788541793823</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12706635892391205</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18666459619998932</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26693975925445557</span><span class="p" data-group-id="5978283966-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-25">[</span><span class="o">-</span><span class="mf">0.3737913966178894</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07344938814640045</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22658668458461761</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37110695242881775</span><span class="p" data-group-id="5978283966-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-26">[</span><span class="mf">0.01989569514989853</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39410898089408875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30496707558631897</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4945743680000305</span><span class="p" data-group-id="5978283966-26">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-18">]</span><span class="w">
-    </span><span class="p" data-group-id="5978283966-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5978283966-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-28">#</span><span class="nc" data-group-id="5978283966-28">Nx.Tensor</span><span class="p" data-group-id="5978283966-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5978283966-29">[</span><span class="mi">1</span><span class="p" data-group-id="5978283966-29">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-30">[</span><span class="o">-</span><span class="mf">0.5888826251029968</span><span class="p" data-group-id="5978283966-30">]</span><span class="w">
-    </span><span class="p" data-group-id="5978283966-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-31">#</span><span class="nc" data-group-id="5978283966-31">Nx.Tensor</span><span class="p" data-group-id="5978283966-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5978283966-32">[</span><span class="mi">4</span><span class="p" data-group-id="5978283966-32">]</span><span class="p" data-group-id="5978283966-33">[</span><span class="mi">1</span><span class="p" data-group-id="5978283966-33">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-34">[</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-35">[</span><span class="mf">1.0239059925079346</span><span class="p" data-group-id="5978283966-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-36">[</span><span class="mf">0.25252565741539</span><span class="p" data-group-id="5978283966-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-37">[</span><span class="mf">0.8877795338630676</span><span class="p" data-group-id="5978283966-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-38">[</span><span class="o">-</span><span class="mf">0.13882321119308472</span><span class="p" data-group-id="5978283966-38">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-34">]</span><span class="w">
-    </span><span class="p" data-group-id="5978283966-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5978283966-27">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_3&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-39">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-40">#</span><span class="nc" data-group-id="5978283966-40">Nx.Tensor</span><span class="p" data-group-id="5978283966-40">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5978283966-41">[</span><span class="mi">1</span><span class="p" data-group-id="5978283966-41">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-42">[</span><span class="mf">0.2557465434074402</span><span class="p" data-group-id="5978283966-42">]</span><span class="w">
-    </span><span class="p" data-group-id="5978283966-40">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5978283966-43">#</span><span class="nc" data-group-id="5978283966-43">Nx.Tensor</span><span class="p" data-group-id="5978283966-43">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5978283966-44">[</span><span class="mi">4</span><span class="p" data-group-id="5978283966-44">]</span><span class="p" data-group-id="5978283966-45">[</span><span class="mi">1</span><span class="p" data-group-id="5978283966-45">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-46">[</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-47">[</span><span class="o">-</span><span class="mf">0.6269392371177673</span><span class="p" data-group-id="5978283966-47">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-48">[</span><span class="mf">1.1281259059906006</span><span class="p" data-group-id="5978283966-48">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-49">[</span><span class="o">-</span><span class="mf">0.503214418888092</span><span class="p" data-group-id="5978283966-49">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5978283966-50">[</span><span class="o">-</span><span class="mf">0.5435869693756104</span><span class="p" data-group-id="5978283966-50">]</span><span class="w">
-      </span><span class="p" data-group-id="5978283966-46">]</span><span class="w">
-    </span><span class="p" data-group-id="5978283966-43">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5978283966-39">}</span><span class="w">
-</span><span class="p" data-group-id="5978283966-1">}</span></code></pre><h2 id="using-custom-optimizers-in-training-loops" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6693131780-26">(</span><span class="n">custom_loss_fn</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="6693131780-26">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6693131780-27">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6693131780-28">%{</span><span class="p" data-group-id="6693131780-28">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="6693131780-27">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1098235</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3744771889-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-3">#</span><span class="nc" data-group-id="3744771889-3">Nx.Tensor</span><span class="p" data-group-id="3744771889-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3744771889-4">[</span><span class="mi">8</span><span class="p" data-group-id="3744771889-4">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-5">[</span><span class="mf">0.07738334685564041</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04548311233520508</span><span class="p">,</span><span class="w"> </span><span class="mf">0.049238916486501694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.38714033365249634</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.030310271307826042</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07575170695781708</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02918776497244835</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15639683604240417</span><span class="p" data-group-id="3744771889-5">]</span><span class="w">
+    </span><span class="p" data-group-id="3744771889-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-6">#</span><span class="nc" data-group-id="3744771889-6">Nx.Tensor</span><span class="p" data-group-id="3744771889-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3744771889-7">[</span><span class="mi">1</span><span class="p" data-group-id="3744771889-7">]</span><span class="p" data-group-id="3744771889-8">[</span><span class="mi">8</span><span class="p" data-group-id="3744771889-8">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-9">[</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-10">[</span><span class="o">-</span><span class="mf">0.5250527858734131</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9252119660377502</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7720071077346802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3685735762119293</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15688209235668182</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41163918375968933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7827479839324951</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07295594364404678</span><span class="p" data-group-id="3744771889-10">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-9">]</span><span class="w">
+    </span><span class="p" data-group-id="3744771889-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3744771889-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-12">#</span><span class="nc" data-group-id="3744771889-12">Nx.Tensor</span><span class="p" data-group-id="3744771889-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3744771889-13">[</span><span class="mi">4</span><span class="p" data-group-id="3744771889-13">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-14">[</span><span class="mf">0.012770675122737885</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6008449792861938</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29370757937431335</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05354489013552666</span><span class="p" data-group-id="3744771889-14">]</span><span class="w">
+    </span><span class="p" data-group-id="3744771889-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-15">#</span><span class="nc" data-group-id="3744771889-15">Nx.Tensor</span><span class="p" data-group-id="3744771889-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3744771889-16">[</span><span class="mi">8</span><span class="p" data-group-id="3744771889-16">]</span><span class="p" data-group-id="3744771889-17">[</span><span class="mi">4</span><span class="p" data-group-id="3744771889-17">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-18">[</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-19">[</span><span class="o">-</span><span class="mf">0.08783119916915894</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4296257495880127</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07153885811567307</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6921477317810059</span><span class="p" data-group-id="3744771889-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-20">[</span><span class="mf">0.15848888456821442</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4663836658000946</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7126847505569458</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0693722814321518</span><span class="p" data-group-id="3744771889-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-21">[</span><span class="o">-</span><span class="mf">0.24852830171585083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7588720321655273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5033655166625977</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6524038314819336</span><span class="p" data-group-id="3744771889-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-22">[</span><span class="mf">0.2933746874332428</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6656989455223083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.046741705387830734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44998466968536377</span><span class="p" data-group-id="3744771889-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-23">[</span><span class="mf">0.17215801775455475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3072860836982727</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2046997845172882</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7001357078552246</span><span class="p" data-group-id="3744771889-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-24">[</span><span class="mf">0.6354788541793823</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12706635892391205</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18666459619998932</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26693975925445557</span><span class="p" data-group-id="3744771889-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-25">[</span><span class="o">-</span><span class="mf">0.3737913966178894</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07344938814640045</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22658668458461761</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.37110695242881775</span><span class="p" data-group-id="3744771889-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-26">[</span><span class="mf">0.01989569514989853</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39410898089408875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30496707558631897</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4945743680000305</span><span class="p" data-group-id="3744771889-26">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-18">]</span><span class="w">
+    </span><span class="p" data-group-id="3744771889-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3744771889-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-28">#</span><span class="nc" data-group-id="3744771889-28">Nx.Tensor</span><span class="p" data-group-id="3744771889-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3744771889-29">[</span><span class="mi">1</span><span class="p" data-group-id="3744771889-29">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-30">[</span><span class="o">-</span><span class="mf">0.5888826251029968</span><span class="p" data-group-id="3744771889-30">]</span><span class="w">
+    </span><span class="p" data-group-id="3744771889-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-31">#</span><span class="nc" data-group-id="3744771889-31">Nx.Tensor</span><span class="p" data-group-id="3744771889-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3744771889-32">[</span><span class="mi">4</span><span class="p" data-group-id="3744771889-32">]</span><span class="p" data-group-id="3744771889-33">[</span><span class="mi">1</span><span class="p" data-group-id="3744771889-33">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-34">[</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-35">[</span><span class="mf">1.0239059925079346</span><span class="p" data-group-id="3744771889-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-36">[</span><span class="mf">0.25252565741539</span><span class="p" data-group-id="3744771889-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-37">[</span><span class="mf">0.8877795338630676</span><span class="p" data-group-id="3744771889-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-38">[</span><span class="o">-</span><span class="mf">0.13882321119308472</span><span class="p" data-group-id="3744771889-38">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-34">]</span><span class="w">
+    </span><span class="p" data-group-id="3744771889-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3744771889-27">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_3&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-39">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-40">#</span><span class="nc" data-group-id="3744771889-40">Nx.Tensor</span><span class="p" data-group-id="3744771889-40">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3744771889-41">[</span><span class="mi">1</span><span class="p" data-group-id="3744771889-41">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-42">[</span><span class="mf">0.2557465434074402</span><span class="p" data-group-id="3744771889-42">]</span><span class="w">
+    </span><span class="p" data-group-id="3744771889-40">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3744771889-43">#</span><span class="nc" data-group-id="3744771889-43">Nx.Tensor</span><span class="p" data-group-id="3744771889-43">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3744771889-44">[</span><span class="mi">4</span><span class="p" data-group-id="3744771889-44">]</span><span class="p" data-group-id="3744771889-45">[</span><span class="mi">1</span><span class="p" data-group-id="3744771889-45">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-46">[</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-47">[</span><span class="o">-</span><span class="mf">0.6269392371177673</span><span class="p" data-group-id="3744771889-47">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-48">[</span><span class="mf">1.1281259059906006</span><span class="p" data-group-id="3744771889-48">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-49">[</span><span class="o">-</span><span class="mf">0.503214418888092</span><span class="p" data-group-id="3744771889-49">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3744771889-50">[</span><span class="o">-</span><span class="mf">0.5435869693756104</span><span class="p" data-group-id="3744771889-50">]</span><span class="w">
+      </span><span class="p" data-group-id="3744771889-46">]</span><span class="w">
+    </span><span class="p" data-group-id="3744771889-43">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3744771889-39">}</span><span class="w">
+</span><span class="p" data-group-id="3744771889-1">}</span></code></pre><h2 id="using-custom-optimizers-in-training-loops" class="section-heading">
   <a href="#using-custom-optimizers-in-training-loops" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Using custom optimizers in training loops</span>
 </h2>
 <p>As you might expect, it's also possible to customize the optimizer passed to <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>. If you read the <a href="https://hexdocs.pm/polaris/0.1.0/Polaris.Updates.html"><code class="inline">Polaris.Updates</code></a> documentation, you'll learn that optimizers are actually represented as the tuple <code class="inline">{init_fn, update_fn}</code> where <code class="inline">init_fn</code> initializes optimizer state from model state and <code class="inline">update_fn</code> scales gradients from optimizer state, gradients, and model state.</p><p>You likely won't have to implement a custom optimizer; however, you should know how to construct optimizers with different hyperparameters and how to apply different modifiers to different optimizers to customize the optimization process.</p><p>When you specify an optimizer as an atom in <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>, it maps directly to an optimizer declared in <a href="https://hexdocs.pm/polaris/0.1.0/Polaris.Optimizers.html"><code class="inline">Polaris.Optimizers</code></a>. You can instead opt to declare your optimizer directly. This is most useful for controlling things like the learning rate and various optimizer hyperparameters:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5814409811-1">(</span><span class="k" data-group-id="5814409811-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5814409811-3">(</span><span class="p" data-group-id="5814409811-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5814409811-4">}</span><span class="p" data-group-id="5814409811-3">)</span><span class="w">
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="5814409811-5">(</span><span class="n">xs</span><span class="p" data-group-id="5814409811-5">)</span><span class="w">
-    </span><span class="p" data-group-id="5814409811-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="5814409811-6">}</span><span class="w">
-  </span><span class="k" data-group-id="5814409811-2">end</span><span class="p" data-group-id="5814409811-1">)</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="8613920713-1">(</span><span class="k" data-group-id="8613920713-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">xs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="8613920713-3">(</span><span class="p" data-group-id="8613920713-4">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8613920713-4">}</span><span class="p" data-group-id="8613920713-3">)</span><span class="w">
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="8613920713-5">(</span><span class="n">xs</span><span class="p" data-group-id="8613920713-5">)</span><span class="w">
+    </span><span class="p" data-group-id="8613920713-6">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="8613920713-6">}</span><span class="w">
+  </span><span class="k" data-group-id="8613920713-2">end</span><span class="p" data-group-id="8613920713-1">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5814409811-7">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5814409811-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5814409811-8">(</span><span class="mi">8</span><span class="p" data-group-id="5814409811-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5814409811-9">(</span><span class="p" data-group-id="5814409811-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5814409811-10">(</span><span class="mi">4</span><span class="p" data-group-id="5814409811-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5814409811-11">(</span><span class="p" data-group-id="5814409811-11">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5814409811-12">(</span><span class="mi">1</span><span class="p" data-group-id="5814409811-12">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8613920713-7">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8613920713-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8613920713-8">(</span><span class="mi">8</span><span class="p" data-group-id="8613920713-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8613920713-9">(</span><span class="p" data-group-id="8613920713-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8613920713-10">(</span><span class="mi">4</span><span class="p" data-group-id="8613920713-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8613920713-11">(</span><span class="p" data-group-id="8613920713-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8613920713-12">(</span><span class="mi">1</span><span class="p" data-group-id="8613920713-12">)</span><span class="w">
 
-</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5814409811-13">{</span><span class="c">_init_optimizer_fn</span><span class="p">,</span><span class="w"> </span><span class="c">_update_fn</span><span class="p" data-group-id="5814409811-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">sgd</span><span class="p" data-group-id="5814409811-14">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="5814409811-14">)</span><span class="w">
+</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="8613920713-13">{</span><span class="c">_init_optimizer_fn</span><span class="p">,</span><span class="w"> </span><span class="c">_update_fn</span><span class="p" data-group-id="8613920713-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">sgd</span><span class="p" data-group-id="8613920713-14">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-3</span><span class="p" data-group-id="8613920713-14">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5814409811-15">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="5814409811-15">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5814409811-16">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5814409811-17">%{</span><span class="p" data-group-id="5814409811-17">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="5814409811-16">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0992607</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8399619283-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-3">#</span><span class="nc" data-group-id="8399619283-3">Nx.Tensor</span><span class="p" data-group-id="8399619283-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8399619283-4">[</span><span class="mi">8</span><span class="p" data-group-id="8399619283-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-5">[</span><span class="mf">0.06136200204491615</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08278193324804306</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07280997931957245</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08740464597940445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08663233369588852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06915996968746185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03753892332315445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06512840837240219</span><span class="p" data-group-id="8399619283-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8399619283-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-6">#</span><span class="nc" data-group-id="8399619283-6">Nx.Tensor</span><span class="p" data-group-id="8399619283-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8399619283-7">[</span><span class="mi">1</span><span class="p" data-group-id="8399619283-7">]</span><span class="p" data-group-id="8399619283-8">[</span><span class="mi">8</span><span class="p" data-group-id="8399619283-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-10">[</span><span class="mf">0.622833251953125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24778570234775543</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4959430694580078</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.604946494102478</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31578049063682556</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09977878630161285</span><span class="p">,</span><span class="w"> </span><span class="mf">0.776294469833374</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5804685950279236</span><span class="p" data-group-id="8399619283-10">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8399619283-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8399619283-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-12">#</span><span class="nc" data-group-id="8399619283-12">Nx.Tensor</span><span class="p" data-group-id="8399619283-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8399619283-13">[</span><span class="mi">4</span><span class="p" data-group-id="8399619283-13">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-14">[</span><span class="o">-</span><span class="mf">0.012786266393959522</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01057625561952591</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10597240924835205</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13692162930965424</span><span class="p" data-group-id="8399619283-14">]</span><span class="w">
-    </span><span class="p" data-group-id="8399619283-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-15">#</span><span class="nc" data-group-id="8399619283-15">Nx.Tensor</span><span class="p" data-group-id="8399619283-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8399619283-16">[</span><span class="mi">8</span><span class="p" data-group-id="8399619283-16">]</span><span class="p" data-group-id="8399619283-17">[</span><span class="mi">4</span><span class="p" data-group-id="8399619283-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-18">[</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-19">[</span><span class="o">-</span><span class="mf">0.46233609318733215</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7435348033905029</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10738609731197357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09911829978227615</span><span class="p" data-group-id="8399619283-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-20">[</span><span class="mf">0.5295257568359375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48769527673721313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23950818181037903</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26084062457084656</span><span class="p" data-group-id="8399619283-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-21">[</span><span class="o">-</span><span class="mf">0.5117107033729553</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2039143443107605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12630638480186462</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41089773178100586</span><span class="p" data-group-id="8399619283-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-22">[</span><span class="o">-</span><span class="mf">0.6043668985366821</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3961969316005707</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5120400190353394</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6773409247398376</span><span class="p" data-group-id="8399619283-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-23">[</span><span class="mf">0.22123000025749207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7197521924972534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2679356038570404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12402179092168808</span><span class="p" data-group-id="8399619283-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-24">[</span><span class="mf">0.4830038249492645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3629038631916046</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49994897842407227</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25865232944488525</span><span class="p" data-group-id="8399619283-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-25">[</span><span class="mf">0.29824453592300415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29333528876304626</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05371938645839691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5230391621589661</span><span class="p" data-group-id="8399619283-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-26">[</span><span class="mf">0.5483304262161255</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08283360302448273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6959219574928284</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6471460461616516</span><span class="p" data-group-id="8399619283-26">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-18">]</span><span class="w">
-    </span><span class="p" data-group-id="8399619283-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8399619283-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-28">#</span><span class="nc" data-group-id="8399619283-28">Nx.Tensor</span><span class="p" data-group-id="8399619283-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8399619283-29">[</span><span class="mi">1</span><span class="p" data-group-id="8399619283-29">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-30">[</span><span class="mf">0.07759959995746613</span><span class="p" data-group-id="8399619283-30">]</span><span class="w">
-    </span><span class="p" data-group-id="8399619283-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8399619283-31">#</span><span class="nc" data-group-id="8399619283-31">Nx.Tensor</span><span class="p" data-group-id="8399619283-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8399619283-32">[</span><span class="mi">4</span><span class="p" data-group-id="8399619283-32">]</span><span class="p" data-group-id="8399619283-33">[</span><span class="mi">1</span><span class="p" data-group-id="8399619283-33">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-34">[</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-35">[</span><span class="o">-</span><span class="mf">0.036170706152915955</span><span class="p" data-group-id="8399619283-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-36">[</span><span class="o">-</span><span class="mf">0.5362256765365601</span><span class="p" data-group-id="8399619283-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-37">[</span><span class="o">-</span><span class="mf">0.6853286027908325</span><span class="p" data-group-id="8399619283-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8399619283-38">[</span><span class="mf">0.6693617701530457</span><span class="p" data-group-id="8399619283-38">]</span><span class="w">
-      </span><span class="p" data-group-id="8399619283-34">]</span><span class="w">
-    </span><span class="p" data-group-id="8399619283-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8399619283-27">}</span><span class="w">
-</span><span class="p" data-group-id="8399619283-1">}</span></code></pre>
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8613920713-15">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="8613920713-15">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8613920713-16">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8613920713-17">%{</span><span class="p" data-group-id="8613920713-17">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="8613920713-16">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0992607</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0333692405-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-3">#</span><span class="nc" data-group-id="0333692405-3">Nx.Tensor</span><span class="p" data-group-id="0333692405-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0333692405-4">[</span><span class="mi">8</span><span class="p" data-group-id="0333692405-4">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-5">[</span><span class="mf">0.06136200204491615</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08278193324804306</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07280997931957245</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08740464597940445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08663233369588852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06915996968746185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03753892332315445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06512840837240219</span><span class="p" data-group-id="0333692405-5">]</span><span class="w">
+    </span><span class="p" data-group-id="0333692405-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-6">#</span><span class="nc" data-group-id="0333692405-6">Nx.Tensor</span><span class="p" data-group-id="0333692405-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0333692405-7">[</span><span class="mi">1</span><span class="p" data-group-id="0333692405-7">]</span><span class="p" data-group-id="0333692405-8">[</span><span class="mi">8</span><span class="p" data-group-id="0333692405-8">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-9">[</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-10">[</span><span class="mf">0.622833251953125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24778570234775543</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4959430694580078</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.604946494102478</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31578049063682556</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09977878630161285</span><span class="p">,</span><span class="w"> </span><span class="mf">0.776294469833374</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5804685950279236</span><span class="p" data-group-id="0333692405-10">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-9">]</span><span class="w">
+    </span><span class="p" data-group-id="0333692405-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0333692405-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-12">#</span><span class="nc" data-group-id="0333692405-12">Nx.Tensor</span><span class="p" data-group-id="0333692405-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0333692405-13">[</span><span class="mi">4</span><span class="p" data-group-id="0333692405-13">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-14">[</span><span class="o">-</span><span class="mf">0.012786266393959522</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01057625561952591</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10597240924835205</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13692162930965424</span><span class="p" data-group-id="0333692405-14">]</span><span class="w">
+    </span><span class="p" data-group-id="0333692405-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-15">#</span><span class="nc" data-group-id="0333692405-15">Nx.Tensor</span><span class="p" data-group-id="0333692405-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0333692405-16">[</span><span class="mi">8</span><span class="p" data-group-id="0333692405-16">]</span><span class="p" data-group-id="0333692405-17">[</span><span class="mi">4</span><span class="p" data-group-id="0333692405-17">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-18">[</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-19">[</span><span class="o">-</span><span class="mf">0.46233609318733215</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7435348033905029</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10738609731197357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09911829978227615</span><span class="p" data-group-id="0333692405-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-20">[</span><span class="mf">0.5295257568359375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.48769527673721313</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23950818181037903</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26084062457084656</span><span class="p" data-group-id="0333692405-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-21">[</span><span class="o">-</span><span class="mf">0.5117107033729553</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2039143443107605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12630638480186462</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41089773178100586</span><span class="p" data-group-id="0333692405-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-22">[</span><span class="o">-</span><span class="mf">0.6043668985366821</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3961969316005707</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5120400190353394</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6773409247398376</span><span class="p" data-group-id="0333692405-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-23">[</span><span class="mf">0.22123000025749207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7197521924972534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2679356038570404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12402179092168808</span><span class="p" data-group-id="0333692405-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-24">[</span><span class="mf">0.4830038249492645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3629038631916046</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49994897842407227</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25865232944488525</span><span class="p" data-group-id="0333692405-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-25">[</span><span class="mf">0.29824453592300415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29333528876304626</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05371938645839691</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5230391621589661</span><span class="p" data-group-id="0333692405-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-26">[</span><span class="mf">0.5483304262161255</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08283360302448273</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6959219574928284</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6471460461616516</span><span class="p" data-group-id="0333692405-26">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-18">]</span><span class="w">
+    </span><span class="p" data-group-id="0333692405-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0333692405-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-28">#</span><span class="nc" data-group-id="0333692405-28">Nx.Tensor</span><span class="p" data-group-id="0333692405-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0333692405-29">[</span><span class="mi">1</span><span class="p" data-group-id="0333692405-29">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-30">[</span><span class="mf">0.07759959995746613</span><span class="p" data-group-id="0333692405-30">]</span><span class="w">
+    </span><span class="p" data-group-id="0333692405-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0333692405-31">#</span><span class="nc" data-group-id="0333692405-31">Nx.Tensor</span><span class="p" data-group-id="0333692405-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0333692405-32">[</span><span class="mi">4</span><span class="p" data-group-id="0333692405-32">]</span><span class="p" data-group-id="0333692405-33">[</span><span class="mi">1</span><span class="p" data-group-id="0333692405-33">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-34">[</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-35">[</span><span class="o">-</span><span class="mf">0.036170706152915955</span><span class="p" data-group-id="0333692405-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-36">[</span><span class="o">-</span><span class="mf">0.5362256765365601</span><span class="p" data-group-id="0333692405-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-37">[</span><span class="o">-</span><span class="mf">0.6853286027908325</span><span class="p" data-group-id="0333692405-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0333692405-38">[</span><span class="mf">0.6693617701530457</span><span class="p" data-group-id="0333692405-38">]</span><span class="w">
+      </span><span class="p" data-group-id="0333692405-34">]</span><span class="w">
+    </span><span class="p" data-group-id="0333692405-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0333692405-27">}</span><span class="w">
+</span><span class="p" data-group-id="0333692405-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/dist/search_data-7F2B0842.js b/dist/search_data-7F2B0842.js
deleted file mode 100644
index b18e7804..00000000
--- a/dist/search_data-7F2B0842.js
+++ /dev/null
@@ -1 +0,0 @@
-searchData={"content_type":"text/markdown","items":[{"doc":"A high-level interface for creating neural network models.\n\nAxon is built entirely on top of Nx numerical definitions,\nso every neural network can be JIT or AOT compiled using\nany Nx compiler, or even transformed into high-level neural\nnetwork formats like TensorFlow Lite and\n[ONNX](https://github.com/elixir-nx/axon_onnx).\n\nFor a more in-depth overview of Axon, refer to the [Guides](guides.html).","ref":"Axon.html","title":"Axon","type":"module"},{"doc":"All Axon models start with an input layer, optionally specifying\nthe expected shape of the input data:\n\n    input = Axon.input(\"input\", shape: {nil, 784})\n\nNotice you can specify some dimensions as `nil`, indicating\nthat the dimension size will be filled in at model runtime.\nYou can then compose inputs with other layers:\n\n    model =\n      input\n      |> Axon.dense(128, activation: :relu)\n      |> Axon.batch_norm()\n      |> Axon.dropout(rate: 0.8)\n      |> Axon.dense(64)\n      |> Axon.tanh()\n      |> Axon.dense(10)\n      |> Axon.activation(:softmax)\n\nYou can inspect the model for a nice summary:\n\n    IO.inspect(model)\n\n    #Axon \n\nOr use the `Axon.Display` module to see more in-depth summaries:\n\n    Axon.Display.as_table(model, Nx.template({1, 784}, :f32)) |> IO.puts\n\n    +----------------------------------------------------------------------------------------------------------------+\n    |                                                     Model                                                      |\n    +=======================================+=============+==============+===================+=======================+\n    | Layer                                 | Input Shape | Output Shape | Options           | Parameters            |\n    +=======================================+=============+==============+===================+=======================+\n    | input ( input )                       | []          | {1, 784}     | shape: {nil, 784} |                       |\n    |                                       |             |              | optional: false   |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | dense_0 ( dense[\"input\"] )            | [{1, 784}]  | {1, 128}     |                   | kernel: f32[784][128] |\n    |                                       |             |              |                   | bias: f32[128]        |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | relu_0 ( relu[\"dense_0\"] )            | [{1, 128}]  | {1, 128}     |                   |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | batch_norm_0 ( batch_norm[\"relu_0\"] ) | [{1, 128}]  | {1, 128}     | epsilon: 1.0e-5   | gamma: f32[128]       |\n    |                                       |             |              | channel_index: 1  | beta: f32[128]        |\n    |                                       |             |              | momentum: 0.1     | mean: f32[128]        |\n    |                                       |             |              |                   | var: f32[128]         |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | dropout_0 ( dropout[\"batch_norm_0\"] ) | [{1, 128}]  | {1, 128}     | rate: 0.8         |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | dense_1 ( dense[\"dropout_0\"] )        | [{1, 128}]  | {1, 64}      |                   | kernel: f32[128][64]  |\n    |                                       |             |              |                   | bias: f32[64]         |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | tanh_0 ( tanh[\"dense_1\"] )            | [{1, 64}]   | {1, 64}      |                   |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | dense_2 ( dense[\"tanh_0\"] )           | [{1, 64}]   | {1, 10}      |                   | kernel: f32[64][10]   |\n    |                                       |             |              |                   | bias: f32[10]         |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | softmax_0 ( softmax[\"dense_2\"] )      | [{1, 10}]   | {1, 10}      |                   |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n\n#","ref":"Axon.html#module-model-creation","title":"Model Creation - Axon","type":"module"},{"doc":"Creating a model with multiple inputs is as easy as declaring an\nadditional input in your Axon graph. Every input layer present in\nthe final Axon graph will be required to be passed as input at the\ntime of model execution.\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n\n    # Both inputs will be used\n    model1 = Axon.add(inp1, inp2)\n\n    # Only inp2 will be used\n    model2 = Axon.add(inp2, inp2)\n\nAxon graphs are immutable, which means composing and manipulating\nan Axon graph creates an entirely new graph. Additionally, layer\nnames are lazily generated at model execution time. To avoid\nnon-deterministic input orderings and names, Axon requires each\ninput to have a unique binary identifier. You can then reference\ninputs by name when passing to models at execution time:\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n\n    model1 = Axon.add(inp1, inp2)\n\n    {init_fn, predict_fn} = Axon.build(model1)\n\n    params1 = init_fn.(Nx.template({1, 1}, {:f, 32}), %{})\n    # Inputs are referenced by name\n    predict_fn.(params1, %{\"input_0\" => x, \"input_1\" => y})\n\n#","ref":"Axon.html#module-multiple-inputs","title":"Multiple Inputs - Axon","type":"module"},{"doc":"Nx offers robust [container](https://hexdocs.pm/nx/Nx.Container.html) support\nwhich is extended to Axon. Axon allows you to wrap any valid Nx container\nin a layer. Containers are most commonly used to structure outputs:\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n    model = Axon.container(%{foo: inp1, bar: inp2})\n\nContainers can be arbitrarily nested:\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n    model = Axon.container({%{foo: {inp1, %{bar: inp2}}}})\n\nYou can even use custom structs which implement the container protocol:\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n    model = Axon.container(%MyStruct{foo: inp1, bar: inp2})\n\n#","ref":"Axon.html#module-multiple-outputs","title":"Multiple Outputs - Axon","type":"module"},{"doc":"If you find that Axon's built-in layers are insufficient for your needs,\nyou can create your own using the custom layer API. All of Axon's built-in\nlayers (aside from special ones such as `input`, `constant`, and `container`)\nmake use of this same API.\n\nAxon layers are really just placeholders for Nx computations with trainable\nparameters and possibly state. To define a custom layer, you just need to\ndefine a `defn` implementation:\n\n    defn my_layer(x, weight, _opts \\\\ []) do\n      Nx.atan2(x, weight)\n    end\n\nNotice the only stipulation is that your custom layer implementation must\naccept at least 1 input and a list of options. At execution time, every\nlayer will be passed a `:mode` option which can be used to control behavior\nat training and inference time.\n\nInputs to your custom layer can be either Axon graph inputs or trainable\nparameters. You can pass Axon graph inputs as-is to a custom layer. To\ndeclare trainable parameters, use `Axon.param/3`:\n\n    weight = Axon.param(\"weight\", param_shape)\n\nTo create a custom layer, you \"wrap\" your implementation and inputs into\na layer using `Axon.layer`. You'll notice the API mirrors Elixir's `apply`:\n\n    def atan2_layer(%Axon{} = input) do\n      weight = Axon.param(\"weight\", param_shape)\n      Axon.layer(&my_layer/3, [input, weight])\n    end","ref":"Axon.html#module-custom-layers","title":"Custom Layers - Axon","type":"module"},{"doc":"Under the hood, Axon models are represented as Elixir structs. You\ncan initialize and apply models by building or compiling them with\n`Axon.build/2` or `Axon.compile/4` and then calling the produced\ninitialization and predict functions:\n\n    {init_fn, predict_fn} = Axon.build(model)\n\n    params = init_fn.(Nx.template({1, 1}, {:f, 32}), %{})\n    predict_fn.(params, inputs)\n\nYou may either set the default JIT compiler or backend globally, or\npass a specific compiler to `Axon.build/2`:\n\n    EXLA.set_as_nx_default([:tpu, :cuda, :rocm, :host])\n\n    {init_fn, predict_fn} = Axon.build(model, compiler: EXLA, mode: :train)\n\n    params = init_fn.(Nx.template({1, 1}, {:f, 32}), %{})\n    predict_fn.(params, inputs)\n\n`predict_fn` by default runs in inference mode, which performs certain\noptimizations and removes layers such as dropout layers. If constructing\na training step using `Axon.predict/4` or `Axon.build/2`, be sure to specify\n`mode: :train`.","ref":"Axon.html#module-model-execution","title":"Model Execution - Axon","type":"module"},{"doc":"Combining the Axon model creation API with the optimization and training\nAPIs, you can create and train neural networks with ease:\n\n    model =\n      Axon.input(\"input_0\", shape: {nil, 784})\n      |> Axon.dense(128, activation: :relu)\n      |> Axon.layer_norm()\n      |> Axon.dropout()\n      |> Axon.dense(10, activation: :softmax)\n\n    IO.inspect model\n\n    model_state =\n      model\n      |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adamw(learning_rate: 0.005))\n      |> Axon.Loop.run(train_data, epochs: 10, compiler: EXLA)\n\nSee `Polaris.Updates` and `Axon.Loop` for a more in-depth treatment of\nmodel optimization and model training.","ref":"Axon.html#module-model-training","title":"Model Training - Axon","type":"module"},{"doc":"When deploying an `Axon` model to production, you usually want to batch\nmultiple prediction requests and run the inference for all of them at\nonce. Conveniently, `Nx` already has an abstraction for this task in the\nform of `Nx.Serving`. Here's how you could define a serving for an `Axon`\nmodel:\n\n    def build_serving() do\n      # Configuration\n      batch_size = 4\n      defn_options = [compiler: EXLA]\n\n      Nx.Serving.new(\n        # This function runs on the serving startup\n        fn ->\n          # Build the Axon model and load params (usually from file)\n          model = build_model()\n          params = load_params()\n\n          # Build the prediction defn function\n          {_init_fun, predict_fun} = Axon.build(model)\n\n          inputs_template = %{\"pixel_values\" => Nx.template({batch_size, 224, 224, 3}, :f32)}\n          template_args = [Nx.to_template(params), inputs_template]\n\n          # Compile the prediction function upfront for the configured batch_size\n          predict_fun = Nx.Defn.compile(predict_fun, template_args, defn_options)\n\n          # The returned function is called for every accumulated batch\n          fn inputs ->\n            inputs = Nx.Batch.pad(inputs, batch_size - inputs.size)\n            predict_fun.(params, inputs)\n          end\n        end,\n        batch_size: batch_size\n      )\n    end\n\nThen you would start the serving server as part of your application's\nsupervision tree:\n\n    children = [\n      ...,\n      {Nx.Serving, serving: build_serving(), name: MyApp.Serving, batch_timeout: 100}\n    ]\n\nWith that in place, you can now ask serving for predictions all across\nyour application (controllers, live views, async jobs, etc.). Having a\ntensor input you would do:\n\n    inputs = %{\"pixel_values\" => ...}\n    batch = Nx.Batch.concatenate([inputs])\n    result = Nx.Serving.batched_run(MyApp.Serving, batch)\n\nUsually you also want to do pre/post-processing of the model input/output.\nYou could make those preparations directly before/after `Nx.Serving.batched_run/2`,\nhowever you can also make use of `Nx.Serving.client_preprocessing/2` and\n`Nx.Serving.client_postprocessing/2` to encapsulate that logic as part of\nthe serving.","ref":"Axon.html#module-using-with-nx-serving","title":"Using with `Nx.Serving` - Axon","type":"module"},{"doc":"Adds an activation layer to the network.\n\nActivation layers are element-wise functions typically called\nafter the output of another layer.","ref":"Axon.html#activation/3","title":"Axon.activation/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#activation/3-options","title":"Options - Axon.activation/3","type":"function"},{"doc":"Adds an Adaptive average pool layer to the network.\n\nSee `Axon.Layers.adaptive_avg_pool/2` for more details.","ref":"Axon.html#adaptive_avg_pool/2","title":"Axon.adaptive_avg_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:output_size` - layer output size.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#adaptive_avg_pool/2-options","title":"Options - Axon.adaptive_avg_pool/2","type":"function"},{"doc":"Adds an Adaptive power average pool layer to the network.\n\nSee `Axon.Layers.adaptive_lp_pool/2` for more details.","ref":"Axon.html#adaptive_lp_pool/2","title":"Axon.adaptive_lp_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:output_size` - layer output size.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#adaptive_lp_pool/2-options","title":"Options - Axon.adaptive_lp_pool/2","type":"function"},{"doc":"Adds an Adaptive max pool layer to the network.\n\nSee `Axon.Layers.adaptive_max_pool/2` for more details.","ref":"Axon.html#adaptive_max_pool/2","title":"Axon.adaptive_max_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:output_size` - layer output size.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#adaptive_max_pool/2-options","title":"Options - Axon.adaptive_max_pool/2","type":"function"},{"doc":"Adds a add layer to the network.\n\nThis layer performs an element-wise add operation\non input layers. All input layers must be capable of being\nbroadcast together.\n\nIf one shape has a static batch size, all other shapes must have a\nstatic batch size as well.","ref":"Axon.html#add/3","title":"Axon.add/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#add/3-options","title":"Options - Axon.add/3","type":"function"},{"doc":"Adds an Alpha dropout layer to the network.\n\nSee `Axon.Layers.alpha_dropout/2` for more details.","ref":"Axon.html#alpha_dropout/2","title":"Axon.alpha_dropout/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:rate` - dropout rate. Defaults to `0.5`.\n    Needs to be equal or greater than zero and less than one.","ref":"Axon.html#alpha_dropout/2-options","title":"Options - Axon.alpha_dropout/2","type":"function"},{"doc":"Attaches a hook to the given Axon model.\n\nHooks compile down to `Nx.Defn.Kernel.hook/3` and provide the same\nfunctionality for adding side-effecting operations to a compiled\nmodel. For example, you can use hooks to inspect intermediate activations,\nsend data to an external service, and more.\n\nHooks can be configured to be invoked on the following events:\n\n  * `:initialize` - on model initialization.\n  * `:pre_forward` - before layer forward pass is invoked.\n  * `:forward` - after layer forward pass is invoked.\n  * `:backward` - after layer backward pass is invoked.\n\nTo invoke a hook on every single event, you may pass `:all` to `on:`.\n\n    Axon.input(\"input\", shape: {nil, 1}) |> Axon.attach_hook(&IO.inspect/1, on: :all)\n\nThe default event is `:forward`, assuming you want a hook invoked\non the layers forward pass.\n\nYou may configure hooks to run in one of only training or inference\nmode using the `:mode` option. The default mode is `:both` to be invoked\nduring both train and inference mode.\n\n    Axon.input(\"input\", shape: {nil, 1}) |> Axon.attach_hook(&IO.inspect/1, on: :forward, mode: :train)\n\nYou can also attach multiple hooks to a single layer. Hooks are invoked in\nthe order in which they are declared. If order is important, you should attach\nhooks in the order you want them to be executed:\n\n    Axon.input(\"input\", shape: {nil, 1})\n    # I will be executed first\n    |> Axon.attach_hook(&IO.inspect/1)\n    # I will be executed second\n    |> Axon.attach_hook(fn _ -> IO.write(\"HERE\") end)\n\nHooks are executed at their point of attachment. You must insert hooks at each point\nyou want a hook to execute during model execution.\n\n    Axon.input(\"input\", shape: {nil, 1})\n    |> Axon.attach_hook(&IO.inspect/1)\n    |> Axon.relu()\n    |> Axon.attach_hook(&IO.inspect/1)","ref":"Axon.html#attach_hook/3","title":"Axon.attach_hook/3","type":"function"},{"doc":"Adds an Average pool layer to the network.\n\nSee `Axon.Layers.avg_pool/2` for more details.","ref":"Axon.html#avg_pool/2","title":"Axon.avg_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to size of kernel.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:dilations` - window dilations. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#avg_pool/2-options","title":"Options - Axon.avg_pool/2","type":"function"},{"doc":"Adds a Batch normalization layer to the network.\n\nSee `Axon.Layers.batch_norm/6` for more details.","ref":"Axon.html#batch_norm/2","title":"Axon.batch_norm/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:gamma_initializer` - gamma parameter initializer. Defaults\n    to `:glorot_uniform`.\n\n  * `:beta_initializer` - beta parameter initializer. Defaults to\n    `:zeros`.\n\n  * `:channel_index` - input feature index used for calculating\n    mean and variance. Defaults to `-1`.\n\n  * `:epsilon` - numerical stability term. Defaults to `1.0e-5`.","ref":"Axon.html#batch_norm/2-options","title":"Options - Axon.batch_norm/2","type":"function"},{"doc":"Adds a bias layer to the network.\n\nA bias layer simply adds a trainable bias to an input.","ref":"Axon.html#bias/2","title":"Axon.bias/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`.","ref":"Axon.html#bias/2-options","title":"Options - Axon.bias/2","type":"function"},{"doc":"Applies the given forward function bidirectionally and merges\nthe results with the given merge function.\n\nThis is most commonly used with RNNs to capture the dependencies\nof a sequence in both directions.","ref":"Axon.html#bidirectional/4","title":"Axon.bidirectional/4","type":"function"},{"doc":"* `axis` - Axis to reverse.","ref":"Axon.html#bidirectional/4-options","title":"Options - Axon.bidirectional/4","type":"function"},{"doc":"Adds a bilinear layer to the network.\n\nThe bilinear layer implements:\n\n    output = activation(dot(dot(input1, kernel), input2) + bias)\n\nwhere `activation` is given by the `:activation` option and both\n`kernel` and `bias` are layer parameters. `units` specifies the\nnumber of output units.\n\nAll dimensions but the last of `input1` and `input2` must match. The\nbatch sizes of both inputs must also match or at least one must be `nil`.\nInferred output batch size coerces to the strictest input batch size.\n\nCompiles to `Axon.Layers.bilinear/5`.","ref":"Axon.html#bilinear/4","title":"Axon.bilinear/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`.\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#bilinear/4-options","title":"Options - Axon.bilinear/4","type":"function"},{"doc":"Returns a function which represents a self-contained re-usable block\nof operations in a neural network. All parameters in the block are\nshared between every usage of the block.\n\nThis returns an arity-1 function which accepts a list of inputs which\nare forwarded to `fun`. This is most often used in situations where\nyou wish to re-use parameters in a block:\n\n    reused_dense = Axon.block(&Axon.dense(&1, 32))\n\nEverytime `reused_dense` is invoked, it re-uses the same parameters:\n\n    input = Axon.input(\"features\")\n    # unique parameters\n    x1 = Axon.dense(input, 32)\n    # unique parameters\n    x2 = reused_dense.(x1)\n    # parameters shared\n    x3 = reused_dense.(x2)\n\nSubgraphs in blocks can be arbitrarily complex:\n\n    reused_block = Axon.block(fn x ->\n      x\n      |> Axon.dense(32)\n      |> Axon.dense(64)\n      |> Axon.dense(32)\n    end)\n\nBlocks can also have multiple inputs, you can invoke a block with multiple\ninputs by passing a list of arguments:\n\n    reused_block = Axon.block(fn x, y, z ->\n      x = Axon.dense(x, 32)\n      y = Axon.dense(y, 32)\n      z = Axon.dense(z, 32)\n\n      Axon.add([x, y, z])\n    end)\n\n    # invoke with a list\n    reused_block.([x, y, z])\n\nBlocks prefix subgraph parameters with their name and a dot. As with other\nAxon layers, if a name is not explicitly provided, one will be dynamically\ngenerated.","ref":"Axon.html#block/2","title":"Axon.block/2","type":"function"},{"doc":"Adds a blur pooling layer to the network.\n\nSee `Axon.Layers.blur_pool/2` for more details.","ref":"Axon.html#blur_pool/2","title":"Axon.blur_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#blur_pool/2-options","title":"Options - Axon.blur_pool/2","type":"function"},{"doc":"Builds the given model to `{init_fn, predict_fn}`.\n\nThe given functions can be either given as arguments to `Nx.Defn`\nfunctions or be invoked directly, to perform just-in-time compilation\nand execution. If you want to compile the model (instead of just-in-time)\nbased on a predefined initialization shape, see `compile/4`.\n\n## `init_fn`\n\nThe `init_fn` receives two arguments, the input template and\nan optional map with initial parameters for layers or namespaces:\n\n    {init_fn, predict_fn} = Axon.build(model)\n    init_fn.(Nx.template({1, 1}, {:f, 32}), %{\"dense_0\" => dense_params})\n\n## `predict_fn`\n\nThe `predict_fn` receives two arguments, the trained parameters\nand the actual inputs:\n\n    {_init_fn, predict_fn} = Axon.build(model, opts)\n    predict_fn.(params, input)","ref":"Axon.html#build/2","title":"Axon.build/2","type":"function"},{"doc":"* `:compiler` - the underlying `Nx.Defn` compiler to perform\n    JIT compilation when the functions are invoked. If none is\n    passed, it uses the default compiler configured in `Nx.Defn`;\n\n  * `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`\n\n  * `:mode` - one of `:inference` or `:train`. Forwarded to layers\n    to control differences in compilation at training or inference time.\n    Defaults to `:inference`\n\n  * `:global_layer_options` - a keyword list of options passed to\n    layers that accept said options\n\nAll other options are forwarded to the underlying JIT compiler.","ref":"Axon.html#build/2-options","title":"Options - Axon.build/2","type":"function"},{"doc":"Adds a Continuously-differentiable exponential linear unit activation layer to the network.\n\nSee `Axon.Activations.celu/1` for more details.","ref":"Axon.html#celu/2","title":"Axon.celu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#celu/2-options","title":"Options - Axon.celu/2","type":"function"},{"doc":"Compiles the given model to `{init_fn, predict_fn}`.\n\nThis function will compile a model specialized to the given\ninput shapes and types. This is useful for avoiding the overhead\nof long compilations at program runtime. You must provide template\ninputs which match the expected shapes and types of inputs at\nexecution time.\n\nThis function makes use of the built-in `Nx.Defn.compile/3`. Note\nthat passing inputs which differ in shape or type from the templates\nprovided to this function will result in a crash.","ref":"Axon.html#compile/4","title":"Axon.compile/4","type":"function"},{"doc":"It accepts the same options as `build/2`.","ref":"Axon.html#compile/4-options","title":"Options - Axon.compile/4","type":"function"},{"doc":"Adds a concatenate layer to the network.\n\nThis layer will concatenate inputs along the last\ndimension unless specified otherwise.","ref":"Axon.html#concatenate/3","title":"Axon.concatenate/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:axis` - concatenate axis. Defaults to `-1`.","ref":"Axon.html#concatenate/3-options","title":"Options - Axon.concatenate/3","type":"function"},{"doc":"Adds a conditional layer which conditionally executes\n`true_graph` or `false_graph` based on the condition `cond_fn`\nat runtime.\n\n`cond_fn` is an arity-1 function executed on the output of the\nparent graph. It must return a boolean scalar tensor (e.g. 1 or 0).\n\nThe shapes of `true_graph` and `false_graph` must be equal.","ref":"Axon.html#cond/5","title":"Axon.cond/5","type":"function"},{"doc":"Adds a constant layer to the network.\n\nConstant layers encapsulate Nx tensors in an Axon layer for ease\nof use with other Axon layers. They can be used interchangeably\nwith other Axon layers:\n\n    inp = Axon.input(\"input\", shape: {nil, 32})\n    my_constant = Axon.constant(Nx.iota({1, 32}))\n    model = Axon.add(inp, my_constant)\n\nConstant layers will be cast according to the mixed precision policy.\nIf it's important for your constant to retain it's type during\nthe computation, you will need to set the mixed precision policy to\nignore constant layers.","ref":"Axon.html#constant/2","title":"Axon.constant/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#constant/2-options","title":"Options - Axon.constant/2","type":"function"},{"doc":"Adds a container layer to the network.\n\nIn certain cases you may want your model to have multiple\noutputs. In order to make this work, you must \"join\" the\noutputs into an Axon layer using this function for use in\ninitialization and inference later on.\n\nThe given container can be any valid Axon Nx container.","ref":"Axon.html#container/2","title":"Axon.container/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#container/2-options","title":"Options - Axon.container/2","type":"function"},{"doc":"iex> inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    iex> inp2 = Axon.input(\"input_1\", shape: {nil, 2})\n    iex> model = Axon.container(%{a: inp1, b: inp2})\n    iex> %{a: a, b: b} = Axon.predict(model, %{}, %{\n    ...>    \"input_0\" => Nx.tensor([[1.0]]),\n    ...>    \"input_1\" => Nx.tensor([[1.0, 2.0]])\n    ...> })\n    iex> a\n    #Nx.Tensor \n    iex> b\n    #Nx.Tensor","ref":"Axon.html#container/2-examples","title":"Examples - Axon.container/2","type":"function"},{"doc":"Adds a convolution layer to the network.\n\nThe convolution layer implements a general dimensional\nconvolutional layer - which convolves a kernel over the input\nto produce an output.\n\nCompiles to `Axon.Layers.conv/4`.","ref":"Axon.html#conv/3","title":"Axon.conv/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:input_dilation` - dilation to apply to input. Defaults to `1`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:feature_group_size` - feature group size for convolution. Defaults\n    to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#conv/3-options","title":"Options - Axon.conv/3","type":"function"},{"doc":"See `conv_lstm/3`.","ref":"Axon.html#conv_lstm/2","title":"Axon.conv_lstm/2","type":"function"},{"doc":"Adds a convolutional long short-term memory (LSTM) layer to the network\nwith a random initial hidden state.\n\nSee `conv_lstm/4` for more details.","ref":"Axon.html#conv_lstm/3","title":"Axon.conv_lstm/3","type":"function"},{"doc":"* `:recurrent_initializer` - initializer for hidden state. Defaults\n    to `:orthogonal`.","ref":"Axon.html#conv_lstm/3-additional-options","title":"Additional options - Axon.conv_lstm/3","type":"function"},{"doc":"Adds a convolutional long short-term memory (LSTM) layer to the network\nwith the given initial hidden state..\n\nConvLSTMs apply `Axon.Layers.conv_lstm_cell/5` over an entire input\nsequence and return:\n\n    {{new_cell, new_hidden}, output_sequence}\n\nYou can use the output state as the hidden state of another\nConvLSTM layer.","ref":"Axon.html#conv_lstm/4","title":"Axon.conv_lstm/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:padding` - convolutional padding. Defaults to `:same`.\n\n  * `:kernel_size` - convolutional kernel size. Defaults to `1`.\n\n  * `:strides` - convolutional strides. Defaults to `1`.\n\n  * `:unroll` - `:dynamic` (loop preserving) or `:static` (compiled)\n    unrolling of RNN.\n\n  * `:kernel_initializer` - initializer for kernel weights. Defaults\n    to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for bias weights. Defaults to\n    `:zeros`.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#conv_lstm/4-options","title":"Options - Axon.conv_lstm/4","type":"function"},{"doc":"Adds a transposed convolution layer to the network.\n\nThe transposed convolution layer is sometimes referred to as a\nfractionally strided convolution or (incorrectly) as a deconvolution.\n\nCompiles to `Axon.Layers.conv_transpose/4`.","ref":"Axon.html#conv_transpose/3","title":"Axon.conv_transpose/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#conv_transpose/3-options","title":"Options - Axon.conv_transpose/3","type":"function"},{"doc":"Adds a dense layer to the network.\n\nThe dense layer implements:\n\n    output = activation(dot(input, kernel) + bias)\n\nwhere `activation` is given by the `:activation` option and both\n`kernel` and `bias` are layer parameters. `units` specifies the\nnumber of output units.\n\nCompiles to `Axon.Layers.dense/4`.","ref":"Axon.html#dense/3","title":"Axon.dense/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`.\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#dense/3-options","title":"Options - Axon.dense/3","type":"function"},{"doc":"Adds a depthwise convolution layer to the network.\n\nThe depthwise convolution layer implements a general\ndimensional depthwise convolution - which is a convolution\nwhere the feature group size is equal to the number of\ninput channels.\n\nChannel multiplier grows the input channels by the given\nfactor. An input factor of 1 means the output channels\nare the same as the input channels.\n\nCompiles to `Axon.Layers.depthwise_conv/4`.","ref":"Axon.html#depthwise_conv/3","title":"Axon.depthwise_conv/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:input_dilation` - dilation to apply to input. Defaults to `1`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#depthwise_conv/3-options","title":"Options - Axon.depthwise_conv/3","type":"function"},{"doc":"Deserializes serialized model and parameters into a `{model, params}`\ntuple.\n\nIt is the opposite of `Axon.serialize/3`.","ref":"Axon.html#deserialize/2","title":"Axon.deserialize/2","type":"function"},{"doc":"iex> model = Axon.input(\"input\", shape: {nil, 2}) |> Axon.dense(1, kernel_initializer: :zeros, activation: :relu)\n    iex> {init_fn, _} = Axon.build(model)\n    iex> params = init_fn.(Nx.template({1, 2}, :f32), %{})\n    iex> serialized = Axon.serialize(model, params)\n    iex> {saved_model, saved_params} = Axon.deserialize(serialized)\n    iex> {_, predict_fn} = Axon.build(saved_model)\n    iex> predict_fn.(saved_params, Nx.tensor([[1.0, 1.0]]))\n    #Nx.Tensor","ref":"Axon.html#deserialize/2-examples","title":"Examples - Axon.deserialize/2","type":"function"},{"doc":"Adds a Dropout layer to the network.\n\nSee `Axon.Layers.dropout/2` for more details.","ref":"Axon.html#dropout/2","title":"Axon.dropout/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:rate` - dropout rate. Defaults to `0.5`.\n    Needs to be equal or greater than zero and less than one.","ref":"Axon.html#dropout/2-options","title":"Options - Axon.dropout/2","type":"function"},{"doc":"Adds an Exponential linear unit activation layer to the network.\n\nSee `Axon.Activations.elu/1` for more details.","ref":"Axon.html#elu/2","title":"Axon.elu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#elu/2-options","title":"Options - Axon.elu/2","type":"function"},{"doc":"Adds an embedding layer to the network.\n\nAn embedding layer initializes a kernel of shape `{vocab_size, embedding_size}`\nwhich acts as a lookup table for sequences of discrete tokens (e.g. sentences).\nEmbeddings are typically used to obtain a dense representation of a sparse input\nspace.","ref":"Axon.html#embedding/4","title":"Axon.embedding/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights. Defaults\n    to `:uniform`.","ref":"Axon.html#embedding/4-options","title":"Options - Axon.embedding/4","type":"function"},{"doc":"Adds an Exponential activation layer to the network.\n\nSee `Axon.Activations.exp/1` for more details.","ref":"Axon.html#exp/2","title":"Axon.exp/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#exp/2-options","title":"Options - Axon.exp/2","type":"function"},{"doc":"Adds a Feature alpha dropout layer to the network.\n\nSee `Axon.Layers.feature_alpha_dropout/2` for more details.","ref":"Axon.html#feature_alpha_dropout/2","title":"Axon.feature_alpha_dropout/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:rate` - dropout rate. Defaults to `0.5`.\n    Needs to be equal or greater than zero and less than one.","ref":"Axon.html#feature_alpha_dropout/2-options","title":"Options - Axon.feature_alpha_dropout/2","type":"function"},{"doc":"Adds a flatten layer to the network.\n\nThis layer will flatten all but the batch dimensions\nof the input into a single layer. Typically called to flatten\nthe output of a convolution for use with a dense layer.","ref":"Axon.html#flatten/2","title":"Axon.flatten/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#flatten/2-options","title":"Options - Axon.flatten/2","type":"function"},{"doc":"Freezes parameters returned from the given function or predicate.\n\n`fun` can be a predicate `:all`, `up: n`, or `down: n`. `:all`\nfreezes all parameters in the model, `up: n` freezes the first `n`\nlayers up (starting from output), and `down: n` freezes the first `n`\nlayers down (starting from input).\n\n`fun` may also be a predicate function which takes a parameter and\nreturns `true` if a parameter should be frozen or `false` otherwise.\n\nFreezing parameters is useful when performing transfer learning\nto leverage features learned from another problem in a new problem.\nFor example, it's common to combine the convolutional base from\nlarger models trained on ImageNet with fresh fully-connected classifiers.\nThe combined model is then trained on fresh data, with the convolutional\nbase frozen so as not to lose information. You can see this example\nin code here:\n\n    cnn_base = get_pretrained_cnn_base()\n    model =\n      cnn_base\n      |> Axon.freeze()\n      |> Axon.flatten()\n      |> Axon.dense(1024, activation: :relu)\n      |> Axon.dropout()\n      |> Axon.dense(1000, activation: :softmax)\n\n    model\n    |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.005))\n    |> Axon.Loop.run(data, epochs: 10)\n\nWhen compiled, frozen parameters are wrapped in `Nx.Defn.Kernel.stop_grad/1`,\nwhich zeros out the gradient with respect to the frozen parameter. Gradients\nof frozen parameters will return `0.0`, meaning they won't be changed during\nthe update process.","ref":"Axon.html#freeze/2","title":"Axon.freeze/2","type":"function"},{"doc":"Adds a Gaussian error linear unit activation layer to the network.\n\nSee `Axon.Activations.gelu/1` for more details.","ref":"Axon.html#gelu/2","title":"Axon.gelu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#gelu/2-options","title":"Options - Axon.gelu/2","type":"function"},{"doc":"Returns information about a model's inputs.","ref":"Axon.html#get_inputs/1","title":"Axon.get_inputs/1","type":"function"},{"doc":"Returns a map of model op counts for each unique operation\nin a model by their given `:op_name`.","ref":"Axon.html#get_op_counts/1","title":"Axon.get_op_counts/1","type":"function"},{"doc":"iex> model = Axon.input(\"input\", shape: {nil, 1}) |> Axon.dense(2)\n    iex> Axon.get_op_counts(model)\n    %{input: 1, dense: 1}\n\n    iex> model = Axon.input(\"input\", shape: {nil, 1}) |> Axon.tanh() |> Axon.tanh()\n    iex> Axon.get_op_counts(model)\n    %{input: 1, tanh: 2}","ref":"Axon.html#get_op_counts/1-examples","title":"Examples - Axon.get_op_counts/1","type":"function"},{"doc":"Returns a node's immediate input options.\n\nNote that this does not take into account options of\nparent layers, only the option which belong to the\nimmediate layer.","ref":"Axon.html#get_options/1","title":"Axon.get_options/1","type":"function"},{"doc":"Returns a model's output shape from the given input\ntemplate.","ref":"Axon.html#get_output_shape/3","title":"Axon.get_output_shape/3","type":"function"},{"doc":"Returns a node's immediate parameters.\n\nNote this does not take into account parameters of\nparent layers - only the parameters which belong to\nthe immediate layer.","ref":"Axon.html#get_parameters/1","title":"Axon.get_parameters/1","type":"function"},{"doc":"Adds a Global average pool layer to the network.\n\nSee `Axon.Layers.global_avg_pool/2` for more details.\n\nTypically used to connect feature extractors such as those in convolutional\nneural networks to fully-connected models by reducing inputs along spatial\ndimensions to only feature and batch dimensions.","ref":"Axon.html#global_avg_pool/2","title":"Axon.global_avg_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:keep_axes` - option to keep reduced axes. If `true`, keeps reduced axes\n    with a dimension size of 1.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#global_avg_pool/2-options","title":"Options - Axon.global_avg_pool/2","type":"function"},{"doc":"Adds a Global LP pool layer to the network.\n\nSee `Axon.Layers.global_lp_pool/2` for more details.\n\nTypically used to connect feature extractors such as those in convolutional\nneural networks to fully-connected models by reducing inputs along spatial\ndimensions to only feature and batch dimensions.","ref":"Axon.html#global_lp_pool/2","title":"Axon.global_lp_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:keep_axes` - option to keep reduced axes. If `true`, keeps reduced axes\n    with a dimension size of 1.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#global_lp_pool/2-options","title":"Options - Axon.global_lp_pool/2","type":"function"},{"doc":"Adds a Global max pool layer to the network.\n\nSee `Axon.Layers.global_max_pool/2` for more details.\n\nTypically used to connect feature extractors such as those in convolutional\nneural networks to fully-connected models by reducing inputs along spatial\ndimensions to only feature and batch dimensions.","ref":"Axon.html#global_max_pool/2","title":"Axon.global_max_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:keep_axes` - option to keep reduced axes. If `true`, keeps reduced axes\n    with a dimension size of 1.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#global_max_pool/2-options","title":"Options - Axon.global_max_pool/2","type":"function"},{"doc":"Adds a group normalization layer to the network.\n\nSee `Axon.Layers.group_norm/4` for more details.","ref":"Axon.html#group_norm/3","title":"Axon.group_norm/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:gamma_initializer` - gamma parameter initializer. Defaults\n    to `:glorot_uniform`.\n\n  * `:beta_initializer` - beta parameter initializer. Defaults to\n    `:zeros`.\n\n  * `:channel_index` - input feature index used for calculating\n    mean and variance. Defaults to `-1`.\n\n  * `:epsilon` - numerical stability term.","ref":"Axon.html#group_norm/3-options","title":"Options - Axon.group_norm/3","type":"function"},{"doc":"See `gru/3`.","ref":"Axon.html#gru/2","title":"Axon.gru/2","type":"function"},{"doc":"Adds a gated recurrent unit (GRU) layer to the network with\na random initial hidden state.\n\nSee `gru/4` for more details.","ref":"Axon.html#gru/3","title":"Axon.gru/3","type":"function"},{"doc":"* `:recurrent_initializer` - initializer for hidden state.\n    Defaults to `:orthogonal`.","ref":"Axon.html#gru/3-additional-options","title":"Additional options - Axon.gru/3","type":"function"},{"doc":"Adds a gated recurrent unit (GRU) layer to the network with\nthe given initial hidden state.\n\nGRUs apply `Axon.Layers.gru_cell/7` over an entire input\nsequence and return:\n\n    {{new_hidden}, output_sequence}\n\nYou can use the output state as the hidden state of another\nGRU layer.","ref":"Axon.html#gru/4","title":"Axon.gru/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:activation` - recurrent activation. Defaults to `:tanh`.\n\n  * `:gate` - recurrent gate function. Defaults to `:sigmoid`.\n\n  * `:unroll` - `:dynamic` (loop preserving) or `:static` (compiled)\n    unrolling of RNN.\n\n  * `:kernel_initializer` - initializer for kernel weights. Defaults\n    to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for bias weights. Defaults to\n    `:zeros`.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#gru/4-options","title":"Options - Axon.gru/4","type":"function"},{"doc":"Adds a Hard sigmoid activation layer to the network.\n\nSee `Axon.Activations.hard_sigmoid/1` for more details.","ref":"Axon.html#hard_sigmoid/2","title":"Axon.hard_sigmoid/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#hard_sigmoid/2-options","title":"Options - Axon.hard_sigmoid/2","type":"function"},{"doc":"Adds a Hard sigmoid weighted linear unit activation layer to the network.\n\nSee `Axon.Activations.hard_silu/1` for more details.","ref":"Axon.html#hard_silu/2","title":"Axon.hard_silu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#hard_silu/2-options","title":"Options - Axon.hard_silu/2","type":"function"},{"doc":"Adds a Hard hyperbolic tangent activation layer to the network.\n\nSee `Axon.Activations.hard_tanh/1` for more details.","ref":"Axon.html#hard_tanh/2","title":"Axon.hard_tanh/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#hard_tanh/2-options","title":"Options - Axon.hard_tanh/2","type":"function"},{"doc":"Adds an input layer to the network.\n\nInput layers specify a model's inputs. Input layers are\nalways the root layers of the neural network.\n\nYou must specify the input layers name, which will be used\nto uniquely identify it in the case of multiple inputs.","ref":"Axon.html#input/2","title":"Axon.input/2","type":"function"},{"doc":"* `:shape` - the expected input shape, use `nil` for dimensions\n    of a dynamic size.\n\n  * `:optional` - if `true`, the input may be omitted when using\n    the model. This needs to be handled in one of the subsequent\n    layers. See `optional/2` for more details.","ref":"Axon.html#input/2-options","title":"Options - Axon.input/2","type":"function"},{"doc":"Adds an Instance normalization layer to the network.\n\nSee `Axon.Layers.instance_norm/6` for more details.","ref":"Axon.html#instance_norm/2","title":"Axon.instance_norm/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:gamma_initializer` - gamma parameter initializer. Defaults\n    to `:glorot_uniform`.\n\n  * `:beta_initializer` - beta parameter initializer. Defaults to\n    `:zeros`.\n\n  * `:channel_index` - input feature index used for calculating\n    mean and variance. Defaults to `-1`.\n\n  * `:epsilon` - numerical stability term. Defaults to `1.0e-5`.","ref":"Axon.html#instance_norm/2-options","title":"Options - Axon.instance_norm/2","type":"function"},{"doc":"Custom Axon layer with given inputs.\n\nInputs may be other Axon layers or trainable parameters created\nwith `Axon.param`. At inference time, `op` will be applied with\ninputs in specified order and an additional `opts` parameter which\nspecifies inference options. All options passed to layer are forwarded\nto inference function except:\n\n  * `:name` - layer name.\n\n  * `:op_name` - layer operation for inspection and building parameter map.\n\n  * `:mode` - if the layer should run only on `:inference` or `:train`. Defaults to `:both`\n\n  * `:global_options` - a list of global option names that this layer\n    supports. Global options passed to `build/2` will be forwarded to\n    the layer, as long as they are declared\n\nNote this means your layer should not use these as input options,\nas they will always be dropped during inference compilation.\n\nAxon's compiler will additionally forward the following options to\nevery layer at inference time:\n\n  * `:mode` - `:inference` or `:train`. To control layer behavior\n    based on inference or train time.\n\n`op` is a function of the form:\n\n    fun = fn input, weight, bias, _opts ->\n      input * weight + bias\n    end","ref":"Axon.html#layer/3","title":"Axon.layer/3","type":"function"},{"doc":"Adds a Layer normalization layer to the network.\n\nSee `Axon.Layers.layer_norm/4` for more details.","ref":"Axon.html#layer_norm/2","title":"Axon.layer_norm/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:gamma_initializer` - gamma parameter initializer. Defaults\n    to `:glorot_uniform`.\n\n  * `:beta_initializer` - beta parameter initializer. Defaults to\n    `:zeros`.\n\n  * `:channel_index` - input feature index used for calculating\n    mean and variance. Defaults to `-1`.\n\n  * `:epsilon` - numerical stability term.","ref":"Axon.html#layer_norm/2-options","title":"Options - Axon.layer_norm/2","type":"function"},{"doc":"Adds a Leaky rectified linear unit activation layer to the network.\n\nSee `Axon.Activations.leaky_relu/1` for more details.","ref":"Axon.html#leaky_relu/2","title":"Axon.leaky_relu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#leaky_relu/2-options","title":"Options - Axon.leaky_relu/2","type":"function"},{"doc":"Adds a Linear activation layer to the network.\n\nSee `Axon.Activations.linear/1` for more details.","ref":"Axon.html#linear/2","title":"Axon.linear/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#linear/2-options","title":"Options - Axon.linear/2","type":"function"},{"doc":"Adds a Log-sigmoid activation layer to the network.\n\nSee `Axon.Activations.log_sigmoid/1` for more details.","ref":"Axon.html#log_sigmoid/2","title":"Axon.log_sigmoid/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#log_sigmoid/2-options","title":"Options - Axon.log_sigmoid/2","type":"function"},{"doc":"Adds a Log-softmax activation layer to the network.\n\nSee `Axon.Activations.log_softmax/1` for more details.","ref":"Axon.html#log_softmax/2","title":"Axon.log_softmax/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#log_softmax/2-options","title":"Options - Axon.log_softmax/2","type":"function"},{"doc":"Adds a Log-sumexp activation layer to the network.\n\nSee `Axon.Activations.log_sumexp/1` for more details.","ref":"Axon.html#log_sumexp/2","title":"Axon.log_sumexp/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#log_sumexp/2-options","title":"Options - Axon.log_sumexp/2","type":"function"},{"doc":"Adds a Power average pool layer to the network.\n\nSee `Axon.Layers.lp_pool/2` for more details.","ref":"Axon.html#lp_pool/2","title":"Axon.lp_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to size of kernel.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:dilations` - window dilations. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#lp_pool/2-options","title":"Options - Axon.lp_pool/2","type":"function"},{"doc":"See `lstm/3`.","ref":"Axon.html#lstm/2","title":"Axon.lstm/2","type":"function"},{"doc":"Adds a long short-term memory (LSTM) layer to the network\nwith a random initial hidden state.\n\nSee `lstm/4` for more details.","ref":"Axon.html#lstm/3","title":"Axon.lstm/3","type":"function"},{"doc":"* `:recurrent_initializer` - initializer for hidden state.\n    Defaults to `:orthogonal`.","ref":"Axon.html#lstm/3-additional-options","title":"Additional options - Axon.lstm/3","type":"function"},{"doc":"Adds a long short-term memory (LSTM) layer to the network\nwith the given initial hidden state.\n\nLSTMs apply `Axon.Layers.lstm_cell/7` over an entire input\nsequence and return:\n\n    {output_sequence, {new_cell, new_hidden}}\n\nYou can use the output state as the hidden state of another\nLSTM layer.","ref":"Axon.html#lstm/4","title":"Axon.lstm/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:activation` - recurrent activation. Defaults to `:tanh`.\n\n  * `:gate` - recurrent gate function. Defaults to `:sigmoid`.\n\n  * `:unroll` - `:dynamic` (loop preserving) or `:static` (compiled)\n    unrolling of RNN.\n\n  * `:kernel_initializer` - initializer for kernel weights. Defaults\n    to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for bias weights. Defaults to\n    `:zeros`.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#lstm/4-options","title":"Options - Axon.lstm/4","type":"function"},{"doc":"Traverses graph nodes in order, applying `fun` to each\nnode exactly once to return a transformed node in its\nplace(s) in the graph.\n\nThis function maintains an internal cache which ensures\neach node is only visited and transformed exactly once.\n\n`fun` must accept an Axon node and return an Axon node.\n\nPlease note that modifying node lineage (e.g. altering\na node's parent) will result in disconnected graphs.","ref":"Axon.html#map_nodes/2","title":"Axon.map_nodes/2","type":"function"},{"doc":"One common use of this function is to implement common\ninstrumentation between layers without needing to build\na new explicitly instrumented version of a model. For example,\nyou can use this function to visualize intermediate activations\nof all convolutional layers in a model:\n\n    instrumented_model = Axon.map_nodes(model, fn\n      %Axon.Node{op: :conv} = axon_node ->\n        Axon.attach_hook(axon_node, &visualize_activations/1)\n\n      axon_node ->\n        axon_node\n    end)\n\nAnother use case is to replace entire classes of layers\nwith another. For example, you may want to replace all\nrelu layers with tanh layers:\n\n    new_model = Axon.map_nodes(model, fn\n      %Axon{op: :relu} = graph ->\n        # Get nodes immediate parent\n        parent = Axon.get_parent(graph)\n        # Replace node with a tanh\n        Axon.tanh(parent)\n\n      graph ->\n        graph\n    end)","ref":"Axon.html#map_nodes/2-examples","title":"Examples - Axon.map_nodes/2","type":"function"},{"doc":"Computes a sequence mask according to the given EOS token.\n\nMasks can be propagated to recurrent layers or custom layers to\nindicate that a given token should be ignored in processing. This\nis useful when you have sequences of variable length.\n\nMost commonly, `eos_token` is `0`.","ref":"Axon.html#mask/3","title":"Axon.mask/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#mask/3-options","title":"Options - Axon.mask/3","type":"function"},{"doc":"Adds a Max pool layer to the network.\n\nSee `Axon.Layers.max_pool/2` for more details.","ref":"Axon.html#max_pool/2","title":"Axon.max_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to size of kernel.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:dilations` - window dilations. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#max_pool/2-options","title":"Options - Axon.max_pool/2","type":"function"},{"doc":"Adds a Mish activation layer to the network.\n\nSee `Axon.Activations.mish/1` for more details.","ref":"Axon.html#mish/2","title":"Axon.mish/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#mish/2-options","title":"Options - Axon.mish/2","type":"function"},{"doc":"Adds a multiply layer to the network.\n\nThis layer performs an element-wise multiply operation\non input layers. All input layers must be capable of being\nbroadcast together.\n\nIf one shape has a static batch size, all other shapes must have a\nstatic batch size as well.","ref":"Axon.html#multiply/3","title":"Axon.multiply/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#multiply/3-options","title":"Options - Axon.multiply/3","type":"function"},{"doc":"Wraps an Axon model into a namespace.\n\nA namespace is a part of an Axon model which is meant to\nbe a self-contained collection of Axon layers. Namespaces\nare guaranteed to always generate with the same internal\nlayer names and can be re-used universally across models.\n\nNamespaces are most useful for containing large collections\nof layers and offering a straightforward means for accessing\nthe parameters of individual model components. A common application\nof namespaces is to use them in with a pre-trained model for\nfine-tuning:\n\n    {base, resnet_params} = resnet()\n    base = base |> Axon.namespace(\"resnet\")\n\n    model = base |> Axon.dense(1)\n    {init_fn, predict_fn} = Axon.build(model)\n\n    init_fn.(Nx.template({1, 3, 224, 224}, {:f, 32}), %{\"resnset\" => resnet_params})\n\nNotice you can use `init_fn` in conjunction with namespaces\nto specify which portion of a model you'd like to initialize\nfrom a fixed starting point.\n\nNamespaces have fixed names, which means it's easy to run into namespace\ncollisions. Re-using namespaces, re-using inner parts of a namespace,\nand attempting to share layers between namespaces are still sharp\nedges in namespace usage.","ref":"Axon.html#namespace/2","title":"Axon.namespace/2","type":"function"},{"doc":"Applies the given `Nx` expression to the input.\n\nNx layers are meant for quick applications of functions without\ntrainable parameters. For example, they are useful for applying\nfunctions which apply accessors to containers:\n\n    model = Axon.container({foo, bar})\n    Axon.nx(model, &elem(&1, 0))","ref":"Axon.html#nx/3","title":"Axon.nx/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#nx/3-options","title":"Options - Axon.nx/3","type":"function"},{"doc":"Wraps an Axon model in an optional node.\n\nBy default, when an optional input is missing, all subsequent layers\nare nullified. For example, consider this model:\n\n    values = Axon.input(\"values\")\n    mask = Axon.input(\"mask\", optional: true)\n\n    model =\n      values\n      |> Axon.dense(10)\n      |> Axon.multiply(mask)\n      |> Axon.dense(1)\n      |> Axon.sigmoid()\n\nIn case the mask is not provided, the input node will resolve to\n`%Axon.None{}` and so will all the layers that depend on it. By\nusing `optional/2` a layer may opt-in to receive `%Axon.None{}`.\nTo fix our example, we could define a custom layer to apply the\nmask only when present\n\n    def apply_optional_mask(%Axon{} = x, %Axon{} = mask) do\n      Axon.layer(\n        fn x, mask, _opts ->\n          case mask do\n            %Axon.None{} -> x\n            mask -> Nx.multiply(x, mask)\n          end\n        end,\n        [x, Axon.optional(mask)]\n      )\n    end\n\n    # ...\n\n    model =\n      values\n      |> Axon.dense(10)\n      |> apply_optional_mask(mask)\n      |> Axon.dense(1)\n      |> Axon.sigmoid()","ref":"Axon.html#optional/2","title":"Axon.optional/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#optional/2-options","title":"Options - Axon.optional/2","type":"function"},{"doc":"Adds a pad layer to the network.\n\nThis layer will pad the spatial dimensions of the input.\nPadding configuration is a list of tuples for each spatial\ndimension.","ref":"Axon.html#pad/4","title":"Axon.pad/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:channels` - channel configuration. One of `:first` or\n    `:last`. Defaults to `:last`.","ref":"Axon.html#pad/4-options","title":"Options - Axon.pad/4","type":"function"},{"doc":"Trainable Axon parameter used to create custom layers.\n\nParameters are specified in usages of `Axon.layer` and will\nbe automatically initialized and used in subsequent applications\nof Axon models.\n\nYou may specify the parameter shape as either a static shape or\nas function of the inputs to the given layer. If you specify the\nparameter shape as a function, it will be given the","ref":"Axon.html#param/3","title":"Axon.param/3","type":"function"},{"doc":"* `:initializer` - parameter initializer. Defaults to `:glorot_uniform`.","ref":"Axon.html#param/3-options","title":"Options - Axon.param/3","type":"function"},{"doc":"Pops the top node off of the graph.\n\nThis returns the popped node and the updated graph:\n\n    {_node, model} = Axon.pop_node(model)","ref":"Axon.html#pop_node/1","title":"Axon.pop_node/1","type":"function"},{"doc":"Builds and runs the given Axon `model` with `params` and `input`.\n\nThis is equivalent to calling `build/2` and then invoking the\npredict function.","ref":"Axon.html#predict/4","title":"Axon.predict/4","type":"function"},{"doc":"* `:mode` - one of `:inference` or `:train`. Forwarded to layers\n    to control differences in compilation at training or inference time.\n    Defaults to `:inference`\n\n  * `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`\n\nAll other options are forwarded to the default JIT compiler\nor backend.","ref":"Axon.html#predict/4-options","title":"Options - Axon.predict/4","type":"function"},{"doc":"Traverses graph nodes in order, applying `fun` to each\nnode exactly once to return a transformed node in its\nplace(s) in the graph.\n\nThis function maintains an internal cache which ensures\neach node is only visited and transformed exactly once.\n\n`fun` must accept an Axon node and accumulator and return\nan updated accumulator.","ref":"Axon.html#reduce_nodes/3","title":"Axon.reduce_nodes/3","type":"function"},{"doc":"Internally this function is used in several places to accumulate\ngraph metadata. For example, you can use it to count the number\nof a certain type of operation in the graph:\n\n    Axon.reduce_nodes(model, 0, fn\n      %Axon.Nodes{op: :relu}, acc -> acc + 1\n      _, acc -> acc\n    end)","ref":"Axon.html#reduce_nodes/3-examples","title":"Examples - Axon.reduce_nodes/3","type":"function"},{"doc":"Adds a Rectified linear unit 6 activation layer to the network.\n\nSee `Axon.Activations.relu6/1` for more details.","ref":"Axon.html#relu6/2","title":"Axon.relu6/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#relu6/2-options","title":"Options - Axon.relu6/2","type":"function"},{"doc":"Adds a Rectified linear unit activation layer to the network.\n\nSee `Axon.Activations.relu/1` for more details.","ref":"Axon.html#relu/2","title":"Axon.relu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#relu/2-options","title":"Options - Axon.relu/2","type":"function"},{"doc":"Adds a reshape layer to the network.\n\nThis layer implements a special case of `Nx.reshape` which accounts\nfor possible batch dimensions in the input tensor. You may pass the\nmagic dimension `:batch` as a placeholder for dynamic batch sizes.\nYou can use `:batch` seamlessly with `:auto` dimension sizes.\n\nIf the input is an Axon constant, the reshape behavior matches that of\n`Nx.reshape/2`.","ref":"Axon.html#reshape/3","title":"Axon.reshape/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#reshape/3-options","title":"Options - Axon.reshape/3","type":"function"},{"doc":"Adds a resize layer to the network.\n\nResizing can be used for interpolation or upsampling input\nvalues in a neural network. For example, you can use this\nlayer as an upsampling layer within a GAN.\n\nResize shape must be a tuple representing the resized spatial\ndimensions of the input tensor.\n\nCompiles to `Axon.Layers.resize/2`.","ref":"Axon.html#resize/3","title":"Axon.resize/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:method` - resize method. Defaults to `:nearest`.\n\n  * `:antialias` - whether an anti-aliasing filter should be used\n    when downsampling. Defaults to `true`.\n\n  * `:channels` - channel configuration. One of `:first` or\n    `:last`. Defaults to `:last`.","ref":"Axon.html#resize/3-options","title":"Options - Axon.resize/3","type":"function"},{"doc":"Adds a Scaled exponential linear unit activation layer to the network.\n\nSee `Axon.Activations.selu/1` for more details.","ref":"Axon.html#selu/2","title":"Axon.selu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#selu/2-options","title":"Options - Axon.selu/2","type":"function"},{"doc":"Adds a depthwise separable 2-dimensional convolution to the\nnetwork.\n\nDepthwise separable convolutions break the kernel into kernels\nfor each dimension of the input and perform a depthwise conv\nover the input with each kernel.\n\nCompiles to `Axon.Layers.separable_conv2d/6`.","ref":"Axon.html#separable_conv2d/3","title":"Axon.separable_conv2d/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:input_dilation` - dilation to apply to input. Defaults to `1`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#separable_conv2d/3-options","title":"Options - Axon.separable_conv2d/3","type":"function"},{"doc":"Adds a depthwise separable 3-dimensional convolution to the\nnetwork.\n\nDepthwise separable convolutions break the kernel into kernels\nfor each dimension of the input and perform a depthwise conv\nover the input with each kernel.\n\nCompiles to `Axon.Layers.separable_conv3d/8`.","ref":"Axon.html#separable_conv3d/3","title":"Axon.separable_conv3d/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:input_dilation` - dilation to apply to input. Defaults to `1`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#separable_conv3d/3-options","title":"Options - Axon.separable_conv3d/3","type":"function"},{"doc":"Serializes a model and its parameters for persisting\nmodels to disk or elsewhere.\n\nModel and parameters are serialized as a tuple, where the\nmodel is converted to a recursive map to ensure compatibility\nwith future Axon versions and the parameters are serialized\nusing `Nx.serialize/2`. There is some additional metadata included\nsuch as current serialization version for compatibility.\n\nSerialization `opts` are forwarded to `Nx.serialize/2` and\n`:erlang.term_to_binary/2` for controlling compression options.","ref":"Axon.html#serialize/3","title":"Axon.serialize/3","type":"function"},{"doc":"iex> model = Axon.input(\"input\", shape: {nil, 2}) |> Axon.dense(1, kernel_initializer: :zeros, activation: :relu)\n    iex> {init_fn, _} = Axon.build(model)\n    iex> params = init_fn.(Nx.template({1, 2}, :f32), %{})\n    iex> serialized = Axon.serialize(model, params)\n    iex> {saved_model, saved_params} = Axon.deserialize(serialized)\n    iex> {_, predict_fn} = Axon.build(saved_model)\n    iex> predict_fn.(saved_params, Nx.tensor([[1.0, 1.0]]))\n    #Nx.Tensor","ref":"Axon.html#serialize/3-examples","title":"Examples - Axon.serialize/3","type":"function"},{"doc":"Sets a node's immediate options to the given input\noptions.\n\nNote that this does not take into account options of\nparent layers, only the option which belong to the\nimmediate layer.\n\nNew options must be compatible with the given layer\nop. Adding unsupported options to an Axon layer will\nresult in an error at graph execution time.","ref":"Axon.html#set_options/2","title":"Axon.set_options/2","type":"function"},{"doc":"Sets a node's immediate parameters to the given\nparameters.\n\nNote this does not take into account parameters of\nparent layers - only the parameters which belong to\nthe immediate layer.\n\nThe new parameters must be compatible with the layer's\nold parameters.","ref":"Axon.html#set_parameters/2","title":"Axon.set_parameters/2","type":"function"},{"doc":"Adds a Sigmoid activation layer to the network.\n\nSee `Axon.Activations.sigmoid/1` for more details.","ref":"Axon.html#sigmoid/2","title":"Axon.sigmoid/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#sigmoid/2-options","title":"Options - Axon.sigmoid/2","type":"function"},{"doc":"Adds a Sigmoid weighted linear unit activation layer to the network.\n\nSee `Axon.Activations.silu/1` for more details.","ref":"Axon.html#silu/2","title":"Axon.silu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#silu/2-options","title":"Options - Axon.silu/2","type":"function"},{"doc":"Adds a Softmax activation layer to the network.\n\nSee `Axon.Activations.softmax/1` for more details.","ref":"Axon.html#softmax/2","title":"Axon.softmax/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#softmax/2-options","title":"Options - Axon.softmax/2","type":"function"},{"doc":"Adds a Softplus activation layer to the network.\n\nSee `Axon.Activations.softplus/1` for more details.","ref":"Axon.html#softplus/2","title":"Axon.softplus/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#softplus/2-options","title":"Options - Axon.softplus/2","type":"function"},{"doc":"Adds a Softsign activation layer to the network.\n\nSee `Axon.Activations.softsign/1` for more details.","ref":"Axon.html#softsign/2","title":"Axon.softsign/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#softsign/2-options","title":"Options - Axon.softsign/2","type":"function"},{"doc":"Adds a Spatial dropout layer to the network.\n\nSee `Axon.Layers.spatial_dropout/2` for more details.","ref":"Axon.html#spatial_dropout/2","title":"Axon.spatial_dropout/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:rate` - dropout rate. Defaults to `0.5`.\n    Needs to be equal or greater than zero and less than one.","ref":"Axon.html#spatial_dropout/2-options","title":"Options - Axon.spatial_dropout/2","type":"function"},{"doc":"Splits input graph into a container of `n` input graphs\nalong the given axis.","ref":"Axon.html#split/3","title":"Axon.split/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:axis` - concatenate axis. Defaults to `-1`.","ref":"Axon.html#split/3-options","title":"Options - Axon.split/3","type":"function"},{"doc":"Adds a stack columns layer to the network.\n\nA stack columns layer is designed to be used with `Nx.LazyContainer`\ndata structures like Explorer DataFrames. Given an input which is a\nDataFrame, `stack_columns/2` will stack the columns in each row to\ncreate a single vector.\n\nYou may optionally specify `:ignore` to ignore certain columns in\nthe container.","ref":"Axon.html#stack_columns/2","title":"Axon.stack_columns/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:ignore` - keys to ignore when stacking.","ref":"Axon.html#stack_columns/2-options","title":"Options - Axon.stack_columns/2","type":"function"},{"doc":"Adds a subtract layer to the network.\n\nThis layer performs an element-wise subtract operation\non input layers. All input layers must be capable of being\nbroadcast together.\n\nIf one shape has a static batch size, all other shapes must have a\nstatic batch size as well.","ref":"Axon.html#subtract/3","title":"Axon.subtract/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#subtract/3-options","title":"Options - Axon.subtract/3","type":"function"},{"doc":"Adds a Hyperbolic tangent activation layer to the network.\n\nSee `Axon.Activations.tanh/1` for more details.","ref":"Axon.html#tanh/2","title":"Axon.tanh/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#tanh/2-options","title":"Options - Axon.tanh/2","type":"function"},{"doc":"Compiles and returns the given model's backward function\nexpression with respect to the given loss function.\n\nThe returned expression is an Nx expression which can be\ntraversed and lowered to an IR or inspected for debugging\npurposes.\n\nThe given loss function must be a scalar loss function which\nexpects inputs and targets with the same shapes as the model's\noutput shapes as determined by the model's signature.","ref":"Axon.html#trace_backward/5","title":"Axon.trace_backward/5","type":"function"},{"doc":"* `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`","ref":"Axon.html#trace_backward/5-options","title":"Options - Axon.trace_backward/5","type":"function"},{"doc":"Compiles and returns the given model's forward function\nexpression with the given options.\n\nThe returned expression is an Nx expression which can be\ntraversed and lowered to an IR or inspected for debugging\npurposes.","ref":"Axon.html#trace_forward/4","title":"Axon.trace_forward/4","type":"function"},{"doc":"* `:mode` - one of `:inference` or `:train`. Forwarded to layers\n    to control differences in compilation at training or inference time.\n    Defaults to `:inference`\n\n  * `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`","ref":"Axon.html#trace_forward/4-options","title":"Options - Axon.trace_forward/4","type":"function"},{"doc":"Compiles and returns the given model's init function\nexpression with the given options.\n\nThe returned expression is an Nx expression which can be\ntraversed and lowered to an IR or inspected for debugging\npurposes.\n\nYou may optionally specify initial parameters for some layers or\nnamespaces by passing a partial parameter map:\n\n    Axon.trace_init(model, %{\"dense_0\" => dense_params})\n\nThe parameter map will be merged with the initialized model\nparameters.","ref":"Axon.html#trace_init/4","title":"Axon.trace_init/4","type":"function"},{"doc":"* `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`","ref":"Axon.html#trace_init/4-options","title":"Options - Axon.trace_init/4","type":"function"},{"doc":"Adds a transpose layer to the network.","ref":"Axon.html#transpose/3","title":"Axon.transpose/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#transpose/3-options","title":"Options - Axon.transpose/3","type":"function"},{"doc":"Unfreezes parameters returned from the given function or predicate.\n\n`fun` can be a predicate `:all`, `up: n`, or `down: n`. `:all`\nfreezes all parameters in the model, `up: n` unfreezes the first `n`\nlayers up (starting from output), and `down: n` freezes the first `n`\nlayers down (starting from input).\n\n`fun` may also be a predicate function which takes a parameter and\nreturns `true` if a parameter should be unfrozen or `false` otherwise.\n\nUnfreezing parameters is useful when fine tuning a model which you\nhave previously frozen and performed transfer learning on. You may\nwant to unfreeze some of the later frozen layers in a model and\nfine tune them specifically for your application:\n\n    cnn_base = get_pretrained_cnn_base()\n    model =\n      frozen_model\n      |> Axon.unfreeze(up: 25)\n\n    model\n    |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.0005))\n    |> Axon.Loop.run(data, epochs: 10)\n\nWhen compiled, frozen parameters are wrapped in `Nx.Defn.Kernel.stop_grad/1`,\nwhich zeros out the gradient with respect to the frozen parameter. Gradients\nof frozen parameters will return `0.0`, meaning they won't be changed during\nthe update process.","ref":"Axon.html#unfreeze/2","title":"Axon.unfreeze/2","type":"function"},{"doc":"","ref":"Axon.html#t:t/0","title":"Axon.t/0","type":"type"},{"doc":"Parameter initializers.\n\nParameter initializers are used to initialize the weights\nand biases of a neural network. Because most deep learning\noptimization algorithms are iterative, they require an initial\npoint to iterate from.\n\nSometimes the initialization of a model can determine whether\nor not a model converges. In some cases, the initial point is\nunstable, and therefore the model has no chance of converging\nusing common first-order optimization methods. In cases where\nthe model will converge, initialization can have a significant\nimpact on how quickly the model converges.\n\nMost initialization strategies are built from intuition and\nheuristics rather than theory. It's commonly accepted that\nthe parameters of different layers should be different -\nmotivating the use of random initialization for each layer's\nparameters. Usually, only the weights of a layer are initialized\nusing a random distribution - while the biases are initialized\nto a uniform constant (like 0).\n\nMost initializers use Gaussian (normal) or uniform distributions\nwith variations on scale. The output scale of an initializer\nshould generally be large enough to avoid information loss but\nsmall enough to avoid exploding values. The initializers in\nthis module have a default scale known to work well with\nthe initialization strategy.\n\nThe functions in this module return initialization functions which\ntake shapes and types and return tensors:\n\n    init_fn = Axon.Initializers.zeros()\n    init_fn.({1, 2}, {:f, 32})\n\nYou may use these functions from within `defn` or outside.","ref":"Axon.Initializers.html","title":"Axon.Initializers","type":"module"},{"doc":"Initializes parameters to value.","ref":"Axon.Initializers.html#full/1","title":"Axon.Initializers.full/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.full(1.00)\n    iex> out = init_fn.({2, 2}, {:f, 32})\n    iex> out\n    #Nx.Tensor","ref":"Axon.Initializers.html#full/1-examples","title":"Examples - Axon.Initializers.full/1","type":"function"},{"doc":"Initializes parameters with the Glorot normal initializer.\n\nThe Glorot normal initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_avg`\nand `distribution: :truncated_normal`.\n\nThe Glorot normal initializer is also called the Xavier\nnormal initializer.","ref":"Axon.Initializers.html#glorot_normal/1","title":"Axon.Initializers.glorot_normal/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0`","ref":"Axon.Initializers.html#glorot_normal/1-options","title":"Options - Axon.Initializers.glorot_normal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.glorot_normal()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.glorot_normal(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#glorot_normal/1-examples","title":"Examples - Axon.Initializers.glorot_normal/1","type":"function"},{"doc":"* [Understanding the difficulty of training deep feedforward neural networks](http://proceedings.mlr.press/v9/glorot10a.html)","ref":"Axon.Initializers.html#glorot_normal/1-references","title":"References - Axon.Initializers.glorot_normal/1","type":"function"},{"doc":"Initializes parameters with the Glorot uniform initializer.\n\nThe Glorot uniform initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_avg`\nand `distribution: :uniform`.\n\nThe Glorot uniform initializer is also called the Xavier\nuniform initializer.","ref":"Axon.Initializers.html#glorot_uniform/1","title":"Axon.Initializers.glorot_uniform/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0`","ref":"Axon.Initializers.html#glorot_uniform/1-options","title":"Options - Axon.Initializers.glorot_uniform/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.glorot_uniform()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.glorot_uniform(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#glorot_uniform/1-examples","title":"Examples - Axon.Initializers.glorot_uniform/1","type":"function"},{"doc":"* [Understanding the difficulty of training deep feedforward neural networks](http://proceedings.mlr.press/v9/glorot10a.html)","ref":"Axon.Initializers.html#glorot_uniform/1-references","title":"References - Axon.Initializers.glorot_uniform/1","type":"function"},{"doc":"Initializes parameters with the He normal initializer.\n\nThe He normal initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_in`\nand `distribution: :truncated_normal`.","ref":"Axon.Initializers.html#he_normal/1","title":"Axon.Initializers.he_normal/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `2.0`","ref":"Axon.Initializers.html#he_normal/1-options","title":"Options - Axon.Initializers.he_normal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.he_normal()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.he_normal(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#he_normal/1-examples","title":"Examples - Axon.Initializers.he_normal/1","type":"function"},{"doc":"* [Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification](https://www.cv-foundation.org/openaccess/content_iccv_2015/html/He_Delving_Deep_into_ICCV_2015_paper.html)","ref":"Axon.Initializers.html#he_normal/1-references","title":"References - Axon.Initializers.he_normal/1","type":"function"},{"doc":"Initializes parameters with the He uniform initializer.\n\nThe He uniform initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_ni`\nand `distribution: :uniform`.","ref":"Axon.Initializers.html#he_uniform/1","title":"Axon.Initializers.he_uniform/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `2.0`","ref":"Axon.Initializers.html#he_uniform/1-options","title":"Options - Axon.Initializers.he_uniform/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.he_uniform()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.he_uniform(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#he_uniform/1-examples","title":"Examples - Axon.Initializers.he_uniform/1","type":"function"},{"doc":"* [Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification](https://www.cv-foundation.org/openaccess/content_iccv_2015/html/He_Delving_Deep_into_ICCV_2015_paper.html)","ref":"Axon.Initializers.html#he_uniform/1-references","title":"References - Axon.Initializers.he_uniform/1","type":"function"},{"doc":"Initializes parameters to an identity matrix.","ref":"Axon.Initializers.html#identity/0","title":"Axon.Initializers.identity/0","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.identity()\n    iex> out = init_fn.({2, 2}, {:f, 32})\n    iex> out\n    #Nx.Tensor","ref":"Axon.Initializers.html#identity/0-examples","title":"Examples - Axon.Initializers.identity/0","type":"function"},{"doc":"Initializes parameters with the Lecun normal initializer.\n\nThe Lecun normal initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_in`\nand `distribution: :truncated_normal`.","ref":"Axon.Initializers.html#lecun_normal/1","title":"Axon.Initializers.lecun_normal/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0`","ref":"Axon.Initializers.html#lecun_normal/1-options","title":"Options - Axon.Initializers.lecun_normal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.lecun_normal()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.lecun_normal(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#lecun_normal/1-examples","title":"Examples - Axon.Initializers.lecun_normal/1","type":"function"},{"doc":"* [Efficient BackProp](http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf)","ref":"Axon.Initializers.html#lecun_normal/1-references","title":"References - Axon.Initializers.lecun_normal/1","type":"function"},{"doc":"Initializes parameters with the Lecun uniform initializer.\n\nThe Lecun uniform initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_in`\nand `distribution: :uniform`.","ref":"Axon.Initializers.html#lecun_uniform/1","title":"Axon.Initializers.lecun_uniform/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0`","ref":"Axon.Initializers.html#lecun_uniform/1-options","title":"Options - Axon.Initializers.lecun_uniform/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.lecun_uniform()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.lecun_uniform(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#lecun_uniform/1-examples","title":"Examples - Axon.Initializers.lecun_uniform/1","type":"function"},{"doc":"* [Efficient BackProp](http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf)","ref":"Axon.Initializers.html#lecun_uniform/1-references","title":"References - Axon.Initializers.lecun_uniform/1","type":"function"},{"doc":"Initializes parameters with a random normal distribution.","ref":"Axon.Initializers.html#normal/1","title":"Axon.Initializers.normal/1","type":"function"},{"doc":"* `:mean` - mean of the output distribution. Defaults to `0.0`\n  * `:scale` - scale of the output distribution. Defaults to `1.0e-2`","ref":"Axon.Initializers.html#normal/1-options","title":"Options - Axon.Initializers.normal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.normal()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.normal(mean: 1.0, scale: 1.0)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#normal/1-examples","title":"Examples - Axon.Initializers.normal/1","type":"function"},{"doc":"Initializes parameters to 1.","ref":"Axon.Initializers.html#ones/0","title":"Axon.Initializers.ones/0","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.ones()\n    iex> out = init_fn.({2, 2}, {:f, 32})\n    iex> out\n    #Nx.Tensor","ref":"Axon.Initializers.html#ones/0-examples","title":"Examples - Axon.Initializers.ones/0","type":"function"},{"doc":"Initializes a tensor with an orthogonal distribution.\n\nFor 2-D tensors, the initialization is generated through the QR decomposition of a random distribution\nFor tensors with more than 2 dimensions, a 2-D tensor with shape `{shape[0] * shape[1] * ... * shape[n-2], shape[n-1]}`\nis initialized and then reshaped accordingly.","ref":"Axon.Initializers.html#orthogonal/1","title":"Axon.Initializers.orthogonal/1","type":"function"},{"doc":"* `:distribution` - output distribution. One of [`:normal`, `:uniform`].\n    Defaults to `:normal`","ref":"Axon.Initializers.html#orthogonal/1-options","title":"Options - Axon.Initializers.orthogonal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.orthogonal()\n    iex> t = init_fn.({3, 3}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.type(t)\n    {:f, 32}\n    iex> Nx.shape(t)\n    {3, 3}\n\n    iex> init_fn = Axon.Initializers.orthogonal()\n    iex> t = init_fn.({1, 2, 3, 4}, {:f, 64}, Nx.Random.key(1))\n    iex> Nx.type(t)\n    {:f, 64}\n    iex> Nx.shape(t)\n    {1, 2, 3, 4}","ref":"Axon.Initializers.html#orthogonal/1-examples","title":"Examples - Axon.Initializers.orthogonal/1","type":"function"},{"doc":"Initializes parameters with a random uniform distribution.","ref":"Axon.Initializers.html#uniform/1","title":"Axon.Initializers.uniform/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0e-2`","ref":"Axon.Initializers.html#uniform/1-options","title":"Options - Axon.Initializers.uniform/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.uniform()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.uniform(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#uniform/1-examples","title":"Examples - Axon.Initializers.uniform/1","type":"function"},{"doc":"Initializes parameters with variance scaling according to\nthe given distribution and mode.\n\nVariance scaling adapts scale to the weights of the output\ntensor.","ref":"Axon.Initializers.html#variance_scaling/1","title":"Axon.Initializers.variance_scaling/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0e-2`\n  * `:mode` - compute fan mode. One of `:fan_in`, `:fan_out`, or `:fan_avg`.\n    Defaults to `:fan_in`\n  * `:distribution` - output distribution. One of `:normal`, `:truncated_normal`,\n    or `:uniform`. Defaults to `:normal`","ref":"Axon.Initializers.html#variance_scaling/1-options","title":"Options - Axon.Initializers.variance_scaling/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.variance_scaling()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.variance_scaling(mode: :fan_out, distribution: :truncated_normal)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}\n\n    iex> init_fn = Axon.Initializers.variance_scaling(mode: :fan_out, distribution: :normal)\n    iex> t = init_fn.({64, 3, 32, 32}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {64, 3, 32, 32}\n    iex> Nx.type(t)\n    {:f, 32}","ref":"Axon.Initializers.html#variance_scaling/1-examples","title":"Examples - Axon.Initializers.variance_scaling/1","type":"function"},{"doc":"Initializes parameters to 0.","ref":"Axon.Initializers.html#zeros/0","title":"Axon.Initializers.zeros/0","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.zeros()\n    iex> out = init_fn.({2, 2}, {:f, 32})\n    iex> out\n    #Nx.Tensor","ref":"Axon.Initializers.html#zeros/0-examples","title":"Examples - Axon.Initializers.zeros/0","type":"function"},{"doc":"Utilities for creating mixed precision policies.\n\nMixed precision is useful for increasing model throughput at the possible\nprice of a small dip in accuracy. When creating a mixed precision policy,\nyou define the policy for `params`, `compute`, and `output`.\n\nThe `params` policy dictates what type parameters should be stored as\nduring training. The `compute` policy dictates what type should be used\nduring intermediate computations in the model's forward pass. The `output`\npolicy dictates what type the model should output.\n\nHere's an example of creating a mixed precision policy and applying it\nto a model:\n\n    model =\n      Axon.input(\"input\", shape: {nil, 784})\n      |> Axon.dense(128, activation: :relu)\n      |> Axon.batch_norm()\n      |> Axon.dropout(rate: 0.5)\n      |> Axon.dense(64, activation: :relu)\n      |> Axon.batch_norm()\n      |> Axon.dropout(rate: 0.5)\n      |> Axon.dense(10, activation: :softmax)\n\n    policy = Axon.MixedPrecision.create_policy(\n      params: {:f, 32},\n      compute: {:f, 16},\n      output: {:f, 32}\n    )\n\n    mp_model =\n      model\n      |> Axon.MixedPrecision.apply_policy(policy, except: [:batch_norm])\n\nThe example above applies the mixed precision policy to every layer in\nthe model except Batch Normalization layers. The policy will cast parameters\nand inputs to `{:f, 16}` for intermediate computations in the model's forward\npass before casting the output back to `{:f, 32}`.","ref":"Axon.MixedPrecision.html","title":"Axon.MixedPrecision","type":"module"},{"doc":"Casts the given container according to the given policy\nand type.","ref":"Axon.MixedPrecision.html#cast/3","title":"Axon.MixedPrecision.cast/3","type":"function"},{"doc":"iex> policy = Axon.MixedPrecision.create_policy(params: {:f, 16})\n    iex> params = %{\"dense\" => %{\"kernel\" => Nx.tensor([1.0, 2.0, 3.0])}}\n    iex> params = Axon.MixedPrecision.cast(policy, params, :params)\n    iex> Nx.type(params[\"dense\"][\"kernel\"])\n    {:f, 16}\n\n    iex> policy = Axon.MixedPrecision.create_policy(compute: {:bf, 16})\n    iex> value = Nx.tensor([1.0, 2.0, 3.0])\n    iex> value = Axon.MixedPrecision.cast(policy, value, :compute)\n    iex> Nx.type(value)\n    {:bf, 16}\n\n    iex> policy = Axon.MixedPrecision.create_policy(output: {:bf, 16})\n    iex> value = Nx.tensor([1.0, 2.0, 3.0])\n    iex> value = Axon.MixedPrecision.cast(policy, value, :output)\n    iex> Nx.type(value)\n    {:bf, 16}\n\nNote that integers are never promoted to floats:\n\n    iex> policy = Axon.MixedPrecision.create_policy(output: {:f, 16})\n    iex> value = Nx.tensor([1, 2, 3], type: :s64)\n    iex> value = Axon.MixedPrecision.cast(policy, value, :params)\n    iex> Nx.type(value)\n    {:s, 64}","ref":"Axon.MixedPrecision.html#cast/3-examples","title":"Examples - Axon.MixedPrecision.cast/3","type":"function"},{"doc":"Creates a mixed precision policy with the given options.","ref":"Axon.MixedPrecision.html#create_policy/1","title":"Axon.MixedPrecision.create_policy/1","type":"function"},{"doc":"* `params` - parameter precision policy. Defaults to `{:f, 32}`\n  * `compute` - compute precision policy. Defaults to `{:f, 32}`\n  * `output` - output precision policy. Defaults to `{:f, 32}`","ref":"Axon.MixedPrecision.html#create_policy/1-options","title":"Options - Axon.MixedPrecision.create_policy/1","type":"function"},{"doc":"iex> Axon.MixedPrecision.create_policy(params: {:f, 16}, output: {:f, 16})\n    #Axon.MixedPrecision.Policy \n\n    iex> Axon.MixedPrecision.create_policy(compute: {:bf, 16})\n    #Axon.MixedPrecision.Policy","ref":"Axon.MixedPrecision.html#create_policy/1-examples","title":"Examples - Axon.MixedPrecision.create_policy/1","type":"function"},{"doc":"Represents a missing value of an optional node.\n\nSee `Axon.input/2` and `Axon.optional/2` for more details.","ref":"Axon.None.html","title":"Axon.None","type":"module"},{"doc":"Container for returning stateful outputs from Axon layers.\n\nSome layers, such as `Axon.batch_norm/2`, keep a running internal\nstate which is updated continuously at train time and used statically\nat inference time. In order for the Axon compiler to differentiate\nordinary layer outputs from internal state, you must mark output\nas stateful.\n\nStateful Outputs consist of two fields:\n\n    :output - Actual layer output to be forwarded to next layer\n    :state - Internal layer state to be tracked and updated\n\n`:output` is simply forwarded to the next layer. `:state` is aggregated\nwith other stateful outputs, and then is treated specially by internal\nAxon training functions such that update state parameters reflect returned\nvalues from stateful outputs.\n\n`:state` must be a map with keys that map directly to layer internal\nstate names. For example, `Axon.Layers.batch_norm` returns StatefulOutput\nwith `:state` keys of `\"mean\"` and `\"var\"`.","ref":"Axon.StatefulOutput.html","title":"Axon.StatefulOutput","type":"module"},{"doc":"Module for rendering various visual representations of Axon models.","ref":"Axon.Display.html","title":"Axon.Display","type":"module"},{"doc":"Traces execution of the given Axon model with the given\ninputs, rendering the execution flow as a mermaid flowchart.\n\nYou must include [kino](https://hex.pm/packages/kino) as\na dependency in your project to make use of this function.","ref":"Axon.Display.html#as_graph/3","title":"Axon.Display.as_graph/3","type":"function"},{"doc":"* `:direction` - defines the direction of the graph visual. The\n    value can either be `:top_down` or `:left_right`. Defaults to `:top_down`.","ref":"Axon.Display.html#as_graph/3-options","title":"Options - Axon.Display.as_graph/3","type":"function"},{"doc":"Given an Axon model:\n\n    model = Axon.input(\"input\") |> Axon.dense(32)\n\nYou can define input templates for each input:\n\n    input = Nx.template({1, 16}, :f32)\n\nAnd then display the execution flow of the model:\n\n    Axon.Display.as_graph(model, input, direction: :top_down)","ref":"Axon.Display.html#as_graph/3-examples","title":"Examples - Axon.Display.as_graph/3","type":"function"},{"doc":"Traces execution of the given Axon model with the given\ninputs, rendering the execution flow as a table.\n\nYou must include [table_rex](https://hex.pm/packages/table_rex) as\na dependency in your project to make use of this function.","ref":"Axon.Display.html#as_table/2","title":"Axon.Display.as_table/2","type":"function"},{"doc":"Given an Axon model:\n\n    model = Axon.input(\"input\") |> Axon.dense(32)\n\nYou can define input templates for each input:\n\n    input = Nx.template({1, 16}, :f32)\n\nAnd then display the execution flow of the model:\n\n    Axon.Display.as_table(model, input)","ref":"Axon.Display.html#as_table/2-examples","title":"Examples - Axon.Display.as_table/2","type":"function"},{"doc":"Activation functions.\n\nActivation functions are element-wise, (typically) non-linear\nfunctions called on the output of another layer, such as\na dense layer:\n\n    x\n    |> dense(weight, bias)\n    |> relu()\n\nActivation functions output the \"activation\" or how active\na given layer's neurons are in learning a representation\nof the data-generating distribution.\n\nSome activations are commonly used as output activations. For\nexample `softmax` is often used as the output in multiclass\nclassification problems because it returns a categorical\nprobability distribution:\n\n    iex> Axon.Activations.softmax(Nx.tensor([[1, 2, 3]], type: {:f, 32}))\n    #Nx.Tensor \n\nOther activations such as `tanh` or `sigmoid` are used because\nthey have desirable properties, such as keeping the output\ntensor constrained within a certain range.\n\nGenerally, the choice of activation function is arbitrary;\nalthough some activations work better than others in certain\nproblem domains. For example ReLU (rectified linear unit)\nactivation is a widely-accepted default. You can see\na list of activation functions and implementations\n[here](https://paperswithcode.com/methods/category/activation-functions).\n\nAll of the functions in this module are implemented as\nnumerical functions and can be JIT or AOT compiled with\nany supported `Nx` compiler.","ref":"Axon.Activations.html","title":"Axon.Activations","type":"module"},{"doc":"Continuously-differentiable exponential linear unit activation.\n\n$$f(x_i) = \\max(0, x_i) + \\min(0, \\alpha * e^{\\frac{x_i}{\\alpha}} - 1)$$","ref":"Axon.Activations.html#celu/2","title":"Axon.Activations.celu/2","type":"function"},{"doc":"* `alpha` - $\\alpha$ in CELU formulation. Must be non-zero.\n    Defaults to `1.0`","ref":"Axon.Activations.html#celu/2-options","title":"Options - Axon.Activations.celu/2","type":"function"},{"doc":"iex> Axon.Activations.celu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.celu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}))\n    #Nx.Tensor \n\n#","ref":"Axon.Activations.html#celu/2-examples","title":"Examples - Axon.Activations.celu/2","type":"function"},{"doc":"iex> Axon.Activations.celu(Nx.tensor([0.0, 1.0, 2.0], type: {:f, 32}), alpha: 0.0)\n    ** (ArgumentError) :alpha must be non-zero in CELU activation","ref":"Axon.Activations.html#celu/2-error-cases","title":"Error cases - Axon.Activations.celu/2","type":"function"},{"doc":"* [Continuously Differentiable Exponential Linear Units](https://arxiv.org/pdf/1704.07483.pdf)","ref":"Axon.Activations.html#celu/2-references","title":"References - Axon.Activations.celu/2","type":"function"},{"doc":"Exponential linear unit activation.\n\nEquivalent to `celu` for $\\alpha = 1$\n\n$$f(x_i) = \\begin{cases}x_i & x _i > 0 \\newline \\alpha * (e^{x_i} - 1) & x_i \\leq 0 \\\\ \\end{cases}$$","ref":"Axon.Activations.html#elu/2","title":"Axon.Activations.elu/2","type":"function"},{"doc":"* `alpha` - $\\alpha$ in ELU formulation. Defaults to `1.0`","ref":"Axon.Activations.html#elu/2-options","title":"Options - Axon.Activations.elu/2","type":"function"},{"doc":"iex> Axon.Activations.elu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.elu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}))\n    #Nx.Tensor","ref":"Axon.Activations.html#elu/2-examples","title":"Examples - Axon.Activations.elu/2","type":"function"},{"doc":"* [Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)](https://arxiv.org/abs/1511.07289)","ref":"Axon.Activations.html#elu/2-references","title":"References - Axon.Activations.elu/2","type":"function"},{"doc":"Exponential activation.\n\n$$f(x_i) = e^{x_i}$$","ref":"Axon.Activations.html#exp/1","title":"Axon.Activations.exp/1","type":"function"},{"doc":"iex> Axon.Activations.exp(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.exp(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#exp/1-examples","title":"Examples - Axon.Activations.exp/1","type":"function"},{"doc":"Gaussian error linear unit activation.\n\n$$f(x_i) = \\frac{x_i}{2}(1 + {erf}(\\frac{x_i}{\\sqrt{2}}))$$","ref":"Axon.Activations.html#gelu/1","title":"Axon.Activations.gelu/1","type":"function"},{"doc":"iex> Axon.Activations.gelu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.gelu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#gelu/1-examples","title":"Examples - Axon.Activations.gelu/1","type":"function"},{"doc":"* [Gaussian Error Linear Units (GELUs)](https://arxiv.org/abs/1606.08415)","ref":"Axon.Activations.html#gelu/1-references","title":"References - Axon.Activations.gelu/1","type":"function"},{"doc":"Hard sigmoid activation.","ref":"Axon.Activations.html#hard_sigmoid/2","title":"Axon.Activations.hard_sigmoid/2","type":"function"},{"doc":"iex> Axon.Activations.hard_sigmoid(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.hard_sigmoid(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#hard_sigmoid/2-examples","title":"Examples - Axon.Activations.hard_sigmoid/2","type":"function"},{"doc":"Hard sigmoid weighted linear unit activation.\n\n$$f(x_i) = \\begin{cases} 0 & x_i \\leq -3 \\newline\nx & x_i \\geq 3 \\newline\n\\frac{x_i^2}{6} + \\frac{x_i}{2} & otherwise \\end{cases}$$","ref":"Axon.Activations.html#hard_silu/2","title":"Axon.Activations.hard_silu/2","type":"function"},{"doc":"iex> Axon.Activations.hard_silu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.hard_silu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#hard_silu/2-examples","title":"Examples - Axon.Activations.hard_silu/2","type":"function"},{"doc":"Hard hyperbolic tangent activation.\n\n$$f(x_i) = \\begin{cases} 1 & x > 1 \\newline -1 & x < -1 \\newline x & otherwise \\end{cases}$$","ref":"Axon.Activations.html#hard_tanh/1","title":"Axon.Activations.hard_tanh/1","type":"function"},{"doc":"iex> Axon.Activations.hard_tanh(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.hard_tanh(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#hard_tanh/1-examples","title":"Examples - Axon.Activations.hard_tanh/1","type":"function"},{"doc":"Leaky rectified linear unit activation.\n\n$$f(x_i) = \\begin{cases} x & x \\geq 0 \\newline \\alpha * x & otherwise \\end{cases}$$","ref":"Axon.Activations.html#leaky_relu/2","title":"Axon.Activations.leaky_relu/2","type":"function"},{"doc":"* `:alpha` - $\\alpha$ in Leaky ReLU formulation. Defaults to `1.0e-2`","ref":"Axon.Activations.html#leaky_relu/2-options","title":"Options - Axon.Activations.leaky_relu/2","type":"function"},{"doc":"iex> Axon.Activations.leaky_relu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]), alpha: 0.5)\n    #Nx.Tensor \n\n    iex> Axon.Activations.leaky_relu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], names: [:batch, :data]), alpha: 0.5)\n    #Nx.Tensor","ref":"Axon.Activations.html#leaky_relu/2-examples","title":"Examples - Axon.Activations.leaky_relu/2","type":"function"},{"doc":"Linear activation.\n\n$$f(x_i) = x_i$$","ref":"Axon.Activations.html#linear/1","title":"Axon.Activations.linear/1","type":"function"},{"doc":"iex> Axon.Activations.linear(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.linear(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#linear/1-examples","title":"Examples - Axon.Activations.linear/1","type":"function"},{"doc":"Log-sigmoid activation.\n\n$$f(x_i) = \\log(sigmoid(x))$$","ref":"Axon.Activations.html#log_sigmoid/1","title":"Axon.Activations.log_sigmoid/1","type":"function"},{"doc":"iex> Axon.Activations.log_sigmoid(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], type: {:f, 32}, names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.log_sigmoid(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#log_sigmoid/1-examples","title":"Examples - Axon.Activations.log_sigmoid/1","type":"function"},{"doc":"Log-softmax activation.\n\n$$f(x_i) = -log( um{e^x_i})$$","ref":"Axon.Activations.html#log_softmax/2","title":"Axon.Activations.log_softmax/2","type":"function"},{"doc":"iex> Axon.Activations.log_softmax(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], type: {:f, 32}, names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.log_softmax(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#log_softmax/2-examples","title":"Examples - Axon.Activations.log_softmax/2","type":"function"},{"doc":"Logsumexp activation.\n\n$$\\log(sum e^x_i)$$","ref":"Axon.Activations.html#log_sumexp/2","title":"Axon.Activations.log_sumexp/2","type":"function"},{"doc":"iex> Axon.Activations.log_sumexp(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.log_sumexp(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#log_sumexp/2-examples","title":"Examples - Axon.Activations.log_sumexp/2","type":"function"},{"doc":"Mish activation.\n\n$$f(x_i) = x_i* \\tanh(\\log(1 + e^x_i))$$","ref":"Axon.Activations.html#mish/1","title":"Axon.Activations.mish/1","type":"function"},{"doc":"iex> Axon.Activations.mish(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], type: {:f, 32}, names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.mish(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#mish/1-examples","title":"Examples - Axon.Activations.mish/1","type":"function"},{"doc":"Rectified linear unit 6 activation.\n\n$$f(x_i) = \\min_i(\\max_i(x, 0), 6)$$","ref":"Axon.Activations.html#relu6/1","title":"Axon.Activations.relu6/1","type":"function"},{"doc":"iex> Axon.Activations.relu6(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.relu6(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#relu6/1-examples","title":"Examples - Axon.Activations.relu6/1","type":"function"},{"doc":"* [MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications](https://arxiv.org/abs/1704.04861v1)","ref":"Axon.Activations.html#relu6/1-references","title":"References - Axon.Activations.relu6/1","type":"function"},{"doc":"Rectified linear unit activation.\n\n$$f(x_i) = \\max_i(x, 0)$$","ref":"Axon.Activations.html#relu/1","title":"Axon.Activations.relu/1","type":"function"},{"doc":"iex> Axon.Activations.relu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.relu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#relu/1-examples","title":"Examples - Axon.Activations.relu/1","type":"function"},{"doc":"Scaled exponential linear unit activation.\n\n$$f(x_i) = \\begin{cases} \\lambda x & x \\geq 0 \\newline\n\\lambda \\alpha(e^{x} - 1) & x < 0 \\end{cases}$$\n\n$$\\alpha \\approx 1.6733$$\n$$\\lambda \\approx 1.0507$$","ref":"Axon.Activations.html#selu/2","title":"Axon.Activations.selu/2","type":"function"},{"doc":"iex> Axon.Activations.selu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.selu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#selu/2-examples","title":"Examples - Axon.Activations.selu/2","type":"function"},{"doc":"* [Self-Normalizing Neural Networks](https://arxiv.org/abs/1706.02515v5)","ref":"Axon.Activations.html#selu/2-references","title":"References - Axon.Activations.selu/2","type":"function"},{"doc":"Sigmoid activation.\n\n$$f(x_i) = \\frac{1}{1 + e^{-x_i}}$$\n\n**Implementation Note: Sigmoid logits are cached as metadata\nin the expression and can be used in calculations later on.\nFor example, they are used in cross-entropy calculations for\nbetter stability.**","ref":"Axon.Activations.html#sigmoid/1","title":"Axon.Activations.sigmoid/1","type":"function"},{"doc":"iex> Axon.Activations.sigmoid(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.sigmoid(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#sigmoid/1-examples","title":"Examples - Axon.Activations.sigmoid/1","type":"function"},{"doc":"Sigmoid weighted linear unit activation.\n\n$$f(x_i) = x * sigmoid(x)$$","ref":"Axon.Activations.html#silu/1","title":"Axon.Activations.silu/1","type":"function"},{"doc":"iex> Axon.Activations.silu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.silu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#silu/1-examples","title":"Examples - Axon.Activations.silu/1","type":"function"},{"doc":"* [Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning](https://arxiv.org/abs/1702.03118v3)","ref":"Axon.Activations.html#silu/1-references","title":"References - Axon.Activations.silu/1","type":"function"},{"doc":"Softmax activation along an axis.\n\n$$\\frac{e^{x_i}}{\\sum_i e^{x_i}}$$\n\n**Implementation Note: Softmax logits are cached as metadata\nin the expression and can be used in calculations later on.\nFor example, they are used in cross-entropy calculations for\nbetter stability.**","ref":"Axon.Activations.html#softmax/2","title":"Axon.Activations.softmax/2","type":"function"},{"doc":"* `:axis` - softmax axis along which to calculate distribution.\n    Defaults to 1.","ref":"Axon.Activations.html#softmax/2-options","title":"Options - Axon.Activations.softmax/2","type":"function"},{"doc":"iex> Axon.Activations.softmax(Nx.tensor([[-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0]], names: [:batch, :data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.softmax(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#softmax/2-examples","title":"Examples - Axon.Activations.softmax/2","type":"function"},{"doc":"Softplus activation.\n\n$$\\log(1 + e^x_i)$$","ref":"Axon.Activations.html#softplus/1","title":"Axon.Activations.softplus/1","type":"function"},{"doc":"iex> Axon.Activations.softplus(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.softplus(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#softplus/1-examples","title":"Examples - Axon.Activations.softplus/1","type":"function"},{"doc":"Softsign activation.\n\n$$f(x_i) = \\frac{x_i}{|x_i| + 1}$$","ref":"Axon.Activations.html#softsign/1","title":"Axon.Activations.softsign/1","type":"function"},{"doc":"iex> Axon.Activations.softsign(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.softsign(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#softsign/1-examples","title":"Examples - Axon.Activations.softsign/1","type":"function"},{"doc":"Hyperbolic tangent activation.\n\n$$f(x_i) = \\tanh(x_i)$$","ref":"Axon.Activations.html#tanh/1","title":"Axon.Activations.tanh/1","type":"function"},{"doc":"iex> Axon.Activations.tanh(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.tanh(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#tanh/1-examples","title":"Examples - Axon.Activations.tanh/1","type":"function"},{"doc":"Functional implementations of common neural network layer\noperations.\n\nLayers are the building blocks of neural networks. These\nfunctional implementations can be used to express higher-level\nconstructs using fundamental building blocks. Neural network\nlayers are stateful with respect to their parameters.\nThese implementations do not assume the responsibility of\nmanaging state - instead opting to delegate this responsibility\nto the caller.\n\nBasic neural networks can be seen as a composition of functions:\n\n    input\n    |> dense(w1, b1)\n    |> relu()\n    |> dense(w2, b2)\n    |> softmax()\n\nThese kinds of models are often referred to as deep feedforward networks\nor multilayer perceptrons (MLPs) because information flows forward\nthrough the network with no feedback connections. Mathematically,\na feedforward network can be represented as:\n\n  $$f(x) = f^{(3)}(f^{(2)}(f^{(1)}(x)))$$\n\nYou can see a similar pattern emerge if we condense the call stack\nin the previous example:\n\n    softmax(dense(relu(dense(input, w1, b1)), w2, b2))\n\nThe chain structure shown here is the most common structure used\nin neural networks. You can consider each function $f^{(n)}$ as a\n*layer* in the neural network - for example $f^{(2)} is the 2nd\nlayer in the network. The number of function calls in the\nstructure is the *depth* of the network. This is where the term\n*deep learning* comes from.\n\nNeural networks are often written as the mapping:\n\n  $$y = f(x; \\theta)$$\n\nWhere $x$ is the input to the neural network and $\\theta$ are the\nset of learned parameters. In Elixir, you would write this:\n\n    y = model(input, params)\n\nFrom the previous example, `params` would represent the collection:\n\n    {w1, b1, w2, b2}\n\nwhere `w1` and `w2` are layer *kernels*, and `b1` and `b2` are layer\n*biases*.","ref":"Axon.Layers.html","title":"Axon.Layers","type":"module"},{"doc":"Functional implementation of general dimensional adaptive average\npooling.\n\nAdaptive pooling allows you to specify the desired output size\nof the transformed input. This will automatically adapt the\nwindow size and strides to obtain the desired output size. It\nwill then perform average pooling using the calculated window\nsize and strides.\n\nAdaptive pooling can be useful when working on multiple inputs with\ndifferent spatial input shapes. You can guarantee the output of\nan adaptive pooling operation is always the same size regardless\nof input shape.","ref":"Axon.Layers.html#adaptive_avg_pool/2","title":"Axon.Layers.adaptive_avg_pool/2","type":"function"},{"doc":"* `:output_size` - spatial output size. Must be a tuple with\n    size equal to the spatial dimensions in the input tensor.\n    Required.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#adaptive_avg_pool/2-options","title":"Options - Axon.Layers.adaptive_avg_pool/2","type":"function"},{"doc":"Functional implementation of general dimensional adaptive power\naverage pooling.\n\nComputes:\n\n  $$f(X) =  qrt[p]{ um_{x in X} x^{p}}$$\n\nAdaptive pooling allows you to specify the desired output size\nof the transformed input. This will automatically adapt the\nwindow size and strides to obtain the desired output size. It\nwill then perform max pooling using the calculated window\nsize and strides.\n\nAdaptive pooling can be useful when working on multiple inputs with\ndifferent spatial input shapes. You can guarantee the output of\nan adaptive pooling operation is always the same size regardless\nof input shape.","ref":"Axon.Layers.html#adaptive_lp_pool/2","title":"Axon.Layers.adaptive_lp_pool/2","type":"function"},{"doc":"* `:norm` - $p$ from above equation. Defaults to 2.\n\n  * `:output_size` - spatial output size. Must be a tuple with\n    size equal to the spatial dimensions in the input tensor.\n    Required.","ref":"Axon.Layers.html#adaptive_lp_pool/2-options","title":"Options - Axon.Layers.adaptive_lp_pool/2","type":"function"},{"doc":"Functional implementation of general dimensional adaptive max\npooling.\n\nAdaptive pooling allows you to specify the desired output size\nof the transformed input. This will automatically adapt the\nwindow size and strides to obtain the desired output size. It\nwill then perform max pooling using the calculated window\nsize and strides.\n\nAdaptive pooling can be useful when working on multiple inputs with\ndifferent spatial input shapes. You can guarantee the output of\nan adaptive pooling operation is always the same size regardless\nof input shape.","ref":"Axon.Layers.html#adaptive_max_pool/2","title":"Axon.Layers.adaptive_max_pool/2","type":"function"},{"doc":"* `:output_size` - spatial output size. Must be a tuple with\n    size equal to the spatial dimensions in the input tensor.\n    Required.","ref":"Axon.Layers.html#adaptive_max_pool/2-options","title":"Options - Axon.Layers.adaptive_max_pool/2","type":"function"},{"doc":"Functional implementation of an alpha dropout layer.\n\nAlpha dropout is a type of dropout that forces the input\nto have zero mean and unit standard deviation. Randomly\nmasks some elements and scales to enforce self-normalization.","ref":"Axon.Layers.html#alpha_dropout/3","title":"Axon.Layers.alpha_dropout/3","type":"function"},{"doc":"* `:rate` - dropout rate. Used to determine probability a connection\n    will be dropped. Required.\n\n  * `:noise_shape` - input noise shape. Shape of `mask` which can be useful\n    for broadcasting `mask` across feature channels or other dimensions.\n    Defaults to shape of input tensor.","ref":"Axon.Layers.html#alpha_dropout/3-options","title":"Options - Axon.Layers.alpha_dropout/3","type":"function"},{"doc":"* [Self-Normalizing Neural Networks](https://arxiv.org/abs/1706.02515)","ref":"Axon.Layers.html#alpha_dropout/3-references","title":"References - Axon.Layers.alpha_dropout/3","type":"function"},{"doc":"A general dimensional functional average pooling layer.\n\nPooling is applied to the spatial dimension of the input tensor.\nAverage pooling returns the average of all elements in valid\nwindows in the input tensor. It is often used after convolutional\nlayers to downsample the input even further.","ref":"Axon.Layers.html#avg_pool/2","title":"Axon.Layers.avg_pool/2","type":"function"},{"doc":"* `kernel_size` - window size. Rank must match spatial dimension\n    of the input tensor. Required.\n\n  * `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:window_dilations` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Can be scalar or list who's length matches the number of\n    spatial dimensions in the input tensor. Defaults to `1` or no\n    dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#avg_pool/2-options","title":"Options - Axon.Layers.avg_pool/2","type":"function"},{"doc":"Functional implementation of batch normalization.\n\nNormalizes the input by calculating mean and variance of the\ninput tensor along every dimension but the given `:channel_index`,\nand then scaling according to:\n\n$$y = \\frac{x - E[x]}{\\sqrt{Var[x] + \\epsilon}} * \\gamma + \\beta$$\n\n`gamma` and `beta` are often trainable parameters. If `training?` is\ntrue, this method will compute a new mean and variance, and return\nthe updated `ra_mean` and `ra_var`. Otherwise, it will just compute\nbatch norm from the given ra_mean and ra_var.","ref":"Axon.Layers.html#batch_norm/6","title":"Axon.Layers.batch_norm/6","type":"function"},{"doc":"* `:epsilon` - numerical stability term. $epsilon$ in the above\n    formulation.\n\n  * `:channel_index` - channel index used to determine reduction\n    axes for mean and variance calculation.\n\n  * `:momentum` - momentum to use for EMA update.\n\n  * `:mode` - if `:train`, uses training mode batch norm. Defaults to `:inference`.","ref":"Axon.Layers.html#batch_norm/6-options","title":"Options - Axon.Layers.batch_norm/6","type":"function"},{"doc":"* [Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift](https://arxiv.org/abs/1502.03167)","ref":"Axon.Layers.html#batch_norm/6-references","title":"References - Axon.Layers.batch_norm/6","type":"function"},{"doc":"Functional implementation of a bilinear layer.\n\nBilinear transformation of the input such that:\n\n$$y = x_1^{T}Ax_2 + b$$","ref":"Axon.Layers.html#bilinear/5","title":"Axon.Layers.bilinear/5","type":"function"},{"doc":"* `input1` - `{batch_size, ..., input1_features}`\n  * `input2` - `{batch_size, ..., input2_features}`\n  * `kernel` - `{out_features, input1_features, input2_features}`","ref":"Axon.Layers.html#bilinear/5-parameter-shapes","title":"Parameter Shapes - Axon.Layers.bilinear/5","type":"function"},{"doc":"`{batch_size, ..., output_features}`","ref":"Axon.Layers.html#bilinear/5-output-shape","title":"Output Shape - Axon.Layers.bilinear/5","type":"function"},{"doc":"iex> inp1 = Nx.iota({3, 2}, type: {:f, 32})\n    iex> inp2 = Nx.iota({3, 4}, type: {:f, 32})\n    iex> kernel = Nx.iota({1, 2, 4}, type: {:f, 32})\n    iex> bias = Nx.tensor(1.0)\n    iex> Axon.Layers.bilinear(inp1, inp2, kernel, bias)\n    #Nx.Tensor","ref":"Axon.Layers.html#bilinear/5-examples","title":"Examples - Axon.Layers.bilinear/5","type":"function"},{"doc":"Functional implementation of a 2-dimensional blur pooling layer.\n\nBlur pooling applies a spatial low-pass filter to the input. It is\noften applied before pooling and convolutional layers as a way to\nincrease model accuracy without much additional computation cost.\n\nThe blur pooling implementation follows from [MosaicML](https://github.com/mosaicml/composer/blob/dev/composer/algorithms/blurpool/blurpool_layers.py).","ref":"Axon.Layers.html#blur_pool/2","title":"Axon.Layers.blur_pool/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#celu/2","title":"Axon.Layers.celu/2","type":"function"},{"doc":"Functional implementation of a general dimensional convolutional\nlayer.\n\nConvolutional layers can be described as applying a convolution\nover an input signal composed of several input planes. Intuitively,\nthe input kernel slides `output_channels` number of filters over\nthe input tensor to extract features from the input tensor.\n\nConvolutional layers are most commonly used in computer vision,\nbut can also be useful when working with sequences and other input signals.","ref":"Axon.Layers.html#conv/4","title":"Axon.Layers.conv/4","type":"function"},{"doc":"* `input` - `{batch_size, input_channels, input_spatial0, ..., input_spatialN}`\n  * `kernel` - `{output_channels, input_channels, kernel_spatial0, ..., kernel_spatialN}`\n  * `bias` - `{}` or `{output_channels}`","ref":"Axon.Layers.html#conv/4-parameter-shapes","title":"Parameter Shapes - Axon.Layers.conv/4","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#conv/4-options","title":"Options - Axon.Layers.conv/4","type":"function"},{"doc":"#","ref":"Axon.Layers.html#conv/4-examples","title":"Examples - Axon.Layers.conv/4","type":"function"},{"doc":"iex> input = Nx.tensor([[[0.1294, -0.6638, 1.0251]], [[ 0.9182,  1.1512, -1.6149]]], type: {:f, 32})\n    iex> kernel = Nx.tensor([[[-1.5475, 1.2425]], [[0.1871, 0.5458]], [[-0.4488,  0.8879]]], type: {:f, 32})\n    iex> bias = Nx.tensor([0.7791, 0.1676, 1.5971], type: {:f, 32})\n    iex> Axon.Layers.conv(input, kernel, bias, channels: :first)\n    #Nx.Tensor \n\n#","ref":"Axon.Layers.html#conv/4-one-dimensional-convolution","title":"One-dimensional convolution - Axon.Layers.conv/4","type":"function"},{"doc":"iex> input = Nx.tensor([[[[-1.0476, -0.5041], [-0.9336, 1.5907]]]], type: {:f, 32})\n    iex> kernel = Nx.tensor([\n    ...>  [[[0.7514, 0.7356], [1.3909,  0.6800]]],\n    ...>  [[[-0.3450,  0.4551], [-0.6275, -0.9875]]],\n    ...>  [[[1.8587, 0.4722], [0.6058, -1.0301]]]\n    ...> ], type: {:f, 32})\n    iex> bias = Nx.tensor([1.9564, 0.2822, -0.5385], type: {:f, 32})\n    iex> Axon.Layers.conv(input, kernel, bias, channels: :first)\n    #Nx.Tensor \n\n#","ref":"Axon.Layers.html#conv/4-two-dimensional-convolution","title":"Two-dimensional convolution - Axon.Layers.conv/4","type":"function"},{"doc":"iex> input = Nx.tensor([[[[[-0.6497], [1.0939]], [[-2.5465], [0.7801]]]]], type: {:f, 32})\n    iex> kernel = Nx.tensor([\n    ...>  [[[[ 0.7390], [-0.0927]], [[-0.8675], [-0.9209]]]],\n    ...>  [[[[-0.6638], [0.4341]], [[0.6368], [1.1846]]]]\n    ...> ], type: {:f, 32})\n    iex> bias = Nx.tensor([-0.4101,  0.1776], type: {:f, 32})\n    iex> Axon.Layers.conv(input, kernel, bias, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#conv/4-three-dimensional-convolution","title":"Three-dimensional convolution - Axon.Layers.conv/4","type":"function"},{"doc":"","ref":"Axon.Layers.html#conv_lstm/7","title":"Axon.Layers.conv_lstm/7","type":"function"},{"doc":"ConvLSTM Cell.\n\nWhen combined with `Axon.Layers.*_unroll`, implements a\nConvLSTM-based RNN. More memory efficient than traditional LSTM.","ref":"Axon.Layers.html#conv_lstm_cell/7","title":"Axon.Layers.conv_lstm_cell/7","type":"function"},{"doc":"* `:strides` - convolution strides. Defaults to `1`.\n\n  * `:padding` - convolution padding. Defaults to `:same`.","ref":"Axon.Layers.html#conv_lstm_cell/7-options","title":"Options - Axon.Layers.conv_lstm_cell/7","type":"function"},{"doc":"* [Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting](https://arxiv.org/abs/1506.04214)","ref":"Axon.Layers.html#conv_lstm_cell/7-references","title":"References - Axon.Layers.conv_lstm_cell/7","type":"function"},{"doc":"Functional implementation of a general dimensional transposed\nconvolutional layer.\n\n*Note: This layer is currently implemented as a fractionally strided\nconvolution by padding the input tensor. Please open an issue if you'd\nlike this behavior changed.*\n\nTransposed convolutions are sometimes (incorrectly) referred to as\ndeconvolutions because it \"reverses\" the spatial dimensions\nof a normal convolution. Transposed convolutions are a form of upsampling -\nthey produce larger spatial dimensions than the input tensor. They\ncan be thought of as a convolution in reverse - and are sometimes\nimplemented as the backward pass of a normal convolution.","ref":"Axon.Layers.html#conv_transpose/4","title":"Axon.Layers.conv_transpose/4","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#conv_transpose/4-options","title":"Options - Axon.Layers.conv_transpose/4","type":"function"},{"doc":"iex> input = Nx.iota({1, 3, 3}, type: {:f, 32})\n    iex> kernel = Nx.iota({6, 3, 2}, type: {:f, 32})\n    iex> bias = Nx.tensor(1.0, type: {:f, 32})\n    iex> Axon.Layers.conv_transpose(input, kernel, bias, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#conv_transpose/4-examples","title":"Examples - Axon.Layers.conv_transpose/4","type":"function"},{"doc":"* [A guide to convolution arithmetic for deep learning](https://arxiv.org/abs/1603.07285v1)\n  * [Deconvolutional Networks](https://www.matthewzeiler.com/mattzeiler/deconvolutionalnetworks.pdf)","ref":"Axon.Layers.html#conv_transpose/4-references","title":"References - Axon.Layers.conv_transpose/4","type":"function"},{"doc":"Functional implementation of a dense layer.\n\nLinear transformation of the input such that:\n\n$$y = xW^T + b$$\n\nA dense layer or fully connected layer transforms\nthe input using the given kernel matrix and bias\nto compute:\n\n    Nx.dot(input, kernel) + bias\n\nTypically, both `kernel` and `bias` are learnable\nparameters trained using gradient-based optimization.","ref":"Axon.Layers.html#dense/4","title":"Axon.Layers.dense/4","type":"function"},{"doc":"* `input` - `{batch_size, * input_features}`\n  * `kernel` - `{input_features, output_features}`\n  * `bias` - `{}` or `{output_features}`","ref":"Axon.Layers.html#dense/4-parameter-shapes","title":"Parameter Shapes - Axon.Layers.dense/4","type":"function"},{"doc":"`{batch_size, *, output_features}`","ref":"Axon.Layers.html#dense/4-output-shape","title":"Output Shape - Axon.Layers.dense/4","type":"function"},{"doc":"iex> input = Nx.tensor([[1.0, 0.5, 1.0, 0.5], [0.0, 0.0, 0.0, 0.0]], type: {:f, 32})\n    iex> kernel = Nx.tensor([[0.2], [0.3], [0.5], [0.8]], type: {:f, 32})\n    iex> bias = Nx.tensor([1.0], type: {:f, 32})\n    iex> Axon.Layers.dense(input, kernel, bias)\n    #Nx.Tensor","ref":"Axon.Layers.html#dense/4-examples","title":"Examples - Axon.Layers.dense/4","type":"function"},{"doc":"Functional implementation of a general dimensional depthwise\nconvolution.\n\nDepthwise convolutions apply a single convolutional filter to\neach input channel. This is done by setting `feature_group_size`\nequal to the number of input channels. This will split the\n`output_channels` into `input_channels` number of groups and\nconvolve the grouped kernel channels over the corresponding input\nchannel.","ref":"Axon.Layers.html#depthwise_conv/4","title":"Axon.Layers.depthwise_conv/4","type":"function"},{"doc":"* `input` - `{batch_size, input_channels, input_spatial0, ..., input_spatialN}`\n  * `kernel` - `{output_channels, 1, kernel_spatial0, ..., kernel_spatialN}`\n  * `bias` - `{output_channels}` or `{}`\n\n  `output_channels` must be a multiple of the input channels.","ref":"Axon.Layers.html#depthwise_conv/4-parameter-shapes","title":"Parameter Shapes - Axon.Layers.depthwise_conv/4","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#depthwise_conv/4-options","title":"Options - Axon.Layers.depthwise_conv/4","type":"function"},{"doc":"Functional implementation of a dropout layer.\n\nApplies a mask to some elements of the input tensor with probability\n`rate` and scales the input tensor by a factor of $\\frac{1}{1 - rate}$.\n\nDropout is a form of regularization that helps prevent overfitting\nby preventing models from becoming too reliant on certain connections.\nDropout can somewhat be thought of as learning an ensemble of models\nwith random connections masked.","ref":"Axon.Layers.html#dropout/3","title":"Axon.Layers.dropout/3","type":"function"},{"doc":"* `:rate` - dropout rate. Used to determine probability a connection\n    will be dropped. Required.\n\n  * `:noise_shape` - input noise shape. Shape of `mask` which can be useful\n    for broadcasting `mask` across feature channels or other dimensions.\n    Defaults to shape of input tensor.","ref":"Axon.Layers.html#dropout/3-options","title":"Options - Axon.Layers.dropout/3","type":"function"},{"doc":"* [Dropout: A Simple Way to Prevent Neural Networks from Overfitting](https://jmlr.org/papers/v15/srivastava14a.html)","ref":"Axon.Layers.html#dropout/3-references","title":"References - Axon.Layers.dropout/3","type":"function"},{"doc":"Dynamically unrolls an RNN.\n\nUnrolls implement a `scan` operation which applies a\ntransformation on the leading axis of `input_sequence` carrying\nsome state. In this instance `cell_fn` is an RNN cell function\nsuch as `lstm_cell` or `gru_cell`.\n\nThis function will make use of an `defn` while-loop such and thus\nmay be more efficient for long sequences.","ref":"Axon.Layers.html#dynamic_unroll/7","title":"Axon.Layers.dynamic_unroll/7","type":"function"},{"doc":"","ref":"Axon.Layers.html#elu/2","title":"Axon.Layers.elu/2","type":"function"},{"doc":"Computes embedding by treating kernel matrix as a lookup table\nfor discrete tokens.\n\n`input` is a vector of discrete values, typically representing tokens\n(e.g. words, characters, etc.) from a vocabulary. `kernel` is a kernel\nmatrix of shape `{vocab_size, embedding_size}` from which the dense\nembeddings will be drawn.","ref":"Axon.Layers.html#embedding/3","title":"Axon.Layers.embedding/3","type":"function"},{"doc":"* `input` - `{batch_size, ..., seq_len}`\n  * `kernel` - `{vocab_size, embedding_size}`","ref":"Axon.Layers.html#embedding/3-parameter-shapes","title":"Parameter Shapes - Axon.Layers.embedding/3","type":"function"},{"doc":"iex> input = Nx.tensor([[1, 2, 4, 5], [4, 3, 2, 9]])\n    iex> kernels = Nx.tensor([\n    ...>  [0.46299999952316284, 0.5562999844551086, 0.18170000612735748],\n    ...>  [0.9801999926567078, 0.09780000150203705, 0.5333999991416931],\n    ...>  [0.6980000138282776, 0.9240999817848206, 0.23479999601840973],\n    ...>  [0.31929999589920044, 0.42250001430511475, 0.7865999937057495],\n    ...>  [0.5519000291824341, 0.5662999749183655, 0.20559999346733093],\n    ...>  [0.1898999959230423, 0.9311000108718872, 0.8356000185012817],\n    ...>  [0.6383000016212463, 0.8794000148773193, 0.5282999873161316],\n    ...>  [0.9523000121116638, 0.7597000002861023, 0.08250000327825546],\n    ...>  [0.6622999906539917, 0.02329999953508377, 0.8205999732017517],\n    ...>  [0.9855999946594238, 0.36419999599456787, 0.5372999906539917]\n    ...> ])\n    iex> Axon.Layers.embedding(input, kernels)\n    #Nx.Tensor","ref":"Axon.Layers.html#embedding/3-examples","title":"Examples - Axon.Layers.embedding/3","type":"function"},{"doc":"Functional implementation of a feature alpha dropout layer.\n\nFeature alpha dropout applies dropout in the same manner as\nspatial dropout; however, it also enforces self-normalization\nby masking inputs with the SELU activation function and scaling\nunmasked inputs.","ref":"Axon.Layers.html#feature_alpha_dropout/3","title":"Axon.Layers.feature_alpha_dropout/3","type":"function"},{"doc":"* `:rate` - dropout rate. Used to determine probability a connection\n    will be dropped. Required.\n\n  * `:noise_shape` - input noise shape. Shape of `mask` which can be useful\n    for broadcasting `mask` across feature channels or other dimensions.\n    Defaults to shape of input tensor.","ref":"Axon.Layers.html#feature_alpha_dropout/3-options","title":"Options - Axon.Layers.feature_alpha_dropout/3","type":"function"},{"doc":"Flattens input to shape of `{batch, units}` by folding outer\ndimensions.","ref":"Axon.Layers.html#flatten/2","title":"Axon.Layers.flatten/2","type":"function"},{"doc":"iex> Axon.Layers.flatten(Nx.iota({1, 2, 2}, type: {:f, 32}))\n    #Nx.Tensor","ref":"Axon.Layers.html#flatten/2-examples","title":"Examples - Axon.Layers.flatten/2","type":"function"},{"doc":"Functional implementation of global average pooling which averages across\nthe spatial dimensions of the input such that the only remaining dimensions\nare the batch and feature dimensions.\n\nAssumes data is configured in a channels-first like format.","ref":"Axon.Layers.html#global_avg_pool/2","title":"Axon.Layers.global_avg_pool/2","type":"function"},{"doc":"* `input` - {batch_size, features, s1, ..., sN}","ref":"Axon.Layers.html#global_avg_pool/2-parameter-shapes","title":"Parameter Shapes - Axon.Layers.global_avg_pool/2","type":"function"},{"doc":"* `:keep_axes` - option to keep reduced axes with size 1 for each reduced\n    dimensions. Defaults to `false`","ref":"Axon.Layers.html#global_avg_pool/2-options","title":"Options - Axon.Layers.global_avg_pool/2","type":"function"},{"doc":"iex> Axon.Layers.global_avg_pool(Nx.iota({3, 2, 3}, type: {:f, 32}), channels: :first)\n    #Nx.Tensor \n\n    iex> Axon.Layers.global_avg_pool(Nx.iota({1, 3, 2, 2}, type: {:f, 32}), channels: :first, keep_axes: true)\n    #Nx.Tensor","ref":"Axon.Layers.html#global_avg_pool/2-examples","title":"Examples - Axon.Layers.global_avg_pool/2","type":"function"},{"doc":"Functional implementation of global LP pooling which computes the following\nfunction across spatial dimensions of the input:\n\n  $$f(X) =  qrt[p]{ um_{x in X} x^{p}}$$\n\nWhere $p$ is given by the keyword argument `:norm`. As $p$ approaches\ninfinity, it becomes equivalent to max pooling.\n\nAssumes data is configured in a channels-first like format.","ref":"Axon.Layers.html#global_lp_pool/2","title":"Axon.Layers.global_lp_pool/2","type":"function"},{"doc":"* `input` - {batch_size, s1, ..., sN, features}","ref":"Axon.Layers.html#global_lp_pool/2-parameter-shapes","title":"Parameter Shapes - Axon.Layers.global_lp_pool/2","type":"function"},{"doc":"* `:keep_axes` - option to keep reduced axes with size 1 for each reduced\n    dimensions. Defaults to `false`\n  * `:norm` - $p$ in above function. Defaults to 2","ref":"Axon.Layers.html#global_lp_pool/2-options","title":"Options - Axon.Layers.global_lp_pool/2","type":"function"},{"doc":"iex> Axon.Layers.global_lp_pool(Nx.iota({3, 2, 3}, type: {:f, 32}), norm: 1, channels: :first)\n    #Nx.Tensor \n\n    iex> Axon.Layers.global_lp_pool(Nx.iota({1, 3, 2, 2}, type: {:f, 16}), keep_axes: true, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#global_lp_pool/2-examples","title":"Examples - Axon.Layers.global_lp_pool/2","type":"function"},{"doc":"Functional implementation of global max pooling which computes maximums across\nthe spatial dimensions of the input such that the only remaining dimensions are\nthe batch and feature dimensions.\n\nAssumes data is configured in a channels-first like format.","ref":"Axon.Layers.html#global_max_pool/2","title":"Axon.Layers.global_max_pool/2","type":"function"},{"doc":"* `input` - {batch_size, s1, ..., sN, features}","ref":"Axon.Layers.html#global_max_pool/2-parameter-shapes","title":"Parameter Shapes - Axon.Layers.global_max_pool/2","type":"function"},{"doc":"* `:keep_axes` - option to keep reduced axes with size 1 for each reduced\n    dimensions. Defaults to `false`","ref":"Axon.Layers.html#global_max_pool/2-options","title":"Options - Axon.Layers.global_max_pool/2","type":"function"},{"doc":"iex> Axon.Layers.global_max_pool(Nx.iota({3, 2, 3}, type: {:f, 32}), channels: :first)\n    #Nx.Tensor \n\n    iex> Axon.Layers.global_max_pool(Nx.iota({1, 3, 2, 2}, type: {:f, 32}), keep_axes: true, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#global_max_pool/2-examples","title":"Examples - Axon.Layers.global_max_pool/2","type":"function"},{"doc":"Functional implementation of group normalization.\n\nNormalizes the input by reshaping input into `:num_groups`\ngroups and then calculating the mean and variance along\nevery dimension but the input batch dimension.\n\n$$y = \\frac{x - E[x]}{\\sqrt{Var[x] + \\epsilon}} * \\gamma + \\beta$$\n\n`gamma` and `beta` are often trainable parameters. This method does\nnot maintain an EMA of mean and variance.","ref":"Axon.Layers.html#group_norm/4","title":"Axon.Layers.group_norm/4","type":"function"},{"doc":"* `:num_groups` - Number of groups.\n\n  * `:epsilon` - numerical stability term. $epsilon$ in the above\n    formulation.\n\n  * `:channel_index` - channel index used to determine reduction\n    axes and group shape for mean and variance calculation.","ref":"Axon.Layers.html#group_norm/4-options","title":"Options - Axon.Layers.group_norm/4","type":"function"},{"doc":"* [Group Normalization](https://arxiv.org/abs/1803.08494v3)","ref":"Axon.Layers.html#group_norm/4-references","title":"References - Axon.Layers.group_norm/4","type":"function"},{"doc":"","ref":"Axon.Layers.html#gru/7","title":"Axon.Layers.gru/7","type":"function"},{"doc":"GRU Cell.\n\nWhen combined with `Axon.Layers.*_unroll`, implements a\nGRU-based RNN. More memory efficient than traditional LSTM.","ref":"Axon.Layers.html#gru_cell/8","title":"Axon.Layers.gru_cell/8","type":"function"},{"doc":"* [Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling](https://arxiv.org/pdf/1412.3555v1.pdf)","ref":"Axon.Layers.html#gru_cell/8-references","title":"References - Axon.Layers.gru_cell/8","type":"function"},{"doc":"","ref":"Axon.Layers.html#hard_sigmoid/2","title":"Axon.Layers.hard_sigmoid/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#hard_silu/2","title":"Axon.Layers.hard_silu/2","type":"function"},{"doc":"Functional implementation of instance normalization.\n\nNormalizes the input by calculating mean and variance of the\ninput tensor along the spatial dimensions of the input.\n\n$$y = \\frac{x - E[x]}{\\sqrt{Var[x] + \\epsilon}} * \\gamma + \\beta$$\n\n`gamma` and `beta` are often trainable parameters. If `training?` is\ntrue, this method will compute a new mean and variance, and return\nthe updated `ra_mean` and `ra_var`. Otherwise, it will just compute\nbatch norm from the given ra_mean and ra_var.","ref":"Axon.Layers.html#instance_norm/6","title":"Axon.Layers.instance_norm/6","type":"function"},{"doc":"* `:epsilon` - numerical stability term. $epsilon$ in the above\n    formulation.\n\n  * `:channel_index` - channel index used to determine reduction\n    axes for mean and variance calculation.\n\n  * `:momentum` - momentum to use for EMA update.\n\n  * `:training?` - if true, uses training mode batch norm. Defaults to false.","ref":"Axon.Layers.html#instance_norm/6-options","title":"Options - Axon.Layers.instance_norm/6","type":"function"},{"doc":"* [Instance Normalization: The Missing Ingredient for Fast Stylization](https://arxiv.org/abs/1607.08022v3)","ref":"Axon.Layers.html#instance_norm/6-references","title":"References - Axon.Layers.instance_norm/6","type":"function"},{"doc":"Functional implementation of layer normalization.\n\nNormalizes the input by calculating mean and variance of the\ninput tensor along the given feature dimension `:channel_index`.\n\n$$y = \\frac{x - E[x]}{\\sqrt{Var[x] + \\epsilon}} * \\gamma + \\beta$$\n\n`gamma` and `beta` are often trainable parameters. This method does\nnot maintain an EMA of mean and variance.","ref":"Axon.Layers.html#layer_norm/4","title":"Axon.Layers.layer_norm/4","type":"function"},{"doc":"* `:epsilon` - numerical stability term. $epsilon$ in the above\n    formulation.\n\n  * `:channel_index` - channel index used to determine reduction\n    axes for mean and variance calculation.","ref":"Axon.Layers.html#layer_norm/4-options","title":"Options - Axon.Layers.layer_norm/4","type":"function"},{"doc":"","ref":"Axon.Layers.html#leaky_relu/2","title":"Axon.Layers.leaky_relu/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#log_softmax/2","title":"Axon.Layers.log_softmax/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#log_sumexp/2","title":"Axon.Layers.log_sumexp/2","type":"function"},{"doc":"Functional implementation of a general dimensional power average\npooling layer.\n\nPooling is applied to the spatial dimension of the input tensor.\nPower average pooling computes the following function on each\nvalid window of the input tensor:\n\n$$f(X) = \\sqrt[p]{\\sum_{x \\in X} x^{p}}$$\n\nWhere $p$ is given by the keyword argument `:norm`. As $p$ approaches\ninfinity, it becomes equivalent to max pooling.","ref":"Axon.Layers.html#lp_pool/2","title":"Axon.Layers.lp_pool/2","type":"function"},{"doc":"* `:norm` - $p$ from above equation. Defaults to 2.\n\n  * `:kernel_size` - window size. Rank must match spatial dimension\n    of the input tensor. Required.\n\n  * `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to size of kernel.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:window_dilations` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Can be scalar or list who's length matches the number of\n    spatial dimensions in the input tensor. Defaults to `1` or no\n    dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#lp_pool/2-options","title":"Options - Axon.Layers.lp_pool/2","type":"function"},{"doc":"iex> t = Nx.tensor([[[0.9450, 0.4684, 1.8146], [1.2663, 0.4354, -0.0781], [-0.4759, 0.3251, 0.8742]]], type: {:f, 32})\n    iex> Axon.Layers.lp_pool(t, kernel_size: 2, norm: 2, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#lp_pool/2-examples","title":"Examples - Axon.Layers.lp_pool/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#lstm/7","title":"Axon.Layers.lstm/7","type":"function"},{"doc":"LSTM Cell.\n\nWhen combined with `Axon.Layers.*_unroll`, implements a\nLSTM-based RNN. More memory efficient than traditional LSTM.","ref":"Axon.Layers.html#lstm_cell/8","title":"Axon.Layers.lstm_cell/8","type":"function"},{"doc":"* [Long Short-Term Memory](http://www.bioinf.jku.at/publications/older/2604.pdf)","ref":"Axon.Layers.html#lstm_cell/8-references","title":"References - Axon.Layers.lstm_cell/8","type":"function"},{"doc":"Functional implementation of a general dimensional max pooling layer.\n\nPooling is applied to the spatial dimension of the input tensor.\nMax pooling returns the maximum element in each valid window of\nthe input tensor. It is often used after convolutional layers\nto downsample the input even further.","ref":"Axon.Layers.html#max_pool/2","title":"Axon.Layers.max_pool/2","type":"function"},{"doc":"* `kernel_size` - window size. Rank must match spatial dimension\n    of the input tensor. Required.\n\n  * `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to size of kernel.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:window_dilations` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Can be scalar or list who's length matches the number of\n    spatial dimensions in the input tensor. Defaults to `1` or no\n    dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#max_pool/2-options","title":"Options - Axon.Layers.max_pool/2","type":"function"},{"doc":"iex> t = Nx.tensor([[\n    ...> [0.051500000059604645, -0.7042999863624573, -0.32899999618530273],\n    ...> [-0.37130001187324524, 1.6191999912261963, -0.11829999834299088],\n    ...> [0.7099999785423279, 0.7282999753952026, -0.18639999628067017]]], type: {:f, 32})\n    iex> Axon.Layers.max_pool(t, kernel_size: 2, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#max_pool/2-examples","title":"Examples - Axon.Layers.max_pool/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#multiply/2","title":"Axon.Layers.multiply/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#padding_config_transform/2","title":"Axon.Layers.padding_config_transform/2","type":"function"},{"doc":"Resizes a batch of tensors to the given shape using one of a\nnumber of sampling methods.\n\nRequires input option `:size` which should be a tuple specifying\nthe resized spatial dimensions of the input tensor. Input tensor\nmust be at least rank 3, with fixed `batch` and `channel` dimensions.\nResizing will upsample or downsample using the given resize method.","ref":"Axon.Layers.html#resize/2","title":"Axon.Layers.resize/2","type":"function"},{"doc":"* `:size` - a tuple specifying the resized spatial dimensions.\n    Required.\n\n  * `:method` - the resizing method to use, either of `:nearest`,\n    `:bilinear`, `:bicubic`, `:lanczos3`, `:lanczos5`. Defaults to\n    `:nearest`.\n\n  * `:antialias` - whether an anti-aliasing filter should be used\n    when downsampling. This has no effect with upsampling. Defaults\n    to `true`.\n\n  * `:channels` - channels location, either `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#resize/2-options","title":"Options - Axon.Layers.resize/2","type":"function"},{"doc":"iex> img = Nx.iota({1, 1, 3, 3}, type: {:f, 32})\n    iex> Axon.Layers.resize(img, size: {4, 4}, channels: :first)\n    #Nx.Tensor \n\n#","ref":"Axon.Layers.html#resize/2-examples","title":"Examples - Axon.Layers.resize/2","type":"function"},{"doc":"iex> img = Nx.iota({1, 1, 3, 3}, type: {:f, 32})\n    iex> Axon.Layers.resize(img, size: {4, 4}, method: :foo)\n    ** (ArgumentError) expected :method to be either of :nearest, :bilinear, :bicubic, :lanczos3, :lanczos5, got: :foo","ref":"Axon.Layers.html#resize/2-error-cases","title":"Error cases - Axon.Layers.resize/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#selu/2","title":"Axon.Layers.selu/2","type":"function"},{"doc":"Functional implementation of a 2-dimensional separable depthwise\nconvolution.\n\nThe 2-d depthwise separable convolution performs 2 depthwise convolutions\neach over 1 spatial dimension of the input.","ref":"Axon.Layers.html#separable_conv2d/6","title":"Axon.Layers.separable_conv2d/6","type":"function"},{"doc":"* `input` - `{batch_size, input_channels, input_spatial0, ..., input_spatialN}`\n  * `k1` - `{output_channels, 1, kernel_spatial0, 1}`\n  * `b1` - `{output_channels}` or `{}`\n  * `k2` - `{output_channels, 1, 1, kernel_spatial1}`\n  * `b2` - `{output_channels}` or `{}`\n\n  `output_channels` must be a multiple of the input channels.","ref":"Axon.Layers.html#separable_conv2d/6-parameter-shapes","title":"Parameter Shapes - Axon.Layers.separable_conv2d/6","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#separable_conv2d/6-options","title":"Options - Axon.Layers.separable_conv2d/6","type":"function"},{"doc":"* [Xception: Deep Learning with Depthwise Separable Convolutions](https://arxiv.org/abs/1610.02357)","ref":"Axon.Layers.html#separable_conv2d/6-references","title":"References - Axon.Layers.separable_conv2d/6","type":"function"},{"doc":"Functional implementation of a 3-dimensional separable depthwise\nconvolution.\n\nThe 3-d depthwise separable convolution performs 3 depthwise convolutions\neach over 1 spatial dimension of the input.","ref":"Axon.Layers.html#separable_conv3d/8","title":"Axon.Layers.separable_conv3d/8","type":"function"},{"doc":"* `input` - `{batch_size, input_channels, input_spatial0, input_spatial1, input_spatial2}`\n  * `k1` - `{output_channels, 1, kernel_spatial0, 1, 1}`\n  * `b1` - `{output_channels}` or `{}`\n  * `k2` - `{output_channels, 1, 1, kernel_spatial1, 1}`\n  * `b2` - `{output_channels}` or `{}`\n  * `k3` - `{output_channels, 1, 1, 1, 1, kernel_spatial2}`\n  * `b3` - `{output_channels}` or `{}`\n\n  `output_channels` must be a multiple of the input channels.","ref":"Axon.Layers.html#separable_conv3d/8-parameter-shapes","title":"Parameter Shapes - Axon.Layers.separable_conv3d/8","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#separable_conv3d/8-options","title":"Options - Axon.Layers.separable_conv3d/8","type":"function"},{"doc":"* [Xception: Deep Learning with Depthwise Separable Convolutions](https://arxiv.org/abs/1610.02357)","ref":"Axon.Layers.html#separable_conv3d/8-references","title":"References - Axon.Layers.separable_conv3d/8","type":"function"},{"doc":"","ref":"Axon.Layers.html#softmax/2","title":"Axon.Layers.softmax/2","type":"function"},{"doc":"Functional implementation of an n-dimensional spatial\ndropout layer.\n\nApplies a mask to entire feature maps instead of individual\nelements. This is done by calculating a mask shape equal to\nthe spatial dimensions of the input tensor with 1 channel,\nand then broadcasting the mask across the feature dimension\nof the input tensor.","ref":"Axon.Layers.html#spatial_dropout/3","title":"Axon.Layers.spatial_dropout/3","type":"function"},{"doc":"* `:rate` - dropout rate. Used to determine probability a connection\n    will be dropped. Required.\n\n  * `:noise_shape` - input noise shape. Shape of `mask` which can be useful\n    for broadcasting `mask` across feature channels or other dimensions.\n    Defaults to shape of input tensor.","ref":"Axon.Layers.html#spatial_dropout/3-options","title":"Options - Axon.Layers.spatial_dropout/3","type":"function"},{"doc":"* [Efficient Object Localization Using Convolutional Networks](https://arxiv.org/abs/1411.4280)","ref":"Axon.Layers.html#spatial_dropout/3-references","title":"References - Axon.Layers.spatial_dropout/3","type":"function"},{"doc":"Statically unrolls an RNN.\n\nUnrolls implement a `scan` operation which applies a\ntransformation on the leading axis of `input_sequence` carrying\nsome state. In this instance `cell_fn` is an RNN cell function\nsuch as `lstm_cell` or `gru_cell`.\n\nThis function inlines the unrolling of the sequence such that\nthe entire operation appears as a part of the compilation graph.\nThis makes it suitable for shorter sequences.","ref":"Axon.Layers.html#static_unroll/7","title":"Axon.Layers.static_unroll/7","type":"function"},{"doc":"","ref":"Axon.Layers.html#subtract/2","title":"Axon.Layers.subtract/2","type":"function"},{"doc":"Implementations of loss-scalers for use in mixed precision\ntraining.\n\nLoss scaling is used to prevent underflow when using mixed\nprecision during the model training process. Each loss-scale\nimplementation here returns a 3-tuple of the functions:\n\n    {init_fn, scale_fn, unscale_fn, adjust_fn} = Axon.LossScale.static(Nx.pow(2, 15))\n\nYou can use these to scale/unscale loss and gradients as well\nas adjust the loss scale state.\n\n`Axon.Loop.trainer/3` builds loss-scaling in by default. You\ncan reference the `Axon.Loop.train_step/3` implementation to\nsee how loss-scaling is applied in practice.","ref":"Axon.LossScale.html","title":"Axon.LossScale","type":"module"},{"doc":"Implements dynamic loss-scale.","ref":"Axon.LossScale.html#dynamic/1","title":"Axon.LossScale.dynamic/1","type":"function"},{"doc":"Implements identity loss-scale.","ref":"Axon.LossScale.html#identity/1","title":"Axon.LossScale.identity/1","type":"function"},{"doc":"Implements static loss-scale.","ref":"Axon.LossScale.html#static/1","title":"Axon.LossScale.static/1","type":"function"},{"doc":"Loss functions.\n\nLoss functions evaluate predictions with respect to true\ndata, often to measure the divergence between a model's\nrepresentation of the data-generating distribution and the\ntrue representation of the data-generating distribution.\n\nEach loss function is implemented as an element-wise function\nmeasuring the loss with respect to the input target `y_true`\nand input prediction `y_pred`. As an example, the `mean_squared_error/2`\nloss function produces a tensor whose values are the mean squared\nerror between targets and predictions:\n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred)\n    #Nx.Tensor \n\nIt's common to compute the loss across an entire minibatch.\nYou can easily do so by specifying a `:reduction` mode, or\nby composing one of these with an `Nx` reduction method:\n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\nYou can even compose loss functions:\n\n    defn my_strange_loss(y_true, y_pred) do\n      y_true\n      |> Axon.Losses.mean_squared_error(y_pred)\n      |> Axon.Losses.binary_cross_entropy(y_pred)\n      |> Nx.sum()\n    end\n\nOr, more commonly, you can combine loss functions with penalties for\nregularization:\n\n    defn regularized_loss(params, y_true, y_pred) do\n      loss = Axon.mean_squared_error(y_true, y_pred)\n      penalty = l2_penalty(params)\n      Nx.sum(loss) + penalty\n    end\n\nAll of the functions in this module are implemented as\nnumerical functions and can be JIT or AOT compiled with\nany supported `Nx` compiler.","ref":"Axon.Losses.html","title":"Axon.Losses","type":"module"},{"doc":"Applies label smoothing to the given labels.\n\nLabel smoothing is a regularization technique which shrink targets\ntowards a uniform distribution. Label smoothing can improve model\ngeneralization.","ref":"Axon.Losses.html#apply_label_smoothing/3","title":"Axon.Losses.apply_label_smoothing/3","type":"function"},{"doc":"* `:smoothing` - smoothing factor. Defaults to 0.1","ref":"Axon.Losses.html#apply_label_smoothing/3-options","title":"Options - Axon.Losses.apply_label_smoothing/3","type":"function"},{"doc":"* [Rethinking the Inception Architecture for Computer Vision](https://arxiv.org/abs/1512.00567)","ref":"Axon.Losses.html#apply_label_smoothing/3-references","title":"References - Axon.Losses.apply_label_smoothing/3","type":"function"},{"doc":"Binary cross-entropy loss function.\n\n$$l_i = -\\frac{1}{2}(\\hat{y_i} \\cdot \\log(y_i) + (1 - \\hat{y_i}) \\cdot \\log(1 - y_i))$$\n\nBinary cross-entropy loss is most often used in binary classification problems.\nBy default, it expects `y_pred` to encode probabilities from `[0.0, 1.0]`, typically\nas the output of the sigmoid function or another function which squeezes values\nbetween 0 and 1. You may optionally set `from_logits: true` to specify that values\nare being sent as non-normalized values (e.g. weights with possibly infinite range).\nIn this case, input values will be encoded as probabilities by applying the logistic\nsigmoid function before computing loss.","ref":"Axon.Losses.html#binary_cross_entropy/3","title":"Axon.Losses.binary_cross_entropy/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#binary_cross_entropy/3-argument-shapes","title":"Argument Shapes - Axon.Losses.binary_cross_entropy/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.\n\n  * `:negative_weight` - class weight for `0` class useful for scaling loss\n    by importance of class. Defaults to `1.0`.\n\n  * `:positive_weight` - class weight for `1` class useful for scaling loss\n    by importance of class. Defaults to `1.0`.\n\n  * `:from_logits` - whether `y_pred` is a logits tensor. Defaults to `false`.","ref":"Axon.Losses.html#binary_cross_entropy/3-options","title":"Options - Axon.Losses.binary_cross_entropy/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> y_pred = Nx.tensor([[0.6811, 0.5565], [0.6551, 0.4551], [0.5422, 0.2648]])\n    iex> Axon.Losses.binary_cross_entropy(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> y_pred = Nx.tensor([[0.6811, 0.5565], [0.6551, 0.4551], [0.5422, 0.2648]])\n    iex> Axon.Losses.binary_cross_entropy(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> y_pred = Nx.tensor([[0.6811, 0.5565], [0.6551, 0.4551], [0.5422, 0.2648]])\n    iex> Axon.Losses.binary_cross_entropy(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#binary_cross_entropy/3-examples","title":"Examples - Axon.Losses.binary_cross_entropy/3","type":"function"},{"doc":"Categorical cross-entropy loss function.\n\n$$l_i = -\\sum_i^C \\hat{y_i} \\cdot \\log(y_i)$$\n\nCategorical cross-entropy is typically used for multi-class classification problems.\nBy default, it expects `y_pred` to encode a probability distribution along the last\naxis. You can specify `from_logits: true` to indicate `y_pred` is a logits tensor.\n\n    # Batch size of 3 with 3 target classes\n    y_true = Nx.tensor([0, 2, 1])\n    y_pred = Nx.tensor([[0.2, 0.8, 0.0], [0.1, 0.2, 0.7], [0.1, 0.2, 0.7]])","ref":"Axon.Losses.html#categorical_cross_entropy/3","title":"Axon.Losses.categorical_cross_entropy/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#categorical_cross_entropy/3-argument-shapes","title":"Argument Shapes - Axon.Losses.categorical_cross_entropy/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.\n\n  * `:class_weights` - 1-D list corresponding to weight of each\n    class useful for scaling loss according to importance of class. Tensor\n    size must match number of classes in dataset. Defaults to `1.0` for all\n    classes.\n\n  * `:from_logits` - whether `y_pred` is a logits tensor. Defaults to `false`.\n\n  * `:sparse` - whether `y_true` encodes a \"sparse\" tensor. In this case the\n    inputs are integer values corresponding to the target class. Defaults to\n    `false`.","ref":"Axon.Losses.html#categorical_cross_entropy/3-options","title":"Options - Axon.Losses.categorical_cross_entropy/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0, 1, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05, 0.95, 0], [0.1, 0.8, 0.1]])\n    iex> Axon.Losses.categorical_cross_entropy(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05, 0.95, 0], [0.1, 0.8, 0.1]])\n    iex> Axon.Losses.categorical_cross_entropy(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05, 0.95, 0], [0.1, 0.8, 0.1]])\n    iex> Axon.Losses.categorical_cross_entropy(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([1, 2], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05, 0.95, 0], [0.1, 0.8, 0.1]])\n    iex> Axon.Losses.categorical_cross_entropy(y_true, y_pred, reduction: :sum, sparse: true)\n    #Nx.Tensor","ref":"Axon.Losses.html#categorical_cross_entropy/3-examples","title":"Examples - Axon.Losses.categorical_cross_entropy/3","type":"function"},{"doc":"Categorical hinge loss function.","ref":"Axon.Losses.html#categorical_hinge/3","title":"Axon.Losses.categorical_hinge/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#categorical_hinge/3-argument-shapes","title":"Argument Shapes - Axon.Losses.categorical_hinge/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#categorical_hinge/3-options","title":"Options - Axon.Losses.categorical_hinge/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[1, 0, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05300799, 0.21617081, 0.68642382], [0.3754382 , 0.08494169, 0.13442067]])\n    iex> Axon.Losses.categorical_hinge(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[1, 0, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05300799, 0.21617081, 0.68642382], [0.3754382 , 0.08494169, 0.13442067]])\n    iex> Axon.Losses.categorical_hinge(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[1, 0, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05300799, 0.21617081, 0.68642382], [0.3754382 , 0.08494169, 0.13442067]])\n    iex> Axon.Losses.categorical_hinge(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#categorical_hinge/3-examples","title":"Examples - Axon.Losses.categorical_hinge/3","type":"function"},{"doc":"Connectionist Temporal Classification loss.","ref":"Axon.Losses.html#connectionist_temporal_classification/3","title":"Axon.Losses.connectionist_temporal_classification/3","type":"function"},{"doc":"* `l_true` - $(B)$\n  * `y_true` - $(B, S)$\n  * `y_pred` - $(B, T, D)$","ref":"Axon.Losses.html#connectionist_temporal_classification/3-argument-shapes","title":"Argument Shapes - Axon.Losses.connectionist_temporal_classification/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:sum` or `:none`.\n  Defaults to `:none`.","ref":"Axon.Losses.html#connectionist_temporal_classification/3-options","title":"Options - Axon.Losses.connectionist_temporal_classification/3","type":"function"},{"doc":"`l_true` contains lengths of target sequences. Nonzero positive values.\n  `y_true` contains target sequences. Each value represents a class\n  of element in range of available classes 0 <= y < D. Blank element\n  class is included in this range, but shouldn't be presented among\n  y_true values. Maximum target sequence length should be lower or equal\n  to `y_pred` sequence length: S <= T.\n  `y_pred` - log probabilities of classes D along the\n  prediction sequence T.","ref":"Axon.Losses.html#connectionist_temporal_classification/3-description","title":"Description - Axon.Losses.connectionist_temporal_classification/3","type":"function"},{"doc":"Cosine Similarity error loss function.\n\n$$l_i = \\sum_i (\\hat{y_i} - y_i)^2$$","ref":"Axon.Losses.html#cosine_similarity/3","title":"Axon.Losses.cosine_similarity/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#cosine_similarity/3-argument-shapes","title":"Argument Shapes - Axon.Losses.cosine_similarity/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.\n  * `:axes` - Defaults to `[1]`.\n  * `:eps` - Defaults to `1.0e-6`.","ref":"Axon.Losses.html#cosine_similarity/3-options","title":"Options - Axon.Losses.cosine_similarity/3","type":"function"},{"doc":"iex> y_pred = Nx.tensor([[1.0, 0.0], [1.0, 1.0]])\n    iex> y_true = Nx.tensor([[0.0, 1.0], [1.0, 1.0]])\n    iex> Axon.Losses.cosine_similarity(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Losses.html#cosine_similarity/3-examples","title":"Examples - Axon.Losses.cosine_similarity/3","type":"function"},{"doc":"Hinge loss function.\n\n$$\\frac{1}{C}\\max_i(1 - \\hat{y_i} * y_i, 0)$$","ref":"Axon.Losses.html#hinge/3","title":"Axon.Losses.hinge/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#hinge/3-options","title":"Options - Axon.Losses.hinge/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#hinge/3-argument-shapes","title":"Argument Shapes - Axon.Losses.hinge/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[ 1,  1, -1], [ 1,  1, -1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.45440044, 0.31470688, 0.67920924], [0.24311459, 0.93466766, 0.10914676]])\n    iex> Axon.Losses.hinge(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[ 1,  1, -1], [ 1,  1, -1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.45440044, 0.31470688, 0.67920924], [0.24311459, 0.93466766, 0.10914676]])\n    iex> Axon.Losses.hinge(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[ 1,  1, -1], [ 1,  1, -1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.45440044, 0.31470688, 0.67920924], [0.24311459, 0.93466766, 0.10914676]])\n    iex> Axon.Losses.hinge(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#hinge/3-examples","title":"Examples - Axon.Losses.hinge/3","type":"function"},{"doc":"Huber loss.","ref":"Axon.Losses.html#huber/3","title":"Axon.Losses.huber/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#huber/3-argument-shapes","title":"Argument Shapes - Axon.Losses.huber/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.\n\n  * `:delta` - the point where the Huber loss function changes from a quadratic to linear.\n    Defaults to `1.0`.","ref":"Axon.Losses.html#huber/3-options","title":"Options - Axon.Losses.huber/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[1], [1.5], [2.0]])\n    iex> y_pred = Nx.tensor([[0.8], [1.8], [2.1]])\n    iex> Axon.Losses.huber(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[1], [1.5], [2.0]])\n    iex> y_pred = Nx.tensor([[0.8], [1.8], [2.1]])\n    iex> Axon.Losses.huber(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor","ref":"Axon.Losses.html#huber/3-examples","title":"Examples - Axon.Losses.huber/3","type":"function"},{"doc":"Kullback-Leibler divergence loss function.\n\n$$l_i = \\sum_i^C \\hat{y_i} \\cdot \\log(\\frac{\\hat{y_i}}{y_i})$$","ref":"Axon.Losses.html#kl_divergence/3","title":"Axon.Losses.kl_divergence/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#kl_divergence/3-argument-shapes","title":"Argument Shapes - Axon.Losses.kl_divergence/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#kl_divergence/3-options","title":"Options - Axon.Losses.kl_divergence/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0, 1], [0, 0]], type: {:u, 8})\n    iex> y_pred = Nx.tensor([[0.6, 0.4], [0.4, 0.6]])\n    iex> Axon.Losses.kl_divergence(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1], [0, 0]], type: {:u, 8})\n    iex> y_pred = Nx.tensor([[0.6, 0.4], [0.4, 0.6]])\n    iex> Axon.Losses.kl_divergence(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1], [0, 0]], type: {:u, 8})\n    iex> y_pred = Nx.tensor([[0.6, 0.4], [0.4, 0.6]])\n    iex> Axon.Losses.kl_divergence(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#kl_divergence/3-examples","title":"Examples - Axon.Losses.kl_divergence/3","type":"function"},{"doc":"Modifies the given loss function to smooth labels prior\nto calculating loss.\n\nSee `apply_label_smoothing/2` for details.","ref":"Axon.Losses.html#label_smoothing/2","title":"Axon.Losses.label_smoothing/2","type":"function"},{"doc":"* `:smoothing` - smoothing factor. Defaults to 0.1","ref":"Axon.Losses.html#label_smoothing/2-options","title":"Options - Axon.Losses.label_smoothing/2","type":"function"},{"doc":"Logarithmic-Hyperbolic Cosine loss function.\n\n$$l_i = \\frac{1}{C} \\sum_i^C (\\hat{y_i} - y_i) + \\log(1 + e^{-2(\\hat{y_i} - y_i)}) - \\log(2)$$","ref":"Axon.Losses.html#log_cosh/3","title":"Axon.Losses.log_cosh/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#log_cosh/3-argument-shapes","title":"Argument Shapes - Axon.Losses.log_cosh/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#log_cosh/3-options","title":"Options - Axon.Losses.log_cosh/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]])\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]])\n    iex> Axon.Losses.log_cosh(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]])\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]])\n    iex> Axon.Losses.log_cosh(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]])\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]])\n    iex> Axon.Losses.log_cosh(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#log_cosh/3-examples","title":"Examples - Axon.Losses.log_cosh/3","type":"function"},{"doc":"Margin ranking loss function.\n\n$$l_i = \\max(0, -\\hat{y_i} * (y^(1)_i - y^(2)_i) + \\alpha)$$","ref":"Axon.Losses.html#margin_ranking/3","title":"Axon.Losses.margin_ranking/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#margin_ranking/3-options","title":"Options - Axon.Losses.margin_ranking/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1.0, 1.0, 1.0], type: {:f, 32})\n    iex> y_pred1 = Nx.tensor([0.6934, -0.7239,  1.1954], type: {:f, 32})\n    iex> y_pred2 = Nx.tensor([-0.4691, 0.2670, -1.7452], type: {:f, 32})\n    iex> Axon.Losses.margin_ranking(y_true, {y_pred1, y_pred2})\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([1.0, 1.0, 1.0], type: {:f, 32})\n    iex> y_pred1 = Nx.tensor([0.6934, -0.7239,  1.1954], type: {:f, 32})\n    iex> y_pred2 = Nx.tensor([-0.4691, 0.2670, -1.7452], type: {:f, 32})\n    iex> Axon.Losses.margin_ranking(y_true, {y_pred1, y_pred2}, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([1.0, 1.0, 1.0], type: {:f, 32})\n    iex> y_pred1 = Nx.tensor([0.6934, -0.7239,  1.1954], type: {:f, 32})\n    iex> y_pred2 = Nx.tensor([-0.4691, 0.2670, -1.7452], type: {:f, 32})\n    iex> Axon.Losses.margin_ranking(y_true, {y_pred1, y_pred2}, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#margin_ranking/3-examples","title":"Examples - Axon.Losses.margin_ranking/3","type":"function"},{"doc":"Mean-absolute error loss function.\n\n$$l_i = \\sum_i |\\hat{y_i} - y_i|$$","ref":"Axon.Losses.html#mean_absolute_error/3","title":"Axon.Losses.mean_absolute_error/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#mean_absolute_error/3-argument-shapes","title":"Argument Shapes - Axon.Losses.mean_absolute_error/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#mean_absolute_error/3-options","title":"Options - Axon.Losses.mean_absolute_error/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_absolute_error(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_absolute_error(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_absolute_error(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#mean_absolute_error/3-examples","title":"Examples - Axon.Losses.mean_absolute_error/3","type":"function"},{"doc":"Mean-squared error loss function.\n\n$$l_i = \\sum_i (\\hat{y_i} - y_i)^2$$","ref":"Axon.Losses.html#mean_squared_error/3","title":"Axon.Losses.mean_squared_error/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#mean_squared_error/3-argument-shapes","title":"Argument Shapes - Axon.Losses.mean_squared_error/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#mean_squared_error/3-options","title":"Options - Axon.Losses.mean_squared_error/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#mean_squared_error/3-examples","title":"Examples - Axon.Losses.mean_squared_error/3","type":"function"},{"doc":"Poisson loss function.\n\n$$l_i = \\frac{1}{C} \\sum_i^C y_i - (\\hat{y_i} \\cdot \\log(y_i))$$","ref":"Axon.Losses.html#poisson/3","title":"Axon.Losses.poisson/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#poisson/3-argument-shapes","title":"Argument Shapes - Axon.Losses.poisson/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#poisson/3-options","title":"Options - Axon.Losses.poisson/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.poisson(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.poisson(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.poisson(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#poisson/3-examples","title":"Examples - Axon.Losses.poisson/3","type":"function"},{"doc":"Soft margin loss function.\n\n$$l_i = \\sum_i \\frac{\\log(1 + e^{-\\hat{y_i} * y_i})}{N}$$","ref":"Axon.Losses.html#soft_margin/3","title":"Axon.Losses.soft_margin/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#soft_margin/3-options","title":"Options - Axon.Losses.soft_margin/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[-1.0, 1.0,  1.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[0.2953, -0.1709, 0.9486]], type: {:f, 32})\n    iex> Axon.Losses.soft_margin(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[-1.0, 1.0,  1.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[0.2953, -0.1709, 0.9486]], type: {:f, 32})\n    iex> Axon.Losses.soft_margin(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[-1.0, 1.0,  1.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[0.2953, -0.1709, 0.9486]], type: {:f, 32})\n    iex> Axon.Losses.soft_margin(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#soft_margin/3-examples","title":"Examples - Axon.Losses.soft_margin/3","type":"function"},{"doc":"Metric functions.\n\nMetrics are used to measure the performance and compare\nperformance of models in easy-to-understand terms. Often\ntimes, neural networks use surrogate loss functions such\nas negative log-likelihood to indirectly optimize a certain\nperformance metric. Metrics such as accuracy, also called\nthe 0-1 loss, do not have useful derivatives (e.g. they\nare information sparse), and are often intractable even\nwith low input dimensions.\n\nDespite not being able to train specifically for certain\nmetrics, it's still useful to track these metrics to\nmonitor the performance of a neural network during training.\nMetrics such as accuracy provide useful feedback during\ntraining, whereas loss can sometimes be difficult to interpret.\n  \nYou can attach any of these functions as metrics within the\n`Axon.Loop` API using `Axon.Loop.metric/3`.\n\nAll of the functions in this module are implemented as\nnumerical functions and can be JIT or AOT compiled with\nany supported `Nx` compiler.","ref":"Axon.Metrics.html","title":"Axon.Metrics","type":"module"},{"doc":"Computes the accuracy of the given predictions.\n\nIf the size of the last axis is 1, it performs a binary\naccuracy computation with a threshold of 0.5. Otherwise,\ncomputes categorical accuracy.","ref":"Axon.Metrics.html#accuracy/3","title":"Axon.Metrics.accuracy/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#accuracy/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.accuracy/3","type":"function"},{"doc":"iex> Axon.Metrics.accuracy(Nx.tensor([[1], [0], [0]]), Nx.tensor([[1], [1], [1]]))\n    #Nx.Tensor \n\n    iex> Axon.Metrics.accuracy(Nx.tensor([[0, 1], [1, 0], [1, 0]]), Nx.tensor([[0, 1], [1, 0], [0, 1]]))\n    #Nx.Tensor \n\n    iex> Axon.Metrics.accuracy(Nx.tensor([[0, 1, 0], [1, 0, 0]]), Nx.tensor([[0, 1, 0], [0, 1, 0]]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#accuracy/3-examples","title":"Examples - Axon.Metrics.accuracy/3","type":"function"},{"doc":"","ref":"Axon.Metrics.html#accuracy_transform/4","title":"Axon.Metrics.accuracy_transform/4","type":"function"},{"doc":"Computes the number of false negative predictions with respect\nto given targets.","ref":"Axon.Metrics.html#false_negatives/3","title":"Axon.Metrics.false_negatives/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of predictions.\n    Defaults to `0.5`.","ref":"Axon.Metrics.html#false_negatives/3-options","title":"Options - Axon.Metrics.false_negatives/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1, 0, 1, 1, 0, 1, 0])\n    iex> y_pred = Nx.tensor([0.8, 0.6, 0.4, 0.2, 0.8, 0.2, 0.2])\n    iex> Axon.Metrics.false_negatives(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#false_negatives/3-examples","title":"Examples - Axon.Metrics.false_negatives/3","type":"function"},{"doc":"Computes the number of false positive predictions with respect\nto given targets.","ref":"Axon.Metrics.html#false_positives/3","title":"Axon.Metrics.false_positives/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of predictions.\n    Defaults to `0.5`.","ref":"Axon.Metrics.html#false_positives/3-options","title":"Options - Axon.Metrics.false_positives/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1, 0, 1, 1, 0, 1, 0])\n    iex> y_pred = Nx.tensor([0.8, 0.6, 0.4, 0.2, 0.8, 0.2, 0.2])\n    iex> Axon.Metrics.false_positives(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#false_positives/3-examples","title":"Examples - Axon.Metrics.false_positives/3","type":"function"},{"doc":"Calculates the mean absolute error of predictions\nwith respect to targets.\n\n$$l_i = \\sum_i |\\hat{y_i} - y_i|$$","ref":"Axon.Metrics.html#mean_absolute_error/2","title":"Axon.Metrics.mean_absolute_error/2","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#mean_absolute_error/2-argument-shapes","title":"Argument Shapes - Axon.Metrics.mean_absolute_error/2","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Metrics.mean_absolute_error(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#mean_absolute_error/2-examples","title":"Examples - Axon.Metrics.mean_absolute_error/2","type":"function"},{"doc":"Computes the precision of the given predictions with\nrespect to the given targets.","ref":"Axon.Metrics.html#precision/3","title":"Axon.Metrics.precision/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#precision/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.precision/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of the predictions.\n    Defaults to `0.5`","ref":"Axon.Metrics.html#precision/3-options","title":"Options - Axon.Metrics.precision/3","type":"function"},{"doc":"iex> Axon.Metrics.precision(Nx.tensor([0, 1, 1, 1]), Nx.tensor([1, 0, 1, 1]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#precision/3-examples","title":"Examples - Axon.Metrics.precision/3","type":"function"},{"doc":"Computes the recall of the given predictions with\nrespect to the given targets.","ref":"Axon.Metrics.html#recall/3","title":"Axon.Metrics.recall/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#recall/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.recall/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of the predictions.\n    Defaults to `0.5`","ref":"Axon.Metrics.html#recall/3-options","title":"Options - Axon.Metrics.recall/3","type":"function"},{"doc":"iex> Axon.Metrics.recall(Nx.tensor([0, 1, 1, 1]), Nx.tensor([1, 0, 1, 1]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#recall/3-examples","title":"Examples - Axon.Metrics.recall/3","type":"function"},{"doc":"Returns a function which computes a running average given current average,\nnew observation, and current iteration.","ref":"Axon.Metrics.html#running_average/1","title":"Axon.Metrics.running_average/1","type":"function"},{"doc":"iex> cur_avg = 0.5\n    iex> iteration = 1\n    iex> y_true = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> y_pred = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> avg_acc = Axon.Metrics.running_average(&Axon.Metrics.accuracy/2)\n    iex> avg_acc.(cur_avg, [y_true, y_pred], iteration)\n    #Nx.Tensor","ref":"Axon.Metrics.html#running_average/1-examples","title":"Examples - Axon.Metrics.running_average/1","type":"function"},{"doc":"Returns a function which computes a running sum given current sum,\nnew observation, and current iteration.","ref":"Axon.Metrics.html#running_sum/1","title":"Axon.Metrics.running_sum/1","type":"function"},{"doc":"iex> cur_sum = 12\n    iex> iteration = 2\n    iex> y_true = Nx.tensor([0, 1, 0, 1])\n    iex> y_pred = Nx.tensor([1, 1, 0, 1])\n    iex> fps = Axon.Metrics.running_sum(&Axon.Metrics.false_positives/2)\n    iex> fps.(cur_sum, [y_true, y_pred], iteration)\n    #Nx.Tensor","ref":"Axon.Metrics.html#running_sum/1-examples","title":"Examples - Axon.Metrics.running_sum/1","type":"function"},{"doc":"Computes the sensitivity of the given predictions\nwith respect to the given targets.","ref":"Axon.Metrics.html#sensitivity/3","title":"Axon.Metrics.sensitivity/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#sensitivity/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.sensitivity/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of the predictions.\n    Defaults to `0.5`","ref":"Axon.Metrics.html#sensitivity/3-options","title":"Options - Axon.Metrics.sensitivity/3","type":"function"},{"doc":"iex> Axon.Metrics.sensitivity(Nx.tensor([0, 1, 1, 1]), Nx.tensor([1, 0, 1, 1]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#sensitivity/3-examples","title":"Examples - Axon.Metrics.sensitivity/3","type":"function"},{"doc":"Computes the specificity of the given predictions\nwith respect to the given targets.","ref":"Axon.Metrics.html#specificity/3","title":"Axon.Metrics.specificity/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#specificity/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.specificity/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of the predictions.\n    Defaults to `0.5`","ref":"Axon.Metrics.html#specificity/3-options","title":"Options - Axon.Metrics.specificity/3","type":"function"},{"doc":"iex> Axon.Metrics.specificity(Nx.tensor([0, 1, 1, 1]), Nx.tensor([1, 0, 1, 1]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#specificity/3-examples","title":"Examples - Axon.Metrics.specificity/3","type":"function"},{"doc":"Computes the top-k categorical accuracy.","ref":"Axon.Metrics.html#top_k_categorical_accuracy/3","title":"Axon.Metrics.top_k_categorical_accuracy/3","type":"function"},{"doc":"* `k` - The k in \"top-k\". Defaults to 5.\n  * `sparse` - If `y_true` is a sparse tensor. Defaults to `false`.","ref":"Axon.Metrics.html#top_k_categorical_accuracy/3-options","title":"Options - Axon.Metrics.top_k_categorical_accuracy/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#top_k_categorical_accuracy/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.top_k_categorical_accuracy/3","type":"function"},{"doc":"iex> Axon.Metrics.top_k_categorical_accuracy(Nx.tensor([0, 1, 0, 0, 0]), Nx.tensor([0.1, 0.4, 0.3, 0.7, 0.1]), k: 2)\n    #Nx.Tensor \n\n    iex> Axon.Metrics.top_k_categorical_accuracy(Nx.tensor([[0, 1, 0], [1, 0, 0]]), Nx.tensor([[0.1, 0.4, 0.7], [0.1, 0.4, 0.7]]), k: 2)\n    #Nx.Tensor \n\n    iex> Axon.Metrics.top_k_categorical_accuracy(Nx.tensor([[0], [2]]), Nx.tensor([[0.1, 0.4, 0.7], [0.1, 0.4, 0.7]]), k: 2, sparse: true)\n    #Nx.Tensor","ref":"Axon.Metrics.html#top_k_categorical_accuracy/3-examples","title":"Examples - Axon.Metrics.top_k_categorical_accuracy/3","type":"function"},{"doc":"Computes the number of true negative predictions with respect\nto given targets.","ref":"Axon.Metrics.html#true_negatives/3","title":"Axon.Metrics.true_negatives/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of predictions.\n    Defaults to `0.5`.","ref":"Axon.Metrics.html#true_negatives/3-options","title":"Options - Axon.Metrics.true_negatives/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1, 0, 1, 1, 0, 1, 0])\n    iex> y_pred = Nx.tensor([0.8, 0.6, 0.4, 0.2, 0.8, 0.2, 0.2])\n    iex> Axon.Metrics.true_negatives(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#true_negatives/3-examples","title":"Examples - Axon.Metrics.true_negatives/3","type":"function"},{"doc":"Computes the number of true positive predictions with respect\nto given targets.","ref":"Axon.Metrics.html#true_positives/3","title":"Axon.Metrics.true_positives/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of predictions.\n    Defaults to `0.5`.","ref":"Axon.Metrics.html#true_positives/3-options","title":"Options - Axon.Metrics.true_positives/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1, 0, 1, 1, 0, 1, 0])\n    iex> y_pred = Nx.tensor([0.8, 0.6, 0.4, 0.2, 0.8, 0.2, 0.2])\n    iex> Axon.Metrics.true_positives(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#true_positives/3-examples","title":"Examples - Axon.Metrics.true_positives/3","type":"function"},{"doc":"Abstraction for modeling a reduction of a dataset with an accumulated\nstate for a number of epochs.\n\nInspired heavily by [PyTorch Ignite](https://pytorch.org/ignite/index.html).\n\nThe main abstraction is the `%Axon.Loop{}` struct, which controls a nested\nreduction of the form:\n\n    Enum.reduce(1..max_epochs, state, fn epoch, state ->\n      Enum.reduce(data, state, &batch_step/2)\n    end)\n\n`data` is assumed to be an `Enumerable` or `Stream` of input data which is\nhandled by a processing function, `batch_step`. The purpose of the loop\nabstraction is to take away much of the boilerplate code used in solving machine\nlearning tasks. Tasks such as normalizing a dataset, hyperparameter optimization,\nor training machine learning models boil down to writing one function:\n\n    defn batch_step(batch, state) do\n      # ...do something with batch...\n      updated_state\n    end\n\nFor tasks such as training a neural network, `state` will encapsulate things\nsuch as model and optimizer state. For supervised learning tasks, `batch_step`\nmight look something like:\n\n    defn batch_step({inputs, targets}, state) do\n      %{parameters: params, optimizer_state: optim_state} = state\n\n      gradients = grad(params, objective_fn.(&1, inputs, targets))\n      {updates, new_optim_state} = optimizer.(optim_state, params, gradients)\n\n      new_params = apply_updates(params, updates)\n\n      %{parameters: new_params, optimizer_state: optim_state}\n    end\n\n`batch_step` takes a batch of `{input, target}` pairs and the current state,\nand updates the model parameters based on the gradients received from some arbitrary\nobjective function. This function will run in a nested loop, iterating over the entire\ndataset for `N` epochs before finally returning the trained model state. By defining\n1 function, we've created a training loop that works for most machine learning models.\n\nIn actuality, the loop abstraction accumulates a struct, `%Axon.Loop.State{}`, which looks\nlike (assuming `container` is a generic Elixir container of tensors, e.g. map, tuple, etc.):\n\n    %Axon.Loop.State{\n      epoch: integer(),\n      max_epoch: integer(),\n      iteration: integer(),\n      max_iteration: integer(),\n      metrics: map(string(), container()),\n      times: map(integer(), integer()),\n      step_state: container()\n    }\n\n`batch_step` takes in the batch and the step state field and returns a `step_state`,\nwhich is a generic container of state accumulated at each iteration. The rest of the fields\nin the state struct are updated automatically behind the scenes.\n\nThe loop must start from some initial step state, thus most tasks must also provide\nan additional initialization function to provide some starting point for the step\nstate. For machine learning tasks, the initialization function will return things like\ninitial model parameters and optimizer state.\n\nTypically, the final output of the loop is the accumulated final state; however, you\nmay optionally apply an output transform to extract specific values at the end of the\nloop. For example, `Axon.Loop.trainer/4` by default extracts trained model state:\n\n    output_transform = fn state ->\n      state.step_state[:model_state]\n    end","ref":"Axon.Loop.html","title":"Axon.Loop","type":"module"},{"doc":"The core of the Axon loop are the init and step functions. The initialization is an\narity-0 function which provides an initial step state:\n\n    init = fn ->\n      %{params: Axon.init(model)}\n    end\n\nWhile the step function is the `batch_step` function mentioned earlier:\n\n    step = fn data, state ->\n      new_state = # ...do something...\n      new_state\n    end\n\nNote that any optimization and training anonymous functions that need to be used in the\n`batch_step` function can be passed as extra arguments. For example:\n\n    step_with_training_arguments = fn data, state, optimizer_update_fn, state_update_fn ->\n      # ...do something...\n    end\n\n    step = &(step_with_training_arguments.(&1, &2, actual_optimizer_update_fn, actual_state_update_fn))","ref":"Axon.Loop.html#module-initialize-and-step","title":"Initialize and Step - Axon.Loop","type":"module"},{"doc":"Often times you want to compute metrics associated with your training iterations.\nTo accomplish this, you can attach metrics to each `Axon.Loop`. Assuming a `batch_step`\nfunction which looks like:\n\n    defn batch_step({inputs, targets}, state) do\n      %{parameters: params, optimizer_state: optim_state} = state\n\n      gradients = grad(params, objective_fn.(&1, inputs, targets))\n      {updates, new_optim_state} = optimizer.(optim_state, params, gradients)\n\n      new_params = apply_updates(params, updates)\n\n      # Shown for simplicity, you can optimize this by calculating preds\n      # along with the gradient calculation\n      preds = model_fn.(params, inputs)\n\n      %{\n        y_true: targets,\n        y_pred: preds,\n        parameters: new_params,\n        optimizer_state: optim_state\n      }\n    end\n\nYou can attach metrics to this by using `Axon.Loop.metric/4`:\n\n    Axon.Loop.loop(&batch_step/2)\n    |> Axon.Loop.metric(\"Accuracy\", :accuracy, fn %{y_true: y_, y_pred: y} -> [y_, y] end)\n    |> Axon.Loop.run(data)\n\nBecause metrics work directly on `step_state`, you typically need to provide an output\ntransform to indicate which values should be passed to your metric function. By default,\nAxon assumes a supervised training task with the fields `:y_true` and `:y_pred` present\nin the step state. See `Axon.Loop.metric/4` for more information.\n\nMetrics will be tracked in the loop state using the user-provided key. Metrics integrate\nseamlessly with the supervised metrics defined in `Axon.Metrics`. You can also use metrics\nto keep running averages of some values in the original dataset.","ref":"Axon.Loop.html#module-metrics","title":"Metrics - Axon.Loop","type":"module"},{"doc":"You can instrument several points in the loop using event handlers. By default, several events\nare fired when running a loop:\n\n    events = [\n      :started,             # After loop state initialization\n      :epoch_started,       # On epoch start\n      :iteration_started,   # On iteration start\n      :iteration_completed, # On iteration complete\n      :epoch_completed,     # On epoch complete\n      :epoch_halted,        # On epoch halt, if early halted\n    ]\n\nYou can attach event handlers to events using `Axon.Loop.handle_event/4`:\n\n    loop\n    |> Axon.Loop.handle_event(:iteration_completed, &log_metrics/1, every: 100)\n    |> Axon.Loop.run(data)\n\nThe above will trigger `log_metrics/1` every 100 times the `:iteration_completed` event\nis fired. Event handlers must return a tuple `{status, state}`, where `status` is an\natom with one of the following values:\n\n    :continue   # Continue epoch, continue looping\n    :halt_epoch # Halt the epoch, continue looping\n    :halt_loop  # Halt looping\n\nAnd `state` is an updated `Axon.Loop.State` struct. Handler functions take as input\nthe current loop state.\n\nIt's important to note that event handlers are triggered in the order they are attached\nto the loop. If you have two handlers on the same event, they will trigger in order:\n\n    loop\n    |> Axon.Loop.handle_event(:epoch_completed, &normalize_state/1) # Runs first\n    |> Axon.Loop.handle_event(:epoch_completed, &log_state/1) # Runs second\n\nYou may provide filters to filter when event handlers trigger. See `Axon.Loop.handle_event/4`\nfor more details on valid filters.","ref":"Axon.Loop.html#module-events-and-handlers","title":"Events and Handlers - Axon.Loop","type":"module"},{"doc":"Axon loops are typically created from one of the factory functions provided in this\nmodule:\n\n  * `Axon.Loop.loop/3` - Creates a loop from step function and optional initialization\n    functions and output transform functions.\n\n  * `Axon.Loop.trainer/3` - Creates a supervised training loop from model, loss, and\n    optimizer.\n\n  * `Axon.Loop.evaluator/1` - Creates a supervised evaluator loop from model.","ref":"Axon.Loop.html#module-factories","title":"Factories - Axon.Loop","type":"module"},{"doc":"In order to execute a loop, you should use `Axon.Loop.run/3`:\n\n    Axon.Loop.run(loop, data, epochs: 10)","ref":"Axon.Loop.html#module-running-loops","title":"Running loops - Axon.Loop","type":"module"},{"doc":"At times you may want to resume a loop from some previous state. You can accomplish this\nwith `Axon.Loop.from_state/2`:\n\n    loop\n    |> Axon.Loop.from_state(state)\n    |> Axon.Loop.run(data)","ref":"Axon.Loop.html#module-resuming-loops","title":"Resuming loops - Axon.Loop","type":"module"},{"doc":"Adds a handler function which saves loop checkpoints on a given\nevent, optionally with metric-based criteria.\n\nBy default, loop checkpoints will be saved at the end of every\nepoch in the current working directory under the `checkpoint/`\npath. Checkpoints are serialized representations of loop state\nobtained from `Axon.Loop.serialize_state/2`. Serialization\noptions will be forwarded to `Axon.Loop.serialize_state/2`.\n\nYou can customize checkpoint events by passing `:event` and `:filter`\noptions:\n\n    loop\n    |> Axon.Loop.checkpoint(event: :iteration_completed, filter: [every: 50])\n\nCheckpoints are saved under the `checkpoint/` directory with a pattern\nof `checkpoint_{epoch}_{iteration}.ckpt`. You can customize the path and pattern\nwith the `:path` and `:file_pattern` options:\n\n    my_file_pattern =\n      fn %Axon.Loop.State{epoch: epoch, iteration: iter} ->\n        \"checkpoint_#{epoch}_#{iter}\"\n      end\n\n    loop\n    |> Axon.Loop.checkpoint(path: \"my_checkpoints\", file_pattern: my_file_pattern)\n\nIf you'd like to only save checkpoints based on some metric criteria,\nyou can specify the `:criteria` option. `:criteria` must be a valid key\nin metrics:\n\n    loop\n    |> Axon.Loop.checkpoint(criteria: \"validation_loss\")\n\nThe default criteria mode is `:min`, meaning the min score metric will\nbe considered \"best\" when deciding to save on a given event. Valid modes\nare `:min` and `:max`:\n\n    loop\n    |> Axon.Loop.checkpoint(criteria: \"validation_accuracy\", mode: :max)","ref":"Axon.Loop.html#checkpoint/2","title":"Axon.Loop.checkpoint/2","type":"function"},{"doc":"* `:event` - event to fire handler on. Defaults to `:epoch_completed`.\n\n  * `:filter` - event filter to attach to handler. Defaults to `:always`.\n\n  * `:patience` - number of given events to wait for improvement. Defaults\n    to `3`.\n\n  * `:mode` - whether given metric is being minimized or maximized. One of\n    `:min`, `:max` or an arity-1 function which returns `true` or `false`.\n    Defaults to `:min`.\n\n  * `:path` - path to directory to save checkpoints. Defaults to `checkpoint`\n\n  * `:file_pattern` - arity-1 function which returns a string file pattern\n    based on the current loop state. Defaults to saving checkpoints to files\n    `checkpoint_#{epoch}_#{iteration}.ckpt`.","ref":"Axon.Loop.html#checkpoint/2-options","title":"Options - Axon.Loop.checkpoint/2","type":"function"},{"doc":"Deserializes loop state from a binary.\n\nIt is the opposite of `Axon.Loop.serialize_state/2`.\n\nBy default, the step state is deserialized using `Nx.deserialize.2`;\nhowever, this behavior can be changed if step state is an application\nspecific container. For example, if you introduce your own data\nstructure into step_state and you customized the serialization logic,\n`Nx.deserialize/2` will not be sufficient for deserialization. - you\nmust pass custom logic with `:deserialize_step_state`.","ref":"Axon.Loop.html#deserialize_state/2","title":"Axon.Loop.deserialize_state/2","type":"function"},{"doc":"Adds a handler function which halts a loop if the given\nmetric does not improve between events.\n\nBy default, this will run after each epoch and track the\nimprovement of a given metric.\n\nYou must specify a metric to monitor and the metric must\nbe present in the loop state. Typically, this will be\na validation metric:\n\n    model\n    |> Axon.Loop.trainer(loss, optim)\n    |> Axon.Loop.metric(:accuracy)\n    |> Axon.Loop.validate(val_data)\n    |> Axon.Loop.early_stop(\"validation_accuracy\")\n\nIt's important to remember that handlers are executed in the\norder they are added to the loop. For example, if you'd like\nto checkpoint a loop after every epoch and use early stopping,\nmost likely you want to add the checkpoint handler before\nthe early stopping handler:\n\n    model\n    |> Axon.Loop.trainer(loss, optim)\n    |> Axon.Loop.metric(:accuracy)\n    |> Axon.Loop.checkpoint()\n    |> Axon.Loop.early_stop(\"accuracy\")\n\nThat will ensure checkpoint is always fired, even if the loop\nexited early.","ref":"Axon.Loop.html#early_stop/3","title":"Axon.Loop.early_stop/3","type":"function"},{"doc":"Creates a supervised evaluation step from a model and model state.\n\nThis function is intended for more fine-grained control over the loop\ncreation process. It returns a tuple of `{init_fn, step_fn}` where\n`init_fn` returns an initial step state and `step_fn` performs a\nsingle evaluation step.","ref":"Axon.Loop.html#eval_step/1","title":"Axon.Loop.eval_step/1","type":"function"},{"doc":"Creates a supervised evaluator from a model.\n\nAn evaluator can be used for things such as testing and validation of models\nafter or during training. It assumes `model` is an Axon struct, container of\nstructs, or a tuple of `init` / `apply` functions. `model_state` must be a\ncontainer usable from within `model`.\n\nThe evaluator returns a step state of the form:\n\n    %{\n      y_true: labels,\n      y_pred: predictions\n    }\n\nSuch that you can attach any number of supervised metrics to the evaluation\nloop:\n\n    model\n    |> Axon.Loop.evaluator()\n    |> Axon.Loop.metric(\"Accuracy\", :accuracy)\n\nYou must pass a compatible trained model state to `Axon.Loop.run/4` when using\nsupervised evaluation loops. For example, if you've binded the result of a training\nrun to `trained_model_state`, you can run the trained model through an evaluation\nrun like this:\n\n    model\n    |> Axon.Loop.evaluator()\n    |> Axon.Loop.run(data, trained_model_state, compiler: EXLA)\n\nThis function applies an output transform which returns the map of metrics accumulated\nover the given loop.","ref":"Axon.Loop.html#evaluator/1","title":"Axon.Loop.evaluator/1","type":"function"},{"doc":"Attaches `state` to the given loop in order to resume looping\nfrom a previous state.\n\nIt's important to note that a loop's attached state takes precedence\nover defined initialization functions. Given initialization function:\n\n    defn init_state(), do: %{foo: 1, bar: 2}\n\nAnd an attached state:\n\n    state = %State{step_state: %{foo: 2, bar: 3}}\n\n`init_state/0` will never execute, and instead the initial step state\nof `%{foo: 2, bar: 3}` will be used.","ref":"Axon.Loop.html#from_state/2","title":"Axon.Loop.from_state/2","type":"function"},{"doc":"Adds a handler function to the loop which will be triggered on `event`\nwith an optional filter.\n\nEvents take place at different points during loop execution. The default\nevents are:\n\n    events = [\n      :started,             # After loop state initialization\n      :epoch_started,       # On epoch start\n      :iteration_started,   # On iteration start\n      :iteration_completed, # On iteration complete\n      :epoch_completed,     # On epoch complete\n      :epoch_halted,        # On epoch halt, if early halted\n    ]\n\nGenerally, event handlers are side-effecting operations which provide some\nsort of inspection into the loop's progress. It's important to note that\nif you define multiple handlers to be triggered on the same event, they\nwill execute in order from when they were attached to the training\nloop:\n\n    loop\n    |> Axon.Loop.handle_event(:epoch_started, &normalize_step_state/1) # executes first\n    |> Axon.Loop.handle_event(:epoch_started, &log_step_state/1) # executes second\n\nThus, if you have separate handlers which alter or depend on loop state,\nyou need to ensure they are ordered correctly, or combined into a single\nevent handler for maximum control over execution.\n\n`event` must be an atom representing the event to trigger `handler` or a\nlist of atoms indicating `handler` should be triggered on multiple events.\n`event` may be `:all` which indicates the handler should be triggered on\nevery event during loop processing.\n\n`handler` must be an arity-1 function which takes as input loop state and\nreturns `{status, state}`, where `status` is an atom with one of the following\nvalues:\n\n    :continue   # Continue epoch, continue looping\n    :halt_epoch # Halt the epoch, continue looping\n    :halt_loop  # Halt looping\n\n`filter` is an atom representing a valid filter predicate, a keyword of\npredicate-value pairs, or a function which takes loop state and returns\na `true`, indicating the handler should run, or `false`, indicating the\nhandler should not run. Valid predicates are:\n\n    :always # Always trigger event\n    :once   # Trigger on first event firing\n\nValid predicate-value pairs are:\n\n    every: N # Trigger every `N` event\n    only: N # Trigger on `N` event\n\n**Warning: If you modify the step state in an event handler, it will trigger\npotentially excessive recompilation and result in significant additional overhead\nduring loop execution.**","ref":"Axon.Loop.html#handle_event/4","title":"Axon.Loop.handle_event/4","type":"function"},{"doc":"Adds a handler function which updates a `Kino.VegaLite` plot.\n\nBy default, this will run after every iteration.\n\nYou must specify a plot to push to and a metric to track. The `:x` axis will be the iteration count, labeled `\"step\"`. The metric must match the name given to the `:y` axis in your `VegaLite` plot:\n\n    plot =\n      Vl.new()\n      |> Vl.mark(:line)\n      |> Vl.encode_field(:x, \"step\", type: :quantitative)\n      |> Vl.encode_field(:y, \"loss\", type: :quantitative)\n      |> Kino.VegaLite.new()\n      |> Kino.render()\n\n    model\n    |> Axon.Loop.trainer(loss, optim)\n    |> Axon.Loop.kino_vega_lite_plot(plot, \"loss\")","ref":"Axon.Loop.html#kino_vega_lite_plot/4","title":"Axon.Loop.kino_vega_lite_plot/4","type":"function"},{"doc":"* `:event` - event to fire handler on. Defaults to `:iteration_completed`.\n\n  * `:filter` - event filter to attach to handler. Defaults to `:always`.","ref":"Axon.Loop.html#kino_vega_lite_plot/4-options","title":"Options - Axon.Loop.kino_vega_lite_plot/4","type":"function"},{"doc":"Adds a handler function which logs the given message produced\nby `message_fn` to the given IO device every `event` satisfying\n`filter`.\n\nIn most cases, this is useful for inspecting the contents of\nthe loop state at intermediate stages. For example, the default\n`trainer` loop factory attaches IO logging of epoch, batch, loss\nand metrics.\n\nIt's also possible to log loop state to files by changing the\ngiven IO device. By default, the IO device is `:stdio`.\n\n`message_fn` should take the loop state and return a binary\nrepresenting the message to be written to the IO device.","ref":"Axon.Loop.html#log/3","title":"Axon.Loop.log/3","type":"function"},{"doc":"Creates a loop from `step_fn`, an optional `init_fn`, and an\noptional `output_transform`.\n\n`step_fn` is an arity-2 function which takes a batch and state\nand returns an updated step state:\n\n    defn batch_step(batch, step_state) do\n      step_state + 1\n    end\n\n`init_fn` by default is an identity function which forwards its\ninitial arguments as the model state. You should define a custom\ninitialization function if you require a different behavior:\n\n    defn init_step_state(state) do\n      Map.merge(%{foo: 1}, state)\n    end\n\nYou may use `state` in conjunction with initialization functions in\n`init_fn`. For example, `train_step/3` uses initial state as initial\nmodel parameters to allow initializing models from partial parameterizations.\n\n`step_batch/2` and `init_step_state/1` are typically called from\nwithin `Nx.Defn.jit/3`. While JIT-compilation will work with anonymous functions,\n`def`, and `defn`, it is recommended that you use the stricter `defn` to define\nboth functions in order to avoid bugs or cryptic errors.\n\n`output_transform/1` applies a transformation on the final accumulated loop state.\nThis is useful for extracting specific fields from a loop and piping them into\nadditional functions.","ref":"Axon.Loop.html#loop/3","title":"Axon.Loop.loop/3","type":"function"},{"doc":"Adds a metric of the given name to the loop.\n\nA metric is a function which tracks or measures some value with respect\nto values in the step state. For example, when training classification\nmodels, it's common to track the model's accuracy during training:\n\n    loop\n    |> Axon.Loop.metric(:accuracy, \"Accuracy\")\n\nBy default, metrics assume a supervised learning task and extract the fields\n`[:y_true, :y_pred]` from the step state. If you wish to work on a different\nvalue, you can use an output transform. An output transform is a list of keys\nto extract from the output state, or a function which returns a flattened list\nof values to pass to the given metric function. Values received from output\ntransforms are passed to the given metric using:\n\n    value = output_transform.(step_state)\n    apply(metric, value)\n\nThus, even if you want your metric to work on a container, your output transform\nmust return a list.\n\n`metric` must be an atom which matches the name of a metric in `Axon.Metrics`, or\nan arbitrary function which returns a tensor or container.\n\n`name` must be a string or atom used to store the computed metric in the loop\nstate. If names conflict, the last attached metric will take precedence:\n\n    loop\n    |> Axon.Loop.metric(:mean_squared_error, \"Error\") # Will be overwritten\n    |> Axon.Loop.metric(:mean_absolute_error, \"Error\") # Will be used\n\nBy default, metrics keep a running average of the metric calculation. You can\noverride this behavior by changing `accumulate`:\n\n    loop\n    |> Axon.Loop.metric(:true_negatives, \"tn\", :running_sum)\n\nAccumulation function can be one of the accumulation combinators in Axon.Metrics\nor an arity-3 function of the form: `accumulate(acc, obs, i) :: new_acc`.","ref":"Axon.Loop.html#metric/5","title":"Axon.Loop.metric/5","type":"function"},{"doc":"Adds a handler function which monitors the given metric\nand fires some action when the given metric meets some\ncriteria.\n\nThis function is a generalization of handlers such as\n`Axon.Loop.reduce_lr_on_plateau/3` and `Axon.Loop.early_stop/3`.\n\nYou must specify a metric to monitor that is present in\nthe state metrics. This handler will then monitor the value\nof the metric at the specified intervals and fire the specified\nfunction if the criteria is met.\n\nYou must also specify a name for the monitor attached to the\ngiven metric. This will be used to store metadata associated\nwith the monitor.\n\nThe common case of monitor is to track improvement of metrics\nand take action if metrics haven't improved after a certain number\nof events. However, you can also set a monitor up to trigger if\na metric hits some criteria (such as a threshold) by passing a\ncustom monitoring mode.","ref":"Axon.Loop.html#monitor/5","title":"Axon.Loop.monitor/5","type":"function"},{"doc":"* `:event` - event to fire handler on. Defaults to `:epoch_completed`.\n\n  * `:filter` - event filter to attach to handler. Defaults to `:always`.\n\n  * `:patience` - number of given events to wait for improvement. Defaults\n    to `3`.\n\n  * `:mode` - whether given metric is being minimized or maximized. One of\n    `:min`, `:max` or an arity-1 function which returns `true` or `false`.\n    Defaults to `:min`.","ref":"Axon.Loop.html#monitor/5-options","title":"Options - Axon.Loop.monitor/5","type":"function"},{"doc":"Adds a handler function which reduces the learning rate by\nthe given factor if the given metric does not improve between\nevents.\n\nBy default, this will run after each epoch and track the\nimprovement of a given metric.\n\nYou must specify a metric to monitor and the metric must\nbe present in the loop state. Typically, this will be\na validation metric:\n\n    model\n    |> Axon.Loop.trainer(loss, optim)\n    |> Axon.Loop.metric(:accuracy)\n    |> Axon.Loop.validate(model, val_data)\n    |> Axon.Loop.reduce_lr_on_plateau(\"accuracy\", mode: :max)","ref":"Axon.Loop.html#reduce_lr_on_plateau/3","title":"Axon.Loop.reduce_lr_on_plateau/3","type":"function"},{"doc":"* `:event` - event to fire handler on. Defaults to `:epoch_completed`.\n\n  * `:filter` - event filter to attach to handler. Defaults to `:always`.\n\n  * `:patience` - number of given events to wait for improvement. Defaults\n    to `3`.\n\n  * `:mode` - whether given metric is being minimized or maximized. Defaults\n    to `:min`.\n\n  * `:factor` - factor to decrease learning rate by. Defaults to `0.1`.","ref":"Axon.Loop.html#reduce_lr_on_plateau/3-options","title":"Options - Axon.Loop.reduce_lr_on_plateau/3","type":"function"},{"doc":"Runs the given loop on data with the given options.\n\n`loop` must be a valid Axon.Loop struct built from one of the\nloop factories provided in this module.\n\n`data` must be an Enumerable or Stream which yields batches of\ndata on each iteration.","ref":"Axon.Loop.html#run/4","title":"Axon.Loop.run/4","type":"function"},{"doc":"* `:epochs` - max epochs to run loop for. Must be non-negative integer.\n    Defaults to `1`.\n\n  * `:iterations` - max iterations to run each epoch. Must be non-negative\n    integer. Defaults to `-1` or no max iterations.\n\n  * `:jit_compile?` - whether or not to JIT compile initialization and step\n    functions. JIT compilation must be used for gradient computations. Defaults\n    to true.\n\n  * `:garbage_collect` - whether or not to garbage collect after\n    each loop iteration. This may prevent OOMs, but it will slow down training.\n\n  * `:strict?` - whether or not to compile step functions strictly. If this flag\n    is set, the loop will raise on any cache miss during the training loop. Defaults\n    to true.\n\n  * `:debug` - run loop in debug mode to trace loop progress. Defaults to\n    false.\n\n  Additional options are forwarded to `Nx.Defn.jit` as JIT-options. If no JIT\n  options are set, the default options set with `Nx.Defn.default_options` are\n  used.","ref":"Axon.Loop.html#run/4-options","title":"Options - Axon.Loop.run/4","type":"function"},{"doc":"Serializes loop state to a binary for saving and loading\nloop from previous states.\n\nYou can consider the serialized state to be a checkpoint of\nall state at a given iteration and epoch.\n\nBy default, the step state is serialized using `Nx.serialize/2`;\nhowever, this behavior can be changed if step state is an application\nspecific container. For example, if you introduce your own data\nstructure into step_state, `Nx.serialize/2` will not be sufficient\nfor serialization - you must pass custom serialization as an option\nwith `:serialize_step_state`.\n\nAdditional `opts` controls serialization options such as compression.\nIt is forwarded to `:erlang.term_to_binary/2`.","ref":"Axon.Loop.html#serialize_state/2","title":"Axon.Loop.serialize_state/2","type":"function"},{"doc":"Creates a supervised train step from a model, loss function, and\noptimizer.\n\nThis function is intended for more fine-grained control over the loop\ncreation process. It returns a tuple of `{init_fn, step_fn}` where `init_fn`\nis an initialization function which returns an initial step state and\n`step_fn` is a supervised train step constructed from `model`, `loss`,\nand `optimizer`.\n\n`model` must be an Axon struct, a valid defn container\nof Axon structs, or a `{init_fn, apply_fn}`-tuple where `init_fn` is\nan arity-2 function which initializes the model state and `apply_fn` is\nan arity-2 function which applies the forward pass of the model. The forward\npass of the model must return a map with keys `:prediction` and `:state`\nrepresenting the model's prediction and updated state for layers which\naggregate state during training.\n\n`loss` must be an atom which matches a function in `Axon.Losses`, a list\nof `{loss, weight}` tuples representing a basic weighted loss function\nfor multi-output models, or an arity-2 function representing a custom loss\nfunction.\n\n`optimizer` must be an atom matching the name of a valid optimizer in `Polaris.Optimizers`,\nor a `{init_fn, update_fn}` tuple where `init_fn` is an arity-1 function which\ninitializes the optimizer state from the model parameters and `update_fn` is an\narity-3 function that receives `(gradient, optimizer_state, model_parameters)` and\nscales gradient updates with respect to input parameters, optimizer state, and gradients.\nThe `update_fn` returns `{scaled_updates, optimizer_state}`, which can then be applied to\nthe model through `model_parameters = Axon.Update.apply_updates(model_parameters, scaled_updates)`.\nSee `Polaris.Updates` for more information on building optimizers.","ref":"Axon.Loop.html#train_step/4","title":"Axon.Loop.train_step/4","type":"function"},{"doc":"* `:seed` - seed to use when constructing models. Seed controls random initialization\n    of model parameters. Defaults to no seed which constructs a random seed for you at\n    model build time.\n\n  * `:loss_scale` - type of loss-scaling to use, if any. Loss-scaling is necessary when\n    doing mixed precision training for numerical stability. Defaults to `:identity` or\n    no loss-scaling.\n\n  * `:gradient_accumulation_steps` - number of gradient accumulation steps to take during\n    training. Gradient accumulation decreases the number of updates by accumulating gradients\n    between steps, increasing the effective batch size on smaller devices. Defaults to 1.","ref":"Axon.Loop.html#train_step/4-options","title":"Options - Axon.Loop.train_step/4","type":"function"},{"doc":"Creates a supervised training loop from a model, loss function,\nand optimizer.\n\nThis function is useful for training models on most standard supervised\nlearning tasks. It assumes data consists of tuples of input-target pairs,\ne.g. `[{x0, y0}, {x1, y1}, ..., {xN, yN}]` where `x0` and `y0` are batched\ntensors or containers of batched tensors.\n\nIt defines an initialization function which first initializes model state\nusing the given model and then initializes optimizer state using the initial\nmodel state. The step function uses a differentiable objective function\ndefined with respect to the model parameters, input data, and target data\nusing the given loss function. It then updates model parameters using the\ngiven optimizer in order to minimize loss with respect to the model parameters.\n\n`model` must be an Axon struct, a valid defn container\nof Axon structs, or a `{init_fn, apply_fn}`-tuple where `init_fn` is\nan arity-2 function which initializes the model state and `apply_fn` is\nan arity-2 function which applies the forward pass of the model.\n\n`loss` must be an atom which matches a function in `Axon.Losses`, a list\nof `{loss, weight}` tuples representing a basic weighted loss function\nfor multi-output models, or an arity-2 function representing a custom loss\nfunction.\n\n`optimizer` must be an atom matching the name of a valid optimizer in `Polaris.Optimizers`,\nor a `{init_fn, update_fn}` tuple where `init_fn` is an arity-1 function which\ninitializes the optimizer state from attached parameters and `update_fn` is an\narity-3 function which scales gradient updates with respect to input parameters,\noptimizer state, and gradients. See `Polaris.Updates` for more information on building\noptimizers.\n\nThis function creates a step function which outputs a map consisting of the following\nfields for `step_state`:\n\n    %{\n      y_pred: tensor() | container(tensor()), # Model predictions for use in metrics\n      y_true: tensor() | container(tensor()), # True labels for use in metrics\n      loss: tensor(), # Running average of loss over epoch\n      model_state: container(tensor()), # Model parameters and state\n      optimizer_state: container(tensor()) # Optimizer state associated with each parameter\n    }","ref":"Axon.Loop.html#trainer/4","title":"Axon.Loop.trainer/4","type":"function"},{"doc":"#","ref":"Axon.Loop.html#trainer/4-examples","title":"Examples - Axon.Loop.trainer/4","type":"function"},{"doc":"data = Stream.zip(input, target)\n\n    model = Axon.input(\"input\", shape: {nil, 32}) |> Axon.dense(1, activation: :sigmoid)\n\n    model\n    |> Axon.Loop.trainer(:binary_cross_entropy, :adam)\n    |> Axon.Loop.run(data)\n\n#","ref":"Axon.Loop.html#trainer/4-basic-usage","title":"Basic usage - Axon.Loop.trainer/4","type":"function"},{"doc":"model\n    |> Axon.Loop.trainer(:binary_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.05))\n    |> Axon.Loop.run(data)\n\n#","ref":"Axon.Loop.html#trainer/4-customizing-optimizer","title":"Customizing Optimizer - Axon.Loop.trainer/4","type":"function"},{"doc":"loss_fn = fn y_true, y_pred -> Nx.cos(y_true, y_pred) end\n\n    model\n    |> Axon.Loop.trainer(loss_fn, Polaris.Optimizers.rmsprop(learning_rate: 0.01))\n    |> Axon.Loop.run(data)\n\n#","ref":"Axon.Loop.html#trainer/4-custom-loss","title":"Custom loss - Axon.Loop.trainer/4","type":"function"},{"doc":"model = {Axon.input(\"input_0\", shape: {nil, 1}), Axon.input(\"input_1\", shape: {nil, 2})}\n    loss_weights = [mean_squared_error: 0.5, mean_absolute_error: 0.5]\n\n    model\n    |> Axon.Loop.trainer(loss_weights, :sgd)\n    |> Axon.Loop.run(data)","ref":"Axon.Loop.html#trainer/4-multiple-objectives-with-multi-output-model","title":"Multiple objectives with multi-output model - Axon.Loop.trainer/4","type":"function"},{"doc":"* `:log` - training loss and metric log interval. Set to 0 to silence\n    training logs. Defaults to 50\n\n  * `:seed` - seed to use when constructing models. Seed controls random initialization\n    of model parameters. Defaults to no seed which constructs a random seed for you at\n    model build time.\n\n  * `:loss_scale` - type of loss-scaling to use, if any. Loss-scaling is necessary when\n    doing mixed precision training for numerical stability. Defaults to `:identity` or\n    no loss-scaling.\n\n  * `:gradient_accumulation_steps` - number of gradient accumulation steps to take during\n    training. Gradient accumulation decreases the number of updates by accumulating gradients\n    between steps, increasing the effective batch size on smaller devices. Defaults to 1.","ref":"Axon.Loop.html#trainer/4-options","title":"Options - Axon.Loop.trainer/4","type":"function"},{"doc":"Adds a handler function which tests the performance of `model`\nagainst the given validation set.\n\nThis handler assumes the loop state matches the state initialized\nin a supervised training loop. Typically, you'd call this immediately\nafter creating a supervised training loop:\n\n    model\n    |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n    |> Axon.Loop.validate(model, validation_data)\n\nPlease note that you must pass the same (or an equivalent) model\ninto this method so it can be used during the validation loop. The\nmetrics which are computed are those which are present BEFORE the\nvalidation handler was added to the loop. For the following loop:\n\n    model\n    |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n    |> Axon.Loop.metric(:mean_absolute_error)\n    |> Axon.Loop.validate(model, validation_data)\n    |> Axon.Loop.metric(:binary_cross_entropy)\n\nonly `:mean_absolute_error` will be computed at validation time.\n\nThe returned loop state is altered to contain validation\nmetrics for use in later handlers such as early stopping and model\ncheckpoints. Since the order of execution of event handlers is in\nthe same order they are declared in the training loop, you MUST call\nthis method before any other handler which expects or may use\nvalidation metrics.\n\nBy default the validation loop runs after every epoch; however, you\ncan customize it by overriding the default event and event filters:\n\n    model\n    |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n    |> Axon.Loop.metric(:mean_absolute_error)\n    |> Axon.Loop.validate(model, validation_data, event: :iteration_completed, filter: [every: 10_000])\n    |> Axon.Loop.metric(:binary_cross_entropy)","ref":"Axon.Loop.html#validate/4","title":"Axon.Loop.validate/4","type":"function"},{"doc":"Accumulated state in an Axon.Loop.\n\nLoop state is a struct:\n\n    %State{\n      epoch: integer(),\n      max_epoch: integer(),\n      iteration: integer(),\n      max_iteration: integer(),\n      metrics: map(string(), container()),\n      times: map(integer(), integer()),\n      step_state: container(),\n      handler_metadata: container()\n    }\n\n`epoch` is the current epoch, starting at 0, of the nested loop.\nDefaults to 0.\n\n`max_epoch` is the maximum number of epochs the loop should run\nfor. Defaults to 1.\n\n`iteration` is the current iteration of the inner loop. In supervised\nsettings, this will be the current batch. Defaults to 0.\n\n`max_iteration` is the maximum number of iterations the loop should\nrun a given epoch for. Defaults to -1 (no max).\n\n`metrics` is a map of `%{\"metric_name\" => value}` which accumulates metrics\nover the course of loop processing. Defaults to an empty map.\n\n`times` is a map of `%{epoch_number => value}` which maps a given epoch\nto the processing time. Defaults to an empty map.\n\n`step_state` is the step state as defined by the loop's processing\ninitialization and update functions. `step_state` is a required field.\n\n`handler_metadata` is a metadata field for storing loop handler metadata.\nFor example, loop checkpoints with specific metric criteria can store\nprevious best metrics in the handler meta for use between iterations.\n\n`event_counts` is a metadata field which stores information about the number\nof times each event has been fired. This is useful when creating custom filters.\n\n`status` refers to the loop state status after the loop has executed. You can\nuse this to determine if the loop ran to completion or if it was halted early.","ref":"Axon.Loop.State.html","title":"Axon.Loop.State","type":"module"},{"doc":"","ref":"Axon.CompileError.html","title":"Axon.CompileError","type":"exception"},{"doc":"","ref":"Axon.CompileError.html#message/1","title":"Axon.CompileError.message/1","type":"function"},{"doc":"# Axon Guides\n\nAxon is a library for creating and training neural networks in Elixir. The Axon guides are a collection of Livebooks designed to introduce Axon's APIs and design decisions from the bottom-up. After working through the guides, you will feel comfortable and confident working with Axon and using Axon for your next deep learning problem.","ref":"guides.html","title":"Axon Guides","type":"extras"},{"doc":"* [Your first Axon model](model_creation/your_first_axon_model.livemd)\n* [Sequential models](model_creation/sequential_models.livemd)\n* [Complex models](model_creation/complex_models.livemd)\n* [Multi-input / multi-output models](model_creation/multi_input_multi_output_models.livemd)\n* [Custom layers](model_creation/custom_layers.livemd)\n* [Model hooks](model_creation/model_hooks.livemd)","ref":"guides.html#model-creation","title":"Model Creation - Axon Guides","type":"extras"},{"doc":"* [Accelerating Axon](model_execution/accelerating_axon.livemd)\n* [Training and inference mode](model_execution/training_and_inference_mode.livemd)","ref":"guides.html#model-execution","title":"Model Execution - Axon Guides","type":"extras"},{"doc":"* [Your first training loop](training_and_evaluation/your_first_training_loop.livemd)\n* [Instrumenting loops with metrics](training_and_evaluation/instrumenting_loops_with_metrics.livemd)\n* [Your first evaluation loop](training_and_evaluation/your_first_evaluation_loop.livemd)\n* [Using loop event handlers](training_and_evaluation/using_loop_event_handlers.livemd)\n* [Custom models, loss functions, and optimizers](training_and_evaluation/custom_models_loss_optimizers.livemd)\n* [Writing custom metrics](training_and_evaluation/writing_custom_metrics.livemd)\n* [Writing custom event handlers](training_and_evaluation/writing_custom_event_handlers.livemd)","ref":"guides.html#training-and-evaluation","title":"Training and Evaluation - Axon Guides","type":"extras"},{"doc":"* [Converting ONNX models to Axon](serialization/onnx_to_axon.livemd)","ref":"guides.html#serialization","title":"Serialization - Axon Guides","type":"extras"},{"doc":"# Your first Axon model\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"your_first_axon_model.html","title":"Your first Axon model","type":"extras"},{"doc":"Axon is a library for creating and training neural networks in Elixir. Everything in Axon centers around the `%Axon{}` struct which represents an instance of an Axon model.\n\nModels are just graphs which represent the transformation and flow of input data to a desired output. Really, you can think of models as representing a single computation or function. An Axon model, when executed, takes data as input and returns transformed data as output.\n\nAll Axon models start with a declaration of input nodes. These are the root nodes of your computation graph, and correspond to the actual input data you want to send to Axon:\n\n```elixir\ninput = Axon.input(\"data\")\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nTechnically speaking, `input` is now a valid Axon model which you can inspect, execute, and initialize. You can visualize how data flows through the graph using `Axon.Display.as_graph/2`:\n\n```elixir\ntemplate = Nx.template({2, 8}, :f32)\nAxon.Display.as_graph(input, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n;\n```\n\nNotice the execution flow is just a single node, because your graph only consists of an input node! You pass data in and the model spits the same data back out, without any intermediate transformations.\n\nYou can see this in action by actually executing your model. You can build the `%Axon{}` struct into it's `initialization` and `forward` functions by calling `Axon.build/2`. This pattern of \"lowering\" or transforming the `%Axon{}` data structure into other functions or representations is very common in Axon. By simply traversing the data structure, you can create useful functions, execution visualizations, and more!\n\n```elixir\n{init_fn, predict_fn} = Axon.build(input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>,\n #Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>}\n```\n\nNotice that `Axon.build/2` returns a tuple of `{init_fn, predict_fn}`. `init_fn` has the signature:\n\n```\ninit_fn.(template :: map(tensor) | tensor, initial_params :: map) :: map(tensor)\n```\n\nwhile `predict_fn` has the signature:\n\n```\npredict_fn.(params :: map(tensor), input :: map(tensor) | tensor)\n```\n\n`init_fn` returns all of your model's trainable parameters and state. You need to pass a template of the expected inputs because the shape of certain model parameters often depend on the shape of model inputs. You also need to pass any initial parameters you want your model to start with. This is useful for things like transfer learning, which you can read about in another guide.\n\n`predict_fn` returns transformed inputs from your model's trainable parameters and the given inputs.\n\n```elixir\nparams = init_fn.(Nx.template({1, 8}, :f32), %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{}\n```\n\nIn this example, you use `Nx.template/2` to create a *template tensor*, which is a placeholder that does not actually consume any memory. Templates are useful for initialization because you don't actually need to know anything about your inputs other than their shape and type.\n\nNotice `init_fn` returned an empty map because your model does not have any trainable parameters. This should make sense because it's just an input layer.\n\nNow you can pass these trainable parameters to `predict_fn` along with some input to actually execute your model:\n\n```elixir\npredict_fn.(params, Nx.iota({1, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nAnd your model just returned the given input, as expected!","ref":"your_first_axon_model.html#your-first-model","title":"Your first model - Your first Axon model","type":"extras"},{"doc":"# Sequential models\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"sequential_models.html","title":"Sequential models","type":"extras"},{"doc":"In the [last guide](your_first_axon_model.livemd), you created a simple identity model which just returned the input. Of course, you would never actually use Axon for such purposes. You want to create real neural networks!\n\nIn equivalent frameworks in the Python ecosystem such as Keras and PyTorch, there is a concept of *sequential models*. Sequential models are named after the sequential nature in which data flows through them. Sequential models transform the input with sequential, successive transformations.\n\nIf you're an experienced Elixir programmer, this paradigm of sequential transformations might sound a lot like what happens when using the pipe (`|>`) operator. In Elixir, it's common to see code blocks like:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nlist\n|> Enum.map(fn x -> x + 1 end)\n|> Enum.filter(&rem(&1, 2) == 0)\n|> Enum.count()\n```\n\nThe snippet above passes `list` through a sequence of transformations. You can apply this same paradigm in Axon to create sequential models. In fact, creating sequential models is so natural with Elixir's pipe operator, that Axon does not need a distinct *sequential* construct. To create a sequential model, you just pass Axon models through successive transformations in the Axon API:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(32)\n  |> Axon.activation(:relu)\n  |> Axon.dropout(rate: 0.5)\n  |> Axon.dense(1)\n  |> Axon.activation(:softmax)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nIf you visualize this model, it's easy to see how data flows sequentially through it:\n\n```elixir\ntemplate = Nx.template({2, 16}, :f32)\nAxon.Display.as_graph(model, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 16}\"/];\n4[\"dense_0 (:dense) {2, 32}\"];\n5[\"relu_0 (:relu) {2, 32}\"];\n6[\"dropout_0 (:dropout) {2, 32}\"];\n7[\"dense_1 (:dense) {2, 1}\"];\n8[\"softmax_0 (:softmax) {2, 1}\"];\n7 --> 8;\n6 --> 7;\n5 --> 6;\n4 --> 5;\n3 --> 4;\n```\n\nYour model is more involved and as a result so is the execution graph! Now, using the same constructs from the last section, you can build and run your model:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>,\n #Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>}\n```\n\n```elixir\nparams = init_fn.(template, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nWow! Notice that this model actually has trainable parameters. You can see that the parameter map is just a regular Elixir map. Each top-level entry maps to a layer with a key corresponding to that layer's name and a value corresponding to that layer's trainable parameters. Each layer's individual trainable parameters are given layer-specific names and map directly to Nx tensors.\n\nNow you can use these `params` with your `predict_fn`:\n\n```elixir\npredict_fn.(params, Nx.iota({2, 16}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nAnd voila! You've successfully created and used a sequential model in Axon!","ref":"sequential_models.html#creating-a-sequential-model","title":"Creating a sequential model - Sequential models","type":"extras"},{"doc":"# Complex models\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"complex_models.html","title":"Complex models","type":"extras"},{"doc":"Not all models you'd want to create fit cleanly in the *sequential* paradigm. Some models require a more flexible API. Fortunately, because Axon models are just Elixir data structures, you can manipulate them and decompose architectures as you would any other Elixir program:\n\n```elixir\ninput = Axon.input(\"data\")\n\nx1 = input |> Axon.dense(32)\nx2 = input |> Axon.dense(64) |> Axon.relu() |> Axon.dense(32)\n\nout = Axon.add(x1, x2)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nIn the snippet above, your model branches `input` into `x1` and `x2`. Each branch performs a different set of transformations; however, at the end the branches are merged with an `Axon.add/3`. You might sometimes see layers like `Axon.add/3` called *combinators*. Really they're just layers that operate on multiple Axon models at once - typically to merge some branches together.\n\n`out` represents your final Axon model.\n\nIf you visualize this model, you can see the full effect of the branching in this model:\n\n```elixir\ntemplate = Nx.template({2, 8}, :f32)\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n4[\"dense_0 (:dense) {2, 32}\"];\n5[\"dense_1 (:dense) {2, 64}\"];\n6[\"relu_0 (:relu) {2, 64}\"];\n7[\"dense_2 (:dense) {2, 32}\"];\n8[\"container_0 (:container) {{2, 32}, {2, 32}}\"];\n9[\"add_0 (:add) {2, 32}\"];\n8 --> 9;\n7 --> 8;\n4 --> 8;\n6 --> 7;\n5 --> 6;\n3 --> 5;\n3 --> 4;\n```\n\nAnd you can use `Axon.build/2` on `out` as you would any other Axon model:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>,\n #Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>}\n```\n\n```elixir\nparams = init_fn.(template, %{})\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nAs your architectures grow in complexity, you might find yourself reaching for better abstractions to organize your model creation code. For example, PyTorch models are often organized into `nn.Module`. The equivalent of an `nn.Module` in Axon is a regular Elixir function. If you're translating models from PyTorch to Axon, it's natural to create one Elixir function per `nn.Module`.\n\nYou should write your models as you would write any other Elixir code - you don't need to worry about any framework specific constructs:\n\n```elixir\ndefmodule MyModel do\n  def model() do\n    Axon.input(\"data\")\n    |> conv_block()\n    |> Axon.flatten()\n    |> dense_block()\n    |> dense_block()\n    |> Axon.dense(1)\n  end\n\n  defp conv_block(input) do\n    residual = input\n\n    x = input |> Axon.conv(3, padding: :same) |> Axon.mish()\n\n    x\n    |> Axon.add(residual)\n    |> Axon.max_pool(kernel_size: {2, 2})\n  end\n\n  defp dense_block(input) do\n    input |> Axon.dense(32) |> Axon.relu()\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, MyModel, <<70, 79, 82, 49, 0, 0, 8, ...>>, {:dense_block, 1}}\n```\n\n```elixir\nmodel = MyModel.model()\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\ntemplate = Nx.template({1, 28, 28, 3}, :f32)\nAxon.Display.as_graph(model, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n10[/\"data (:input) {1, 28, 28, 3}\"/];\n11[\"conv_0 (:conv) {1, 28, 28, 3}\"];\n12[\"mish_0 (:mish) {1, 28, 28, 3}\"];\n13[\"container_0 (:container) {{1, 28, 28, 3}, {1, 28, 28, 3}}\"];\n14[\"add_0 (:add) {1, 28, 28, 3}\"];\n15[\"max_pool_0 (:max_pool) {1, 14, 14, 3}\"];\n16[\"flatten_0 (:flatten) {1, 588}\"];\n17[\"dense_0 (:dense) {1, 32}\"];\n18[\"relu_0 (:relu) {1, 32}\"];\n19[\"dense_1 (:dense) {1, 32}\"];\n20[\"relu_1 (:relu) {1, 32}\"];\n21[\"dense_2 (:dense) {1, 1}\"];\n20 --> 21;\n19 --> 20;\n18 --> 19;\n17 --> 18;\n16 --> 17;\n15 --> 16;\n14 --> 15;\n13 --> 14;\n10 --> 13;\n12 --> 13;\n11 --> 12;\n10 --> 11;\n```","ref":"complex_models.html#creating-more-complex-models","title":"Creating more complex models - Complex models","type":"extras"},{"doc":"# Multi-input / multi-output models\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"multi_input_multi_output_models.html","title":"Multi-input / multi-output models","type":"extras"},{"doc":"Sometimes your application necessitates the use of multiple inputs. To use multiple inputs in an Axon model, you just need to declare multiple inputs in your graph:\n\n```elixir\ninput_1 = Axon.input(\"input_1\")\ninput_2 = Axon.input(\"input_2\")\n\nout = Axon.add(input_1, input_2)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nNotice when you inspect the model, it tells you what your models inputs are up front. You can also get metadata about your model inputs programmatically with `Axon.get_inputs/1`:\n\n```elixir\nAxon.get_inputs(out)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\"input_1\" => nil, \"input_2\" => nil}\n```\n\nEach input is uniquely named, so you can pass inputs by-name into inspection and execution functions with a map:\n\n```elixir\ninputs = %{\n  \"input_1\" => Nx.template({2, 8}, :f32),\n  \"input_2\" => Nx.template({2, 8}, :f32)\n}\n\nAxon.Display.as_graph(out, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"input_1 (:input) {2, 8}\"/];\n4[/\"input_2 (:input) {2, 8}\"/];\n5[\"container_0 (:container) {{2, 8}, {2, 8}}\"];\n6[\"add_0 (:add) {2, 8}\"];\n5 --> 6;\n4 --> 5;\n3 --> 5;\n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(inputs, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{}\n```\n\n```elixir\ninputs = %{\n  \"input_1\" => Nx.iota({2, 8}, type: :f32),\n  \"input_2\" => Nx.iota({2, 8}, type: :f32)\n}\n\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nIf you forget a required input, Axon will raise:\n\n```elixir\npredict_fn.(params, %{\"input_1\" => Nx.iota({2, 8}, type: :f32)})\n```","ref":"multi_input_multi_output_models.html#creating-multi-input-models","title":"Creating multi-input models - Multi-input / multi-output models","type":"extras"},{"doc":"Depending on your application, you might also want your model to have multiple outputs. You can achieve this by using `Axon.container/2` to wrap multiple nodes into any supported Nx container:\n\n```elixir\ninp = Axon.input(\"data\")\n\nx1 = inp |> Axon.dense(32) |> Axon.relu()\nx2 = inp |> Axon.dense(64) |> Axon.relu()\n\nout = Axon.container({x1, x2})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\ntemplate = Nx.template({2, 8}, :f32)\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n7[/\"data (:input) {2, 8}\"/];\n8[\"dense_0 (:dense) {2, 32}\"];\n9[\"relu_0 (:relu) {2, 32}\"];\n10[\"dense_1 (:dense) {2, 64}\"];\n11[\"relu_1 (:relu) {2, 64}\"];\n12[\"container_0 (:container) {{2, 32}, {2, 64}}\"];\n11 --> 12;\n9 --> 12;\n10 --> 11;\n7 --> 10;\n8 --> 9;\n7 --> 8;\n```\n\nWhen executed, containers will return a data structure which matches their input structure:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Nx.Tensor ,\n #Nx.Tensor }\n```\n\nYou can output maps as well:\n\n```elixir\nout = Axon.container(%{x1: x1, x2: x2})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  x1: #Nx.Tensor ,\n  x2: #Nx.Tensor \n}\n```\n\nContainers even support arbitrary nesting:\n\n```elixir\nout = Axon.container({%{x1: {x1, x2}, x2: %{x1: x1, x2: {x2}}}})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{%{\n   x1: {#Nx.Tensor ,\n    #Nx.Tensor },\n   x2: %{\n     x1: #Nx.Tensor ,\n     x2: {#Nx.Tensor }\n   }\n }}\n```","ref":"multi_input_multi_output_models.html#creating-multi-output-models","title":"Creating multi-output models - Multi-input / multi-output models","type":"extras"},{"doc":"# Custom layers\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"custom_layers.html","title":"Custom layers","type":"extras"},{"doc":"While Axon has a plethora of built-in layers, more than likely you'll run into a case where you need something not provided by the framework. In these instances, you can use *custom layers*.\n\nTo Axon, layers are really just `defn` implementations with special Axon inputs. Every layer in Axon (including the built-in layers), are implemented with the `Axon.layer/3` function. The API of `Axon.layer/3` intentionally mirrors the API of `Kernel.apply/2`. To declare a custom layer you need 2 things:\n\n1. A `defn` implementation\n2. Inputs\n\nThe `defn` implementation looks like any other `defn` you'd write; however, it must always account for additional `opts` as an argument:\n\n```elixir\ndefmodule CustomLayers0 do\n  import Nx.Defn\n\n  defn my_layer(input, opts \\\\ []) do\n    opts = keyword!(opts, mode: :train, alpha: 1.0)\n\n    input\n    |> Nx.sin()\n    |> Nx.multiply(opts[:alpha])\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomLayers0, <<70, 79, 82, 49, 0, 0, 10, ...>>, true}\n```\n\nRegardless of the options you configure your layer to accept, the `defn` implementation will always receive a `:mode` option indicating whether or not the model is running in training or inference mode. You can customize the behavior of your layer depending on the mode.\n\nWith an implementation defined, you need only to call `Axon.layer/3` to apply our custom layer to an Axon input:\n\n```elixir\ninput = Axon.input(\"data\")\n\nout = Axon.layer(&CustomLayers0.my_layer/2, [input])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nNow you can inspect and execute your model as normal:\n\n```elixir\ntemplate = Nx.template({2, 8}, :f32)\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n4[\"custom_0 (:custom) {2, 8}\"];\n3 --> 4;\n```\n\nNotice that by default custom layers render with a default operation marked as `:custom`. This can make it difficult to determine which layer is which during inspection. You can control the rendering by passing `:op_name` to `Axon.layer/3`:\n\n```elixir\nout = Axon.layer(&CustomLayers0.my_layer/2, [input], op_name: :my_layer)\n\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n5[\"my_layer_0 (:my_layer) {2, 8}\"];\n3 --> 5;\n```\n\nYou can also control the name of your layer via the `:name` option. All other options are forwarded to the layer implementation function:\n\n```elixir\nout =\n  Axon.layer(&CustomLayers0.my_layer/2, [input],\n    name: \"layer\",\n    op_name: :my_layer,\n    alpha: 2.0\n  )\n\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n6[\"layer (:my_layer) {2, 8}\"];\n3 --> 6;\n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{}\n```\n\n```elixir\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nNotice that this model does not have any trainable parameters because none of the layers have trainable parameters. You can introduce trainable parameters by passing inputs created with `Axon.param/3` to `Axon.layer/3`. For example, you can modify your original custom layer to take an additional trainable parameter:\n\n```elixir\ndefmodule CustomLayers1 do\n  import Nx.Defn\n\n  defn my_layer(input, alpha, _opts \\\\ []) do\n    input\n    |> Nx.sin()\n    |> Nx.multiply(alpha)\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomLayers1, <<70, 79, 82, 49, 0, 0, 10, ...>>, true}\n```\n\nAnd then construct the layer with a regular Axon input and a trainable parameter:\n\n```elixir\nalpha = Axon.param(\"alpha\", fn _ -> {} end)\n\nout = Axon.layer(&CustomLayers1.my_layer/3, [input, alpha], op_name: :my_layer)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"my_layer_0\" => %{\n    \"alpha\" => #Nx.Tensor \n  }\n}\n```\n\nNotice how your model now initializes with a trainable parameter `\"alpha\"` for your custom layer. Each parameter requires a unique (per-layer) string name and a function which determines the parameter's shape from the layer's input shapes.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nIf you plan on re-using custom layers in many locations, it's recommended that you wrap them in an Elixir function as an interface:\n\n```elixir\ndefmodule CustomLayers2 do\n  import Nx.Defn\n\n  def my_layer(%Axon{} = input, opts \\\\ []) do\n    opts = Keyword.validate!(opts, [:name])\n    alpha = Axon.param(\"alpha\", fn _ -> {} end)\n\n    Axon.layer(&my_layer_impl/3, [input, alpha], name: opts[:name], op_name: :my_layer)\n  end\n\n  defnp my_layer_impl(input, alpha, _opts \\\\ []) do\n    input\n    |> Nx.sin()\n    |> Nx.multiply(alpha)\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomLayers2, <<70, 79, 82, 49, 0, 0, 12, ...>>, true}\n```\n\n```elixir\nout =\n  input\n  |> CustomLayers2.my_layer()\n  |> CustomLayers2.my_layer()\n  |> Axon.dense(1)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n8[\"my_layer_0 (:my_layer) {2, 8}\"];\n9[\"my_layer_1 (:my_layer) {2, 8}\"];\n10[\"dense_0 (:dense) {2, 1}\"];\n9 --> 10;\n8 --> 9;\n3 --> 8;\n```","ref":"custom_layers.html#creating-custom-layers","title":"Creating custom layers - Custom layers","type":"extras"},{"doc":"# Model hooks\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"model_hooks.html","title":"Model hooks","type":"extras"},{"doc":"Sometimes it's useful to inspect or visualize the values of intermediate layers in your model during the forward or backward pass. For example, it's common to visualize the gradients of activation functions to ensure your model is learning in a stable manner. Axon supports this functionality via model hooks.\n\nModel hooks are a means of unidirectional communication with an executing model. Hooks are unidirectional in the sense that you can only **receive** information from your model, and not send information back.\n\nHooks are attached per-layer and can execute at 4 different points in model execution: on the pre-forward, forward, or backward pass of the model or during model initialization. You can also configure the same hook to execute on all 3 events. You can attach hooks to models using `Axon.attach_hook/3`:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :dense_forward) end, on: :forward)\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :dense_init) end, on: :initialize)\n  |> Axon.relu()\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :relu) end, on: :forward)\n\n{init_fn, predict_fn} = Axon.build(model)\n\ninput = Nx.iota({2, 4}, type: :f32)\nparams = init_fn.(input, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\ndense_init: %{\n  \"bias\" => #Nx.Tensor ,\n  \"kernel\" => #Nx.Tensor \n}\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nNotice how during initialization the `:dense_init` hook fired and inspected the layer's parameters. Now when executing, you'll see outputs for `:dense` and `:relu`:\n\n```elixir\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nrelu: #Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nIt's important to note that hooks execute in the order they were attached to a layer. If you attach 2 hooks to the same layer which execute different functions on the same event, they will run in order:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :hook1) end, on: :forward)\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :hook2) end, on: :forward)\n  |> Axon.relu()\n\n{init_fn, predict_fn} = Axon.build(model)\nparams = init_fn.(input, %{})\n\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nhook2: #Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nNotice that `:hook1` fires before `:hook2`.\n\nYou can also specify a hook to fire on all events:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.attach_hook(&IO.inspect/1, on: :all)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\n{init_fn, predict_fn} = Axon.build(model)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>,\n #Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>}\n```\n\nOn initialization:\n\n```elixir\nparams = init_fn.(input, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"bias\" => #Nx.Tensor ,\n  \"kernel\" => #Nx.Tensor \n}\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nOn pre-forward and forward:\n\n```elixir\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n#Nx.Tensor \n#Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nAnd on backwards:\n\n```elixir\nNx.Defn.grad(fn params -> predict_fn.(params, input) end).(params)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n#Nx.Tensor \n#Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nFinally, you can specify hooks to only run when the model is built in a certain mode such as training and inference mode. You can read more about training and inference mode in [Training and inference mode](../model_execution/training_and_inference_mode.livemd):\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.attach_hook(&IO.inspect/1, on: :forward, mode: :train)\n  |> Axon.relu()\n\n{init_fn, predict_fn} = Axon.build(model, mode: :train)\nparams = init_fn.(input, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nThe model was built in training mode so the hook will run:\n\n```elixir\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  prediction: #Nx.Tensor ,\n  state: %{}\n}\n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model, mode: :inference)\nparams = init_fn.(input, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nThe model was built in inference mode so the hook will not run:\n\n```elixir\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```","ref":"model_hooks.html#creating-models-with-hooks","title":"Creating models with hooks - Model hooks","type":"extras"},{"doc":"# Accelerating Axon\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:exla, \">= 0.5.0\"},\n  {:torchx, \">= 0.5.0\"},\n  {:benchee, \"~> 1.1\"},\n  {:kino, \">= 0.9.0\", override: true}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"accelerating_axon.html","title":"Accelerating Axon","type":"extras"},{"doc":"Nx provides two mechanisms for accelerating your neural networks: backends and compilers. Before we learn how to effectively use them, first let's create a simple model for benchmarking purposes:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(32)\n  |> Axon.relu()\n  |> Axon.dense(1)\n  |> Axon.softmax()\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nBackends are where your tensors (your neural network inputs and parameters) are located. By default, Nx and Axon run all computations using the `Nx.BinaryBackend` which is a pure Elixir implementation of various numerical routines. The `Nx.BinaryBackend` is guaranteed to run wherever an Elixir installation runs; however, it is **very** slow. Due to the computational expense of neural networks, you should basically never use the `Nx.BinaryBackend` and instead opt for one of the available accelerated libraries. At the time of writing, Nx officially supports two of them:\n\n1. EXLA - Acceleration via Google's [XLA project](https://www.tensorflow.org/xla)\n2. TorchX - Bindings to [LibTorch](https://pytorch.org/cppdocs/)\n\nAxon will respect the global and process-level Nx backend configuration. Compilers are covered more in-depth in the second half of this example. You can set the default backend using the following APIs:\n\n```elixir\n# Sets the global compilation options (for all Elixir processes)\nNx.global_default_backend(Torchx.Backend)\n# OR\nNx.global_default_backend(EXLA.Backend)\n\n# Sets the process-level compilation options (current process only)\nNx.default_backend(Torchx.Backend)\n# OR\nNx.default_backend(EXLA.Backend)\n```\n\nNow all tensors and operations on them will run on the configured backend:\n\n```elixir\n{inputs, _next_key} =\n  Nx.Random.key(9999)\n  |> Nx.Random.uniform(shape: {2, 128})\n\n{init_fn, predict_fn} = Axon.build(model)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n  f32[2][1]\n  [\n    [1.0],\n    [1.0]\n  ]\n>\n```\n\nAs you swap backends above, you will get tensors allocated on different backends as results. You should be careful using multiple backends in the same project as attempting to mix tensors between backends may result in strange performance bugs or errors, as Nx will require you to explicitly convert between backends.\n\nWith most larger models, using a compiler will bring more performance benefits in addition to the backend.","ref":"accelerating_axon.html#using-nx-backends-in-axon","title":"Using Nx Backends in Axon - Accelerating Axon","type":"extras"},{"doc":"Axon is built entirely on top of Nx's numerical definitions `defn`. Functions declared with `defn` tell Nx to use *just-in-time compilation* to compile and execute the given numerical definition with an available Nx compiler. Numerical definitions enable acceleration on CPU/GPU/TPU via pluggable compilers. At the time of this writing, only EXLA supports a compiler in addition to its backend.\n\nWhen you call `Axon.build/2`, Axon can automatically mark your initialization and forward functions as JIT compiled functions. First let's make sure we are using the EXLA backend:\n\n```elixir\nNx.default_backend(EXLA.Backend)\n```\n\nAnd now let's build another model, this time passing the EXLA compiler as an option:\n\n```elixir\n{inputs, _next_key} =\n  Nx.Random.key(9999)\n  |> Nx.Random.uniform(shape: {2, 128})\n\n{init_fn, predict_fn} = Axon.build(model, compiler: EXLA)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n\n15:39:26.463 [info] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n\n15:39:26.473 [info] XLA service 0x7f3488329030 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:\n\n15:39:26.473 [info]   StreamExecutor device (0): NVIDIA GeForce RTX 3050 Ti Laptop GPU, Compute Capability 8.6\n\n15:39:26.473 [info] Using BFC allocator.\n\n15:39:26.473 [info] XLA backend allocating 3605004288 bytes on device 0 for BFCAllocator.\n\n15:39:28.272 [info] TensorFloat-32 will be used for the matrix multiplication. This will only be logged once.\n\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n  [\n    [1.0],\n    [1.0]\n  ]\n>\n```\n\nYou can also instead JIT compile functions explicitly via the `Nx.Defn.jit` or compiler-specific JIT APIs. This is useful when running benchmarks against various backends:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model)\n\n# These will both JIT compile with EXLA\nexla_init_fn = Nx.Defn.jit(init_fn, compiler: EXLA)\nexla_predict_fn = EXLA.jit(predict_fn)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>\n```\n\n```elixir\nBenchee.run(\n  %{\n    \"elixir init\" => fn -> init_fn.(inputs, %{}) end,\n    \"exla init\" => fn -> exla_init_fn.(inputs, %{}) end\n  },\n  time: 10,\n  memory_time: 5,\n  warmup: 2\n)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nWarning: the benchmark elixir init is using an evaluated function.\n  Evaluated functions perform slower than compiled functions.\n  You can move the Benchee caller to a function in a module and invoke `Mod.fun()` instead.\n  Alternatively, you can move the benchmark into a benchmark.exs file and run mix run benchmark.exs\n\nWarning: the benchmark exla init is using an evaluated function.\n  Evaluated functions perform slower than compiled functions.\n  You can move the Benchee caller to a function in a module and invoke `Mod.fun()` instead.\n  Alternatively, you can move the benchmark into a benchmark.exs file and run mix run benchmark.exs\n\nOperating System: Linux\nCPU Information: Intel(R) Core(TM) i7-7600U CPU @ 2.80GHz\nNumber of Available Cores: 4\nAvailable memory: 24.95 GB\nElixir 1.13.4\nErlang 25.0.4\n\nBenchmark suite executing with the following configuration:\nwarmup: 2 s\ntime: 10 s\nmemory time: 5 s\nreduction time: 0 ns\nparallel: 1\ninputs: none specified\nEstimated total run time: 34 s\n\nBenchmarking elixir init ...\nBenchmarking exla init ...\n\nName                  ips        average  deviation         median         99th %\nexla init          3.79 K        0.26 ms   ±100.40%        0.24 ms        0.97 ms\nelixir init        0.52 K        1.91 ms    ±35.03%        1.72 ms        3.72 ms\n\nComparison:\nexla init          3.79 K\nelixir init        0.52 K - 7.25x slower +1.65 ms\n\nMemory usage statistics:\n\nName           Memory usage\nexla init           9.80 KB\nelixir init       644.63 KB - 65.80x memory usage +634.83 KB\n\n**All measurements for memory usage were the same**\n```\n\n```elixir\nBenchee.run(\n  %{\n    \"elixir predict\" => fn -> predict_fn.(params, inputs) end,\n    \"exla predict\" => fn -> exla_predict_fn.(params, inputs) end\n  },\n  time: 10,\n  memory_time: 5,\n  warmup: 2\n)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nWarning: the benchmark elixir predict is using an evaluated function.\n  Evaluated functions perform slower than compiled functions.\n  You can move the Benchee caller to a function in a module and invoke `Mod.fun()` instead.\n  Alternatively, you can move the benchmark into a benchmark.exs file and run mix run benchmark.exs\n\nWarning: the benchmark exla predict is using an evaluated function.\n  Evaluated functions perform slower than compiled functions.\n  You can move the Benchee caller to a function in a module and invoke `Mod.fun()` instead.\n  Alternatively, you can move the benchmark into a benchmark.exs file and run mix run benchmark.exs\n\nOperating System: Linux\nCPU Information: Intel(R) Core(TM) i7-7600U CPU @ 2.80GHz\nNumber of Available Cores: 4\nAvailable memory: 24.95 GB\nElixir 1.13.4\nErlang 25.0.4\n\nBenchmark suite executing with the following configuration:\nwarmup: 2 s\ntime: 10 s\nmemory time: 5 s\nreduction time: 0 ns\nparallel: 1\ninputs: none specified\nEstimated total run time: 34 s\n\nBenchmarking elixir predict ...\nBenchmarking exla predict ...\n\nName                     ips        average  deviation         median         99th %\nexla predict          2.32 K        0.43 ms   ±147.05%        0.34 ms        1.61 ms\nelixir predict        0.28 K        3.53 ms    ±42.21%        3.11 ms        7.26 ms\n\nComparison:\nexla predict          2.32 K\nelixir predict        0.28 K - 8.20x slower +3.10 ms\n\nMemory usage statistics:\n\nName              Memory usage\nexla predict          10.95 KB\nelixir predict        91.09 KB - 8.32x memory usage +80.14 KB\n\n**All measurements for memory usage were the same**\n```\n\nNotice how calls to EXLA variants are significantly faster. These speedups become more pronounced with more complex models and workflows.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nIt's important to note that in order to use a given library as an Nx compiler, it must implement the Nx compilation behaviour. For example, you cannot invoke Torchx as an Nx compiler because it does not support JIT compilation at this time.","ref":"accelerating_axon.html#using-nx-compilers-in-axon","title":"Using Nx Compilers in Axon - Accelerating Axon","type":"extras"},{"doc":"While Nx mostly tries to standardize behavior across compilers and backends, some behaviors are backend-specific. For example, the API for choosing an acceleration platform (e.g. CUDA/ROCm/TPU) is backend-specific. You should refer to your chosen compiler or backend's documentation for information on targeting various accelerators. Typically, you only need to change a few configuration options and your code will run as-is on a chosen accelerator.","ref":"accelerating_axon.html#a-note-on-cpus-gpus-tpus","title":"A Note on CPUs/GPUs/TPUs - Accelerating Axon","type":"extras"},{"doc":"# Training and inference mode\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"training_and_inference_mode.html","title":"Training and inference mode","type":"extras"},{"doc":"Some layers have different considerations and behavior when running during model training versus model inference. For example *dropout layers* are intended only to be used during training as a form of model regularization. Certain stateful layers like *batch normalization* keep a running-internal state which changes during training mode but remains fixed during inference mode. Axon supports mode-dependent execution behavior via the `:mode` option passed to all building, compilation, and execution methods. By default, all models build in inference mode. You can see this behavior by adding a dropout layer with a dropout rate of 1. In inference mode this layer will have no affect:\n\n```elixir\ninputs = Nx.iota({2, 8}, type: :f32)\n\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(4)\n  |> Axon.sigmoid()\n  |> Axon.dropout(rate: 0.99)\n  |> Axon.dense(1)\n\n{init_fn, predict_fn} = Axon.build(model)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nYou can also explicitly specify the mode:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model, mode: :inference)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nIt's important that you know which mode your model's were compiled for, as running a model built in `:inference` mode will behave drastically different than a model built in `:train` mode.","ref":"training_and_inference_mode.html#executing-models-in-inference-mode","title":"Executing models in inference mode - Training and inference mode","type":"extras"},{"doc":"By specifying `mode: :train`, you tell your models to execute in training mode. You can see the effects of this behavior here:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model, mode: :train)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  prediction: #Nx.Tensor ,\n  state: %{\n    \"dropout_0\" => %{\n      \"key\" => #Nx.Tensor \n    }\n  }\n}\n```\n\nFirst, notice that your model now returns a map with keys `:prediction` and `:state`. `:prediction` contains the actual model prediction, while `:state` contains the updated state for any stateful layers such as batch norm. When writing custom training loops, you should extract `:state` and use it in conjunction with the updates API to ensure your stateful layers are updated correctly. If your model has stateful layers, `:state` will look similar to your model's parameter map:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(4)\n  |> Axon.sigmoid()\n  |> Axon.batch_norm()\n  |> Axon.dense(1)\n\n{init_fn, predict_fn} = Axon.build(model, mode: :train)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  prediction: #Nx.Tensor ,\n  state: %{\n    \"batch_norm_0\" => %{\n      \"mean\" => #Nx.Tensor ,\n      \"var\" => #Nx.Tensor \n    }\n  }\n}\n```","ref":"training_and_inference_mode.html#executing-models-in-training-mode","title":"Executing models in training mode - Training and inference mode","type":"extras"},{"doc":"# Your first training loop\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"your_first_training_loop.html","title":"Your first training loop","type":"extras"},{"doc":"Axon generalizes the concept of training, evaluation, hyperparameter optimization, and more into the `Axon.Loop` API. Axon loops are a instrumented reductions over Elixir Streams - that basically means you can accumulate some state over an Elixir `Stream` and control different points in the loop execution.\n\nWith Axon, you'll most commonly implement and work with supervised training loops. Because supervised training loops are so common in deep learning, Axon has a loop factory function which takes care of most of the boilerplate of creating a supervised training loop for you. In the beginning of your deep learning journey, you'll almost exclusively use Axon's loop factories to create and run loops.\n\nAxon's supervised training loop assumes you have an input stream of data with entries that look like:\n\n`{batch_inputs, batch_labels}`\n\nEach entry is a batch of input data with a corresponding batch of labels. You can simulate some real training data by constructing an Elixir stream:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Function<51.6935098/2 in Stream.repeatedly/1>\n```\n\nThe most basic supervised training loop in Axon requires 3 things:\n\n1. An Axon model\n2. A loss function\n3. An optimizer\n\nYou can construct an Axon model using the knowledge you've gained from going through the model creation guides:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nAxon comes with built-in loss functions and optimizers which you can use directly when constructing your training loop. To construct your training loop, you use `Axon.Loop.trainer/3`:\n\n```elixir\nloop = Axon.Loop.trainer(model, :mean_squared_error, :sgd)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nYou'll notice that `Axon.Loop.trainer/3` returns an `%Axon.Loop{}` data structure. This data structure contains information which Axon uses to control the execution of the loop. In order to run the loop, you need to explicitly pass it to `Axon.Loop.run/4`:\n\n```elixir\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0563023\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\n`Axon.Loop.run/4` expects a loop to execute, some data to loop over, and any initial state you explicitly want your loop to start with. `Axon.Loop.run/4` will then iterate over your data, executing a step function on each batch, and accumulating some generic loop state. In the case of a supervised training loop, this generic loop state actually represents training state including your model's trained parameters.\n\n`Axon.Loop.run/4` also accepts options which control the loops execution. This includes `:iterations` which controls the number of iterations per epoch a loop should execute for, and `:epochs` which controls the number of epochs a loop should execute for:\n\n```elixir\nAxon.Loop.run(loop, train_data, %{}, epochs: 3, iterations: 500)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 450, loss: 0.0935063\nEpoch: 1, Batch: 450, loss: 0.0576384\nEpoch: 2, Batch: 450, loss: 0.0428323\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou may have noticed that by default `Axon.Loop.trainer/3` configures your loop to log information about training progress every 50 iterations. You can control this when constructing your supervised training loop with the `:log` option:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd, log: 100)\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 900, loss: 0.1492715\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"your_first_training_loop.html#creating-an-axon-training-loop","title":"Creating an Axon training loop - Your first training loop","type":"extras"},{"doc":"# Instrumenting loops with metrics\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"instrumenting_loops_with_metrics.html","title":"Instrumenting loops with metrics","type":"extras"},{"doc":"Often times when executing a loop you want to keep track of various metrics such as accuracy or precision. For training loops, Axon by default only tracks loss; however, you can instrument the loop with additional built-in metrics. For example, you might want to track mean-absolute error on top of a mean-squared error loss:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.metric(:mean_absolute_error)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>},\n    \"mean_absolute_error\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     :mean_absolute_error}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nWhen specifying a metric, you can specify an atom which maps to any of the metrics defined in `Axon.Metrics`. You can also define custom metrics. For more information on custom metrics, see [Writing custom metrics](writing_custom_metrics.livemd).\n\nWhen you run a loop with metrics, Axon will aggregate that metric over the course of the loop execution. For training loops, Axon will also report the aggregate metric in the training logs:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0590630 mean_absolute_error: 0.1463431\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nBy default, the metric will have a name which matches the string form of the given metric. You can give metrics semantic meaning by providing an explicit name:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.metric(:mean_absolute_error, \"model error\")\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0607362 model error: 0.1516546\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nAxon's default aggregation behavior is to aggregate metrics with a running average; however, you can customize this behavior by specifying an explicit accumulation function. Built-in accumulation functions are `:running_average` and `:running_sum`:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.metric(:mean_absolute_error, \"total error\", :running_sum)\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0688004 total error: 151.4876404\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"instrumenting_loops_with_metrics.html#adding-metrics-to-training-loops","title":"Adding metrics to training loops - Instrumenting loops with metrics","type":"extras"},{"doc":"# Your first evaluation loop\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"your_first_evaluation_loop.html","title":"Your first evaluation loop","type":"extras"},{"doc":"Once you have a trained model, it's necessary to test the trained model on some test data. Axon's loop abstraction is general enough to work for both training and evaluating models. Just as Axon implements a canned `Axon.Loop.trainer/3` factory, it also implements a canned `Axon.Loop.evaluator/1` factory.\n\n`Axon.Loop.evaluator/1` creates an evaluation loop which you can instrument with metrics to measure the performance of a trained model on test data. First, you need a trained model:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\ntrain_loop = Axon.Loop.trainer(model, :mean_squared_error, :sgd)\n\ndata =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\ntrained_model_state = Axon.Loop.run(train_loop, data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.1285532\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nRunning loops with `Axon.Loop.trainer/3` returns a trained model state which you can use to evaluate your model. To construct an evaluation loop, you just call `Axon.Loop.evaluator/1` with your pre-trained model:\n\n```elixir\ntest_loop = Axon.Loop.evaluator(model)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nNext, you'll need to instrument your test loop with the metrics you'd like to aggregate:\n\n```elixir\ntest_loop = test_loop |> Axon.Loop.metric(:mean_absolute_error)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     :mean_absolute_error}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nFinally, you can run your loop on test data. Because you want to test your trained model, you need to provide your model's initial state to the test loop:\n\n```elixir\nAxon.Loop.run(test_loop, data, trained_model_state, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nBatch: 999, mean_absolute_error: 0.0856894\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  0 => %{\n    \"mean_absolute_error\" => #Nx.Tensor \n  }\n}\n```","ref":"your_first_evaluation_loop.html#creating-an-axon-evaluation-loop","title":"Creating an Axon evaluation loop - Your first evaluation loop","type":"extras"},{"doc":"# Using loop event handlers\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"using_loop_event_handlers.html","title":"Using loop event handlers","type":"extras"},{"doc":"Often times you want more fine-grained control over things that happen during loop execution. For example, you might want to save loop state to a file every 500 iterations, or log some output to `:stdout` at the end of every epoch. Axon loops allow more fine-grained control via events and event handlers.\n\nAxon fires a number of events during loop execution which allow you to instrument various points in the loop execution cycle. You can attach event handlers to any of these events:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nevents = [\n  :started,             # After loop state initialization\n  :epoch_started,       # On epoch start\n  :iteration_started,   # On iteration start\n  :iteration_completed, # On iteration complete\n  :epoch_completed,     # On epoch complete\n  :epoch_halted,        # On epoch halt, if early halted\n  :halted,              # On loop halt, if early halted\n  :completed            # On loop completion\n]\n```\n\nAxon packages a number of common loop event handlers for you out of the box. These handlers should cover most of the common event handlers you would need to write in practice. Axon also allows for custom event handlers. See [Writing custom event handlers](writing_custom_event_handlers.livemd) for more information.\n\nAn event handler will take the current loop state at the time of the fired event, and alter or use it in someway before returning control back to the main loop execution. You can attach any of Axon's pre-packaged event handlers to a loop by using the function directly. For example, if you want to checkpoint loop state at the end of every epoch, you can use `Axon.Loop.checkpoint/2`:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.checkpoint(event: :epoch_completed)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<17.37390314/1 in Axon.Loop.checkpoint/2>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>},\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nNow when you execute your loop, it will save a checkpoint at the end of every epoch:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.5345965\nEpoch: 1, Batch: 50, loss: 0.4578816\nEpoch: 2, Batch: 50, loss: 0.4527244\nEpoch: 3, Batch: 50, loss: 0.4466343\nEpoch: 4, Batch: 50, loss: 0.4401709\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou can also use event handlers for things as simple as implementing custom logging with the pre-packaged `Axon.Loop.log/4` event handler:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.log(fn _state -> \"epoch is over\\n\" end, event: :epoch_completed, device: :stdio)\n|> Axon.Loop.run(train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.3220241\nepoch is over\nEpoch: 1, Batch: 50, loss: 0.2309804\nepoch is over\nEpoch: 2, Batch: 50, loss: 0.1759415\nepoch is over\nEpoch: 3, Batch: 50, loss: 0.1457551\nepoch is over\nEpoch: 4, Batch: 50, loss: 0.1247821\nepoch is over\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nFor even more fine-grained control over when event handlers fire, you can add filters. For example, if you only want to checkpoint loop state every 2 epochs, you can use a filter:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.checkpoint(event: :epoch_completed, filter: [every: 2])\n|> Axon.Loop.run(train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.3180207\nEpoch: 1, Batch: 50, loss: 0.1975918\nEpoch: 2, Batch: 50, loss: 0.1353940\nEpoch: 3, Batch: 50, loss: 0.1055405\nEpoch: 4, Batch: 50, loss: 0.0890203\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nAxon event handlers support both keyword and function filters. Keyword filters include keywords such as `:every`, `:once`, and `:always`. Function filters are arity-1 functions which accept the current loop state and return a boolean.","ref":"using_loop_event_handlers.html#adding-event-handlers-to-training-loops","title":"Adding event handlers to training loops - Using loop event handlers","type":"extras"},{"doc":"<!-- livebook:{\"persist_outputs\":true} -->\n\n# Custom models, loss functions, and optimizers\n\n```elixir\nMix.install([\n  {:axon, github: \"elixir-nx/axon\"},\n  {:nx, \"~> 0.3.0\", github: \"elixir-nx/nx\", sparse: \"nx\", override: true}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"custom_models_loss_optimizers.html","title":"Custom models, loss functions, and optimizers","type":"extras"},{"doc":"In the [Your first training loop](your_first_training_loop.livemd), you learned how to declare a supervised training loop using `Axon.Loop.trainer/3` with a model, loss function, and optimizer. Your overall model and loop declaration looked something like this:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop = Axon.Loop.trainer(model, :mean_squared_error, :sgd)\n```\n\nThis example uses an `%Axon{}` struct to represent your `model` to train, and atoms to represent your loss function and optimizer. Some of your problems will require a bit more flexibility than this example affords. Fortunately, `Axon.Loop.trainer/3` is designed for flexibility.\n\nFor example, if your model cannot be cleanly represented as an `%Axon{}` model, you can instead opt instead to define custom initialization and forward functions to pass to `Axon.Loop.trainer/3`. Actually, `Axon.Loop.trainer/3` is doing this for you under the hood - the ability to pass an `%Axon{}` struct directly is just a convenience:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nlowered_model = {init_fn, predict_fn} = Axon.build(model)\n\nloop = Axon.Loop.trainer(lowered_model, :mean_squared_error, :sgd)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n       #Function<5.20267452/1 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<23.20267452/1 in Axon.Loop.log/5>,\n       #Function<3.20267452/1 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  metrics: %{\n    \"loss\" => {#Function<12.6031754/3 in Axon.Metrics.running_average/1>,\n     #Function<6.20267452/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  ...\n>\n```\n\nNotice that `Axon.Loop.trainer/3` handles the \"lowered\" form of an Axon model without issue. When you pass an `%Axon{}` struct, the trainer factory converts it to a lowered representation for you. With this construct, you can build custom models entirely with Nx `defn`, or readily mix your Axon models into custom workflows without worrying about compatibility with the `Axon.Loop` API:\n\n```elixir\ndefmodule CustomModel do\n  import Nx.Defn\n\n  defn custom_predict_fn(model_predict_fn, params, input) do\n    %{prediction: preds} = out = model_predict_fn.(params, input)\n    %{out | prediction: Nx.cos(preds)}\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomModel, <<70, 79, 82, 49, 0, 0, 9, ...>>, {:custom_predict_fn, 3}}\n```\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    xs = Nx.random_normal({8, 1})\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\n{init_fn, predict_fn} = Axon.build(model, mode: :train)\ncustom_predict_fn = &CustomModel.custom_predict_fn(predict_fn, &1, &2)\n\nloop = Axon.Loop.trainer({init_fn, custom_predict_fn}, :mean_squared_error, :sgd)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 500)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 500, loss: 0.3053460\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"custom_models_loss_optimizers.html#using-custom-models-in-training-loops","title":"Using custom models in training loops - Custom models, loss functions, and optimizers","type":"extras"},{"doc":"Just as `Axon.Loop.trainer/3` allows more flexibility with models, it also supports more flexible loss functions. In most cases, you can get away with using one of Axon's built-in loss functions by specifying an atom. Atoms map directly to a loss-function defined in `Axon.Losses`. Under the hood, `Axon.Loop.trainer/3` is doing something like:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nloss_fn = &apply(Axon.Losses, loss_atom, [&1, &2])\n```\n\nRather than pass an atom, you can pass your own custom arity-2 function to `Axon.Loop.trainer/3`. This arises most often in cases where you want to control some parameters of the loss function, such as the batch-level reduction:\n\n```elixir\nloss_fn = &Axon.Losses.mean_squared_error(&1, &2, reduction: :sum)\n\nloop = Axon.Loop.trainer(model, loss_fn, :sgd)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n       #Function<5.20267452/1 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<23.20267452/1 in Axon.Loop.log/5>,\n       #Function<3.20267452/1 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  metrics: %{\n    \"loss\" => {#Function<12.6031754/3 in Axon.Metrics.running_average/1>,\n     #Function<41.3316493/2 in :erl_eval.expr/6>}\n  },\n  ...\n>\n```\n\nYou can also define your own custom loss functions, so long as they match the following spec:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nloss(\n  y_true :: tensor[batch, ...] | container(tensor),\n  y_preds :: tensor[batch, ...] | container(tensor)\n  ) :: scalar\n```\n\nThis is useful for constructing loss functions when dealing with multi-output scenarios. For example, it's very easy to construct a custom loss function which is a weighted average of several loss functions on multiple inputs:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    xs = Nx.random_normal({8, 1})\n    y1 = Nx.sin(xs)\n    y2 = Nx.cos(xs)\n    {xs, {y1, y2}}\n  end)\n\nshared =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n\ny1 = Axon.dense(shared, 1)\ny2 = Axon.dense(shared, 1)\n\nmodel = Axon.container({y1, y2})\n\ncustom_loss_fn = fn {y_true1, y_true2}, {y_pred1, y_pred2} ->\n  loss1 = Axon.Losses.mean_squared_error(y_true1, y_pred1, reduction: :mean)\n  loss2 = Axon.Losses.mean_squared_error(y_true2, y_pred2, reduction: :mean)\n\n  loss1\n  |> Nx.multiply(0.4)\n  |> Nx.add(Nx.multiply(loss2, 0.6))\nend\n\nmodel\n|> Axon.Loop.trainer(custom_loss_fn, :sgd)\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 1000, loss: 0.1098235\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_3\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"custom_models_loss_optimizers.html#using-custom-loss-functions-in-training-loops","title":"Using custom loss functions in training loops - Custom models, loss functions, and optimizers","type":"extras"},{"doc":"As you might expect, it's also possible to customize the optimizer passed to `Axon.Loop.trainer/3`. If you read the `Polaris.Updates` documentation, you'll learn that optimizers are actually represented as the tuple `{init_fn, update_fn}` where `init_fn` initializes optimizer state from model state and `update_fn` scales gradients from optimizer state, gradients, and model state.\n\nYou likely won't have to implement a custom optimizer; however, you should know how to construct optimizers with different hyperparameters and how to apply different modifiers to different optimizers to customize the optimization process.\n\nWhen you specify an optimizer as an atom in `Axon.Loop.trainer/3`, it maps directly to an optimizer declared in `Polaris.Optimizers`. You can instead opt to declare your optimizer directly. This is most useful for controlling things like the learning rate and various optimizer hyperparameters:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    xs = Nx.random_normal({8, 1})\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\noptimizer = {_init_optimizer_fn, _update_fn} = Polaris.Optimizers.sgd(learning_rate: 1.0e-3)\n\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, optimizer)\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 1000, loss: 0.0992607\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"custom_models_loss_optimizers.html#using-custom-optimizers-in-training-loops","title":"Using custom optimizers in training loops - Custom models, loss functions, and optimizers","type":"extras"},{"doc":"# Writing custom metrics\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"writing_custom_metrics.html","title":"Writing custom metrics","type":"extras"},{"doc":"When passing an atom to `Axon.Loop.metric/5`, Axon dispatches the function to a built-in function in `Axon.Metrics`. If you find you'd like to use a metric that does not exist in `Axon.Metrics`, you can define a custom function:\n\n```elixir\ndefmodule CustomMetric do\n  import Nx.Defn\n\n  defn my_weird_metric(y_true, y_pred) do\n    Nx.atan2(y_true, y_pred) |> Nx.sum()\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomMetric, <<70, 79, 82, 49, 0, 0, 8, ...>>, true}\n```\n\nThen you can pass that directly to `Axon.Loop.metric/5`. You must provide a name for your custom metric:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.metric(&CustomMetric.my_weird_metric/2, \"my weird metric\")\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>},\n    \"my weird metric\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     &CustomMetric.my_weird_metric/2}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nThen when running, Axon will invoke your custom metric function and accumulate it with the given aggregator:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0681635 my weird metric: -5.2842808\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nWhile the metric defaults are designed with supervised training loops in mind, they can be used for much more flexible purposes. By default, metrics look for the fields `:y_true` and `:y_pred` in the given loop's step state. They then apply the given metric function on those inputs. You can also define metrics which work on other fields. For example you can track the running average of a given parameter with a metric just by defining a custom output transform:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\noutput_transform = fn %{model_state: model_state} ->\n  [model_state[\"dense_0\"][\"kernel\"]]\nend\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.metric(&Nx.mean/1, \"dense_0_kernel_mean\", :running_average, output_transform)\n  |> Axon.Loop.metric(&Nx.variance/1, \"dense_0_kernel_var\", :running_average, output_transform)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     &Nx.mean/1},\n    \"dense_0_kernel_var\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     &Nx.variance/1},\n    \"loss\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nAxon will apply your custom output transform to the loop's step state and forward the result to your custom metric function:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, dense_0_kernel_mean: -0.1978206 dense_0_kernel_var: 0.2699870 loss: 0.0605523\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou can also define custom accumulation functions. Axon has definitions for computing running averages and running sums; however, you might find you need something like an exponential moving average:\n\n```elixir\ndefmodule CustomAccumulator do\n  import Nx.Defn\n\n  defn running_ema(acc, obs, _i, opts \\\\ []) do\n    opts = keyword!(opts, alpha: 0.9)\n    obs * opts[:alpha] + acc * (1 - opts[:alpha])\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomAccumulator, <<70, 79, 82, 49, 0, 0, 11, ...>>, true}\n```\n\nYour accumulator must be an arity-3 function which accepts the current accumulated value, the current observation, and the current iteration and returns the aggregated metric. You can pass a function direct as an accumulator in your metric:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\noutput_transform = fn %{model_state: model_state} ->\n  [model_state[\"dense_0\"][\"kernel\"]]\nend\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.metric(\n    &Nx.mean/1,\n    \"dense_0_kernel_ema_mean\",\n    &CustomAccumulator.running_ema/3,\n    output_transform\n  )\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     &Nx.mean/1},\n    \"loss\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nThen when you run the loop, Axon will use your custom accumulator:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, dense_0_kernel_ema_mean: -0.0139760 loss: 0.0682910\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"writing_custom_metrics.html#writing-custom-metrics","title":"Writing custom metrics - Writing custom metrics","type":"extras"},{"doc":"# Writing custom event handlers\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"writing_custom_event_handlers.html","title":"Writing custom event handlers","type":"extras"},{"doc":"If you require functionality not offered by any of Axon's built-in event handlers, then you'll need to write a custom event handler. Custom event handlers are functions which accept loop state, perform some action, and then defer execution back to the main loop. For example, you can write custom loop handlers which visualize model outputs, communicate with an external Kino process, or simply halt the loop based on some criteria.\n\nAll event handlers must accept an `%Axon.Loop.State{}` struct and return a tuple of `{control_term, state}` where `control_term` is one of `:continue`, `:halt_epoch`, or `:halt_loop` and `state` is the updated loop state:\n\n```elixir\ndefmodule CustomEventHandler0 do\n  alias Axon.Loop.State\n\n  def my_weird_handler(%State{} = state) do\n    IO.puts(\"My weird handler: fired\")\n    {:continue, state}\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomEventHandler0, <<70, 79, 82, 49, 0, 0, 6, ...>>, {:my_weird_handler, 1}}\n```\n\nTo register event handlers, you use `Axon.Loop.handle/4`:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.handle_event(:epoch_completed, &CustomEventHandler0.my_weird_handler/1)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {&CustomEventHandler0.my_weird_handler/1,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>},\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nAxon will trigger your custom handler to run on the attached event:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.0990703\nMy weird handler: fired\nEpoch: 1, Batch: 50, loss: 0.0567622\nMy weird handler: fired\nEpoch: 2, Batch: 50, loss: 0.0492784\nMy weird handler: fired\nEpoch: 3, Batch: 50, loss: 0.0462587\nMy weird handler: fired\nEpoch: 4, Batch: 50, loss: 0.0452806\nMy weird handler: fired\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou can use event handlers to early-stop a loop or loop epoch by returning a `:halt_*` control term. Halt control terms can be one of `:halt_epoch` or `:halt_loop`. `:halt_epoch` halts the current epoch and continues to the next. `:halt_loop` halts the loop altogether.\n\n```elixir\ndefmodule CustomEventHandler1 do\n  alias Axon.Loop.State\n\n  def always_halts(%State{} = state) do\n    IO.puts(\"stopping loop\")\n    {:halt_loop, state}\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomEventHandler1, <<70, 79, 82, 49, 0, 0, 6, ...>>, {:always_halts, 1}}\n```\n\nThe loop will immediately stop executing and return the current state at the time it was halted:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.handle_event(:epoch_completed, &CustomEventHandler1.always_halts/1)\n|> Axon.Loop.run(train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.2201974\nstopping loop\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nNote that halting an epoch will fire a different event than completing an epoch. So if you implement a custom handler to halt the loop when an epoch completes, it will never fire if the epoch always halts prematurely:\n\n```elixir\ndefmodule CustomEventHandler2 do\n  alias Axon.Loop.State\n\n  def always_halts_epoch(%State{} = state) do\n    IO.puts(\"\\nstopping epoch\")\n    {:halt_epoch, state}\n  end\n\n  def always_halts_loop(%State{} = state) do\n    IO.puts(\"stopping loop\\n\")\n    {:halt_loop, state}\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomEventHandler2, <<70, 79, 82, 49, 0, 0, 8, ...>>, {:always_halts_loop, 1}}\n```\n\nIf you run these handlers in conjunction, the loop will not terminate prematurely:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.handle_event(:iteration_completed, &CustomEventHandler2.always_halts_epoch/1)\n|> Axon.Loop.handle_event(:epoch_completed, &CustomEventHandler2.always_halts_loop/1)\n|> Axon.Loop.run(train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 0, loss: 0.0000000\nstopping epoch\n\nstopping epoch\n\nstopping epoch\n\nstopping epoch\n\nstopping epoch\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou may access and update any portion of the loop state. Keep in mind that event handlers are **not** JIT-compiled, so you should be certain to manually JIT-compile any long-running or expensive operations.","ref":"writing_custom_event_handlers.html#writing-custom-event-handlers","title":"Writing custom event handlers - Writing custom event handlers","type":"extras"},{"doc":"# Converting ONNX models to Axon\n\n```elixir\nMix.install(\n  [\n    {:axon, \">= 0.5.0\"},\n    {:exla, \">= 0.5.0\"},\n    {:axon_onnx, \">= 0.4.0\"},\n    {:stb_image, \">= 0.6.0\"},\n    {:kino, \">= 0.9.0\"},\n    {:req, \">= 0.3.8\"}\n  ]\n  # for Nvidia GPU change to \"cuda111\" for CUDA 11.1+ or \"cuda118\" for CUDA 11.8\n  # CUDA 12.x not supported by XLA\n  # or you can put this value in ENV variables in Livebook settings\n  # XLA_TARGET=cuda111\n  # system_env: %{\"XLA_TARGET\" => xla_target}\n)\n```","ref":"onnx_to_axon.html","title":"Converting ONNX models to Axon","type":"extras"},{"doc":"Axon is a new machine learning capability, specific to Elixir. We would like to take\nadvantage of a large amount of models that have been written in other languages and\nmachine learning frameworks. Let's take a look at how we could use a model developed\nin another language.\n\nConverting models developed by data scientists into a production capable implementation is a\nchallenge for all languages and frameworks. [ONNX](https://onnx.ai/) is an interchange\nformat that allows models written in one language or framework to be converted into\nanother language and framework.\n\nThe source model must use constructs mapped into ONNX. Also, the destination framework must\nsupport the model's ONNX constructs. From an Elixir focus, we are interested in ONNX models\nthat [axon_onnx](https://github.com/elixir-nx/axon_onnx) can convert into Axon models.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n#","ref":"onnx_to_axon.html#converting-an-onnx-model-into-axon","title":"Converting an ONNX model into Axon - Converting ONNX models to Axon","type":"extras"},{"doc":"<!-- livebook:{\"break_markdown\":true} -->\n\nElixir can get access to thousands of public models and your organization may have private models\nwritten in other languages and frameworks. Axon will be hard pressed to quickly repeat the\ncountless person-hours spent on developing models in other languages like Tensorflow and PyTorch.\nHowever, if the model can be converted into ONNX and then into Axon, we can directly run the model\nin Elixir.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n#","ref":"onnx_to_axon.html#why-is-onnx-important-to-axon","title":"Why is ONNX important to Axon? - Converting ONNX models to Axon","type":"extras"},{"doc":"<!-- livebook:{\"break_markdown\":true} -->\n\nAxon runs on top of [Nx (Numerical Elixir)](https://hexdocs.pm/nx). Nx has backends for\nboth Google's XLA (via EXLA) and PyTorch (via Torchx). In this guide, we will use EXLA.\nWe'll also convert from an ONNX model into an Axon model using\n[`axon_onnx`](https://github.com/elixir-nx/axon_onnx).\n\nYou can find all dependencies in the installation cell at the top of the notebook.\nIn there, you will also find the `XLA_TARGET` environment variable which you can set\nto \"cuda111\" or \"rocm\" if you have any of those GPUs available. Let's also configure\nNx to store tensors in EXLA by default:\n\n```elixir\n#  Nx.default_backend(EXLA.Backend)\n```\n\nWe'll also need local access to ONNX files. For this notebook, the models/onnx folder\ncontains the ONNX model file. This notebook assumes the output file location will be\nin models axon. Copy your ONNX model files into the models/onnx folder.\n\nThis opinionated module presents a simple API for loading in an ONNX file and saving\nthe converted Axon model in the provided directory. This API will allow us to\nsave multiple models pretty quickly.\n\n```elixir\ndefmodule OnnxToAxon do\n  @moduledoc \"\"\"\n  Helper module from ONNX to Axon.\n  \"\"\"\n\n  @doc \"\"\"\n  Loads an ONNX model into Axon and saves the model","ref":"onnx_to_axon.html#setting-up-our-environment","title":"Setting up our environment - Converting ONNX models to Axon","type":"extras"},{"doc":"OnnxToAxon.onnx_axon(path_to_onnx_file, path_to_axon_dir)\n\n  \"\"\"\n  def onnx_axon(path_to_onnx_file, path_to_axon_dir) do\n    axon_name = axon_name_from_onnx_path(path_to_onnx_file)\n    path_to_axon = Path.join(path_to_axon_dir, axon_name)\n\n    {model, parameters} = AxonOnnx.import(path_to_onnx_file)\n    model_bytes = Axon.serialize(model, parameters)\n    File.write!(path_to_axon, model_bytes)\n  end\n\n  defp axon_name_from_onnx_path(onnx_path) do\n    model_root = onnx_path |> Path.basename() |> Path.rootname()\n    \"#{model_root}.axon\"\n  end\nend\n```","ref":"onnx_to_axon.html#examples","title":"Examples - Converting ONNX models to Axon","type":"extras"},{"doc":"For this example, we'll use a couple ONNX models that have been saved in the Huggingface Hub.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nThe ONNX models were trained in Fast.ai (PyTorch) using the following notebooks:\n\n* https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb\n* https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb\n\nTo repeat this notebook, the onnx files for this notebook can be found on huggingface hub. Download the onnx models from:\n\n* https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX\n* https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX\n\nDownload the files and place them in a directory of your choice. By default, we will assume you downloaded them to the same directory as the notebook:\n\n```elixir\nFile.cd!(__DIR__)\n```\n\nNow let's convert an ONNX model into Axon\n\n```elixir\npath_to_onnx_file = \"cats_v_dogs.onnx\"\npath_to_axon_dir = \".\"\nOnnxToAxon.onnx_axon(path_to_onnx_file, path_to_axon_dir)\n```\n\n```elixir\npath_to_onnx_file = \"cat_dog_breeds.onnx\"\npath_to_axon_dir = \".\"\nOnnxToAxon.onnx_axon(path_to_onnx_file, path_to_axon_dir)\n```","ref":"onnx_to_axon.html#onnx-model","title":"ONNX model - Converting ONNX models to Axon","type":"extras"},{"doc":"To run inference on the model, you'll need 10 images focused on cats or dogs. You can download the images used in training the model at:\n\n\"https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz\"\n\nOr you can find or use your own images. In this notebook, we are going to use the local copies of the Oxford Pets dataset that was used in training the model.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nLet's load the Axon model.\n\n```elixir\ncats_v_dogs = File.read!(\"cats_v_dogs.axon\")\n{cats_v_dogs_model, cats_v_dogs_params} = Axon.deserialize(cats_v_dogs)\n```\n\nWe need a tensor representation of an image. Let's start by looking at samples of\nour data.\n\n```elixir\nFile.read!(\"oxford-iiit-pet/images/havanese_71.jpg\")\n|> Kino.Image.new(:jpeg)\n```\n\nTo manipulate the images, we will use the `StbImage` library:\n\n```elixir\n{:ok, img} = StbImage.read_file(\"oxford-iiit-pet/images/havanese_71.jpg\")\n%StbImage{data: binary, shape: shape, type: type} = StbImage.resize(img, 224, 224)\n```\n\nNow let's work on a batch of images and convert them to tensors. Here are the images we will work with:\n\n```elixir\nfile_names = [\n  \"havanese_71.jpg\",\n  \"yorkshire_terrier_9.jpg\",\n  \"Sphynx_206.jpg\",\n  \"Siamese_95.jpg\",\n  \"Egyptian_Mau_63.jpg\",\n  \"keeshond_175.jpg\",\n  \"samoyed_88.jpg\",\n  \"British_Shorthair_122.jpg\",\n  \"Russian_Blue_20.jpg\",\n  \"boxer_99.jpg\"\n]\n```\n\nNext we resize the images:\n\n```elixir\nresized_images =\n  Enum.map(file_names, fn file_name ->\n    (\"oxford-iiit-pet/images/\" <> file_name)\n    |> IO.inspect(label: file_name)\n    |> StbImage.read_file!()\n    |> StbImage.resize(224, 224)\n  end)\n```\n\nAnd finally convert them into tensors by using `StbImage.to_nx/1`. The created tensor will have three axes, named `:height`, `:width`, and `:channel` respectively. Our goal is to stack the tensors, then normalize and transpose their axes to the order expected by the neural network:\n\n```elixir\nimg_tensors =\n  resized_images\n  |> Enum.map(&StbImage.to_nx/1)\n  |> Nx.stack(name: :index)\n  |> Nx.divide(255.0)\n  |> Nx.transpose(axes: [:index, :channels, :height, :width])\n```\n\nWith our input data, it is finally time to work on predictions. First let's define a helper module:\n\n```elixir\ndefmodule Predictions do\n  @doc \"\"\"\n  When provided a Tensor of single label predictions, returns the best vocabulary match for\n  each row in the prediction tensor.","ref":"onnx_to_axon.html#inference-on-onnx-derived-models","title":"Inference on ONNX derived models - Converting ONNX models to Axon","type":"extras"},{"doc":"# iex> Predictions.sindle_label_prediction(path_to_onnx_file, path_to_axon_dir)\n     # [\"dog\", \"cat\", \"dog\"]\n\n  \"\"\"\n  def single_label_classification(predictions_batch, vocabulary) do\n    IO.inspect(Nx.shape(predictions_batch), label: \"predictions batch shape\")\n\n    for prediction_tensor <- Nx.to_batched(predictions_batch, 1) do\n      {_prediction_value, prediction_label} =\n        prediction_tensor\n        |> Nx.to_flat_list()\n        |> Enum.zip(vocabulary)\n        |> Enum.max()\n\n      prediction_label\n    end\n  end\nend\n```\n\nNow we deserialize the model\n\n```elixir\n{cats_v_dogs_model, cats_v_dogs_params} = Axon.deserialize(cats_v_dogs)\n```\n\nrun a prediction using the `EXLA` compiler for performance\n\n```elixir\ntensor_of_predictions =\n  Axon.predict(cats_v_dogs_model, cats_v_dogs_params, img_tensors, compiler: EXLA)\n```\n\nand finally retrieve the predicted label\n\n```elixir\ndog_cat_vocabulary = [\n  \"dog\",\n  \"cat\"\n]\n\nPredictions.single_label_classification(tensor_of_predictions, dog_cat_vocabulary)\n```\n\nLet's repeat the above process for the dog and cat breed model.\n\n```elixir\ncat_dog_vocabulary = [\n  \"abyssinian\",\n  \"american_bulldog\",\n  \"american_pit_bull_terrier\",\n  \"basset_hound\",\n  \"beagle\",\n  \"bengal\",\n  \"birman\",\n  \"bombay\",\n  \"boxer\",\n  \"british_shorthair\",\n  \"chihuahua\",\n  \"egyptian_mau\",\n  \"english_cocker_spaniel\",\n  \"english_setter\",\n  \"german_shorthaired\",\n  \"great_pyrenees\",\n  \"havanese\",\n  \"japanese_chin\",\n  \"keeshond\",\n  \"leonberger\",\n  \"maine_coon\",\n  \"miniature_pinscher\",\n  \"newfoundland\",\n  \"persian\",\n  \"pomeranian\",\n  \"pug\",\n  \"ragdoll\",\n  \"russian_blue\",\n  \"saint_bernard\",\n  \"samoyed\",\n  \"scottish_terrier\",\n  \"shiba_inu\",\n  \"siamese\",\n  \"sphynx\",\n  \"staffordshire_bull_terrier\",\n  \"wheaten_terrier\",\n  \"yorkshire_terrier\"\n]\n```\n\n```elixir\ncat_dog_breeds = File.read!(\"cat_dog_breeds.axon\")\n{cat_dog_breeds_model, cat_dog_breeds_params} = Axon.deserialize(cat_dog_breeds)\n```\n\n```elixir\nAxon.predict(cat_dog_breeds_model, cat_dog_breeds_params, img_tensors)\n|> Predictions.single_label_classification(cat_dog_vocabulary)\n```\n\nFor cat and dog breeds, the model performed pretty well, but it was not perfect.","ref":"onnx_to_axon.html#examples","title":"Examples - Converting ONNX models to Axon","type":"extras"},{"doc":"# Modeling XOR with a neural network\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:kino_vega_lite, \"~> 0.1.6\"}\n])\n\nNx.Defn.default_options(compiler: EXLA)\n\nalias VegaLite, as: Vl\n```","ref":"xor.html","title":"Modeling XOR with a neural network","type":"extras"},{"doc":"In this notebook we try to create a model and learn it the **logical XOR**.\n\nEven though XOR seems like a trivial operation, it cannot be modeled using a single dense layer ([single-layer perceptron](https://en.wikipedia.org/wiki/Feedforward_neural_network#Single-layer_perceptron)). The underlying reason is that the classes in XOR are not linearly separable. We cannot draw a straight line to separate the points $(0,0)$, $(1,1)$ from the points $(0,1)$, $(1,0)$. To model this properly, we need to turn to deep learning methods. Deep learning is capable of learning non-linear relationships like XOR.","ref":"xor.html#introduction","title":"Introduction - Modeling XOR with a neural network","type":"extras"},{"doc":"Let's start with the model. We need two inputs, since XOR has two operands. We then concatenate them into a single input vector with `Axon.concatenate/3`. Then we have one hidden layer and one output layer, both of them dense.\n\nNote: the model is a sequential neural network. In Axon, we can conveniently create such a model by using the pipe operator (`|>`) to add layers one by one.\n\n```elixir\nx1_input = Axon.input(\"x1\", shape: {nil, 1})\nx2_input = Axon.input(\"x2\", shape: {nil, 1})\n\nmodel =\n  x1_input\n  |> Axon.concatenate(x2_input)\n  |> Axon.dense(8, activation: :tanh)\n  |> Axon.dense(1, activation: :sigmoid)\n```","ref":"xor.html#the-model","title":"The model - Modeling XOR with a neural network","type":"extras"},{"doc":"The next step is to prepare training data. Since we are modeling a well-defined operation, we can just generate random operands and compute the expected XOR result for them.\n\nThe training works with batches of examples, so we *repeatedly* generate a whole batch of inputs and the expected result.\n\n```elixir\nbatch_size = 32\n\ndata =\n  Stream.repeatedly(fn ->\n    x1 = Nx.random_uniform({batch_size, 1}, 0, 2)\n    x2 = Nx.random_uniform({batch_size, 1}, 0, 2)\n    y = Nx.logical_xor(x1, x2)\n\n    {%{\"x1\" => x1, \"x2\" => x2}, y}\n  end)\n```\n\nHere's how a sample batch looks:\n\n```elixir\nEnum.at(data, 0)\n```","ref":"xor.html#training-data","title":"Training data - Modeling XOR with a neural network","type":"extras"},{"doc":"It's time to train our model. In this case we use *binary cross entropy* for the loss and *stochastic gradient descent* as the optimizer. We use binary cross entropy because we can consider the task of computing XOR the same as a binary classification problem. We want our output to have a binary label `0` or `1`, and binary cross entropy is typically used in these cases. Having defined our training loop, we run it with `Axon.Loop.run/4`.\n\n```elixir\nepochs = 10\n\nparams =\n  model\n  |> Axon.Loop.trainer(:binary_cross_entropy, :sgd)\n  |> Axon.Loop.run(data, %{}, epochs: epochs, iterations: 1000)\n```","ref":"xor.html#training","title":"Training - Modeling XOR with a neural network","type":"extras"},{"doc":"Finally, we can test our model on sample data.\n\n```elixir\nAxon.predict(model, params, %{\n  \"x1\" => Nx.tensor([[0]]),\n  \"x2\" => Nx.tensor([[1]])\n})\n```\n\nTry other combinations of $x_1$ and $x_2$ and see what the output is. To improve the model performance, you can increase the number of training epochs.","ref":"xor.html#trying-the-model","title":"Trying the model - Modeling XOR with a neural network","type":"extras"},{"doc":"The original XOR we modeled only works with binary values $0$ and $1$, however our model operates in continuous space. This means that we can give it $x_1 = 0.5$, $x_2 = 0.5$ as input and we expect _some_ output. We can use this to visualize the non-linear relationship between inputs $x_1$, $x_2$ and outputs that our model has learned.\n\n```elixir\n# The number of points per axis, determines the resolution\nn = 50\n\n# We generate coordinates of inputs in the (n x n) grid\nx1 = Nx.iota({n, n}, axis: 0) |> Nx.divide(n) |> Nx.reshape({:auto, 1})\nx2 = Nx.iota({n, n}, axis: 1) |> Nx.divide(n) |> Nx.reshape({:auto, 1})\n\n# The output is also a real number, but we round it into one of the two classes\ny = Axon.predict(model, params, %{\"x1\" => x1, \"x2\" => x2}) |> Nx.round()\n\nVl.new(width: 300, height: 300)\n|> Vl.data_from_values(\n  x1: Nx.to_flat_list(x1),\n  x2: Nx.to_flat_list(x2),\n  y: Nx.to_flat_list(y)\n)\n|> Vl.mark(:circle)\n|> Vl.encode_field(:x, \"x1\", type: :quantitative)\n|> Vl.encode_field(:y, \"x2\", type: :quantitative)\n|> Vl.encode_field(:color, \"y\", type: :nominal)\n```\n\nFrom the plot we can clearly see that during training our model learnt two clean boundaries to separate $(0,0)$, $(1,1)$ from $(0,1)$, $(1,0)$.","ref":"xor.html#visualizing-the-model-predictions","title":"Visualizing the model predictions - Modeling XOR with a neural network","type":"extras"},{"doc":"# Classifying handwritten digits\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:req, \"~> 0.3.1\"}\n])\n```","ref":"mnist.html","title":"Classifying handwritten digits","type":"extras"},{"doc":"This livebook will walk you through training a basic neural network using Axon, accelerated by the EXLA compiler. We'll be working on the [MNIST](https://en.wikipedia.org/wiki/MNIST_database) dataset which is a dataset of handwritten digits with corresponding labels. The goal is to train a model that correctly classifies these handwritten digits with a single label [0-9].","ref":"mnist.html#introduction","title":"Introduction - Classifying handwritten digits","type":"extras"},{"doc":"The MNIST dataset is available for free online. Using `Req` we'll download both training images and training labels. Both `train_images` and `train_labels` are compressed binary data. Fortunately, `Req` takes care of the decompression for us.\n\nYou can read more about the format of the ubyte files [here](http://yann.lecun.com/exdb/mnist/). Each file starts with a magic number and some metadata. We can use binary pattern matching to extract the information we want. In this case we extract the raw binary images and labels.\n\n```elixir\nbase_url = \"https://storage.googleapis.com/cvdf-datasets/mnist/\"\n%{body: train_images} = Req.get!(base_url <> \"train-images-idx3-ubyte.gz\")\n%{body: train_labels} = Req.get!(base_url <> \"train-labels-idx1-ubyte.gz\")\n\n<<_::32, n_images::32, n_rows::32, n_cols::32, images::binary>> = train_images\n<<_::32, n_labels::32, labels::binary>> = train_labels\n```\n\nWe can easily read that binary data into a tensor using `Nx.from_binary/2`. `Nx.from_binary/2` expects a raw binary and a data type. In this case, both images and labels are stored as unsigned 8-bit integers. We can start by parsing our images:\n\n```elixir\nimages =\n  images\n  |> Nx.from_binary({:u, 8})\n  |> Nx.reshape({n_images, 1, n_rows, n_cols}, names: [:images, :channels, :height, :width])\n  |> Nx.divide(255)\n```\n\n`Nx.from_binary/2` returns a flat tensor. Using `Nx.reshape/3` we can manipulate this flat tensor into meaningful dimensions. Notice we also *normalized* the tensor by dividing the input data by 255. This squeezes the data between 0 and 1 which often leads to better behavior when training models. Now, let's see what these images look like:\n\n```elixir\nimages[[images: 0..4]] |> Nx.to_heatmap()\n```\n\nIn the reshape operation above, we give each dimension of the tensor a name. This makes it much easier to do things like slicing, and helps make your code easier to understand. Here we slice the `images` dimension of the images tensor to obtain the first 5 training images. Then, we convert them to a heatmap for easy visualization.\n\nIt's common to train neural networks in batches (actually correctly called minibatches, but you'll see batch and minibatch used interchangeably). We can \"batch\" our images into batches of 32 like this:\n\n```elixir\nimages = Nx.to_batched(images, 32)\n```\n\nNow, we'll need to get our labels into batches as well, but first we need to *one-hot encode* the labels. One-hot encoding converts input data from labels such as `3`, `5`, `7`, etc. into vectors of 0's and a single 1 at the correct labels index. As an example, a label of: `3` gets converted to: `[0, 0, 0, 1, 0, 0, 0, 0, 0, 0]`.\n\n```elixir\ntargets =\n  labels\n  |> Nx.from_binary({:u, 8})\n  |> Nx.new_axis(-1)\n  |> Nx.equal(Nx.tensor(Enum.to_list(0..9)))\n  |> Nx.to_batched(32)\n```","ref":"mnist.html#retrieving-and-exploring-the-dataset","title":"Retrieving and exploring the dataset - Classifying handwritten digits","type":"extras"},{"doc":"Let's start by defining a simple model:\n\n```elixir\nmodel =\n  Axon.input(\"input\", shape: {nil, 1, 28, 28})\n  |> Axon.flatten()\n  |> Axon.dense(128, activation: :relu)\n  |> Axon.dense(10, activation: :softmax)\n```\n\nAll `Axon` models start with an input layer to tell subsequent layers what shapes to expect. We then use `Axon.flatten/2` which flattens the previous layer by squeezing all dimensions but the first dimension into a single dimension. Our model consists of 2 fully connected layers with 128 and 10 units respectively. The first layer uses `:relu` activation which returns `max(0, input)` element-wise. The final layer uses `:softmax` activation to return a probability distribution over the 10 labels [0 - 9].","ref":"mnist.html#defining-the-model","title":"Defining the model - Classifying handwritten digits","type":"extras"},{"doc":"In Axon we express the task of training using a declarative loop API. First, we need to specify a loss function and optimizer, there are many built-in variants to choose from. In this example, we'll use *categorical cross-entropy* and the *Adam* optimizer. We will also keep track of the *accuracy* metric. Finally, we run training loop passing our batched images and labels. We'll train for 10 epochs using the `EXLA` compiler.\n\n```elixir\nparams =\n  model\n  |> Axon.Loop.trainer(:categorical_cross_entropy, :adam)\n  |> Axon.Loop.metric(:accuracy, \"Accuracy\")\n  |> Axon.Loop.run(Stream.zip(images, targets), %{}, epochs: 10, compiler: EXLA)\n```","ref":"mnist.html#training","title":"Training - Classifying handwritten digits","type":"extras"},{"doc":"Now that we have the parameters from the training step, we can use them for predictions.\nFor this the `Axon.predict` can be used.\n\n```elixir\nfirst_batch = Enum.at(images, 0)\n\noutput = Axon.predict(model, params, first_batch)\n```\n\nFor each image, the model outputs probability distribution. This informs us how certain the model is about its prediction. Let's see the most probable digit for each image:\n\n```elixir\nNx.argmax(output, axis: 1)\n```\n\nIf you look at the original images and you will see the predictions match the data!","ref":"mnist.html#prediction","title":"Prediction - Classifying handwritten digits","type":"extras"},{"doc":"# Classifying horses and humans\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.6.0\"},\n  {:nx, \"~> 0.6.0\"},\n  {:exla, \"~> 0.6.0\"},\n  {:stb_image, \"~> 0.6.0\"},\n  {:req, \"~> 0.4.5\"},\n  {:kino, \"~> 0.11.0\"}\n])\n\nNx.global_default_backend(EXLA.Backend)\nNx.Defn.global_default_options(compiler: EXLA)\n```","ref":"horses_or_humans.html","title":"Classifying horses and humans","type":"extras"},{"doc":"In this notebook, we want to predict whether an image presents a horse or a human. To do this efficiently, we will build a Convolutional Neural Network (CNN) and compare the learning process with and without gradient centralization.","ref":"horses_or_humans.html#introduction","title":"Introduction - Classifying horses and humans","type":"extras"},{"doc":"We will be using the [Horses or Humans Dataset](https://laurencemoroney.com/datasets.html#horses-or-humans-dataset). The dataset is available as a ZIP with image files, we will download it using `req`. Conveniently, `req` will unzip the files for us, we just need to convert the filenames from strings.\n\n```elixir\n%{body: files} =\n  Req.get!(\"https://storage.googleapis.com/learning-datasets/horse-or-human.zip\")\n\nfiles = for {name, binary} <- files, do: {List.to_string(name), binary}\n```\n\n#","ref":"horses_or_humans.html#loading-the-data","title":"Loading the data - Classifying horses and humans","type":"extras"},{"doc":"We need to know how many images to include in a batch. A batch is a group of images to load into the GPU at a time. If the batch size is too big for your GPU, it will run out of memory, in such case you can reduce the batch size. It is generally optimal to utilize almost all of the GPU memory during training. It will take more time to train with a lower batch size.\n\n```elixir\nbatch_size = 32\nbatches_per_epoch = div(length(files), batch_size)\n```","ref":"horses_or_humans.html#note-on-batching","title":"Note on batching - Classifying horses and humans","type":"extras"},{"doc":"We'll have a really quick look at our data. Let's see what we are dealing with:\n\n```elixir\n{name, binary} = Enum.random(files)\nKino.Markdown.new(name) |> Kino.render()\nKino.Image.new(binary, :png)\n```\n\nReevaluate the cell a couple times to view different images. Note that the file names are either `horse[N]-[M].png` or `human[N]-[M].png`, so we can derive the expected class from that.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nWhile we are at it, look at this beautiful animation:\n\n```elixir\nnames_to_animate = [\"horse01\", \"horse05\", \"human01\", \"human05\"]\n\nimages_to_animate =\n  for {name, binary} <- files, Enum.any?(names_to_animate, &String.contains?(name, &1)) do\n    Kino.Image.new(binary, :png)\n  end\n\nKino.animate(50, images_to_animate, fn\n  _i, [image | images] -> {:cont, image, images}\n  _i, [] -> :halt\nend)\n```\n\nHow many images are there?\n\n```elixir\nlength(files)\n```\n\nHow many images will not be used for training? The remainder of the integer division will be ignored.\n\n```elixir\nfiles\n|> length()\n|> rem(batch_size)\n```","ref":"horses_or_humans.html#a-look-at-the-data","title":"A look at the data - Classifying horses and humans","type":"extras"},{"doc":"First, we need to preprocess the data for our CNN. At the beginning of the process, we chunk images into batches. Then, we use the `parse_file/1` function to load images and label them accurately. Finally, we \"augment\" the input, which means that we normalize data and flip the images along one of the axes. The last procedure helps a neural network to make predictions regardless of the orientation of the image.\n\n```elixir\ndefmodule HorsesHumans.DataProcessing do\n  import Nx.Defn\n\n  def data_stream(files, batch_size) do\n    files\n    |> Enum.shuffle()\n    |> Stream.chunk_every(batch_size, batch_size, :discard)\n    |> Task.async_stream(\n      fn batch ->\n        {images, labels} = batch |> Enum.map(&parse_file/1) |> Enum.unzip()\n        {Nx.stack(images), Nx.stack(labels)}\n      end,\n      timeout: :infinity\n    )\n    |> Stream.map(fn {:ok, {images, labels}} -> {augment(images), labels} end)\n    |> Stream.cycle()\n  end\n\n  defp parse_file({filename, binary}) do\n    label =\n      if String.starts_with?(filename, \"horses/\"),\n        do: Nx.tensor([1, 0], type: {:u, 8}),\n        else: Nx.tensor([0, 1], type: {:u, 8})\n\n    image = binary |> StbImage.read_binary!() |> StbImage.to_nx()\n\n    {image, label}\n  end\n\n  defnp augment(images) do\n    # Normalize\n    images = images / 255.0\n\n    # Optional vertical/horizontal flip\n    { u, _new_key } = Nx.Random.key(1987) |> Nx.Random.uniform()\n\n    cond do\n      u < 0.25 -> images\n      u < 0.5 -> Nx.reverse(images, axes: [2])\n      u < 0.75 -> Nx.reverse(images, axes: [3])\n      true -> Nx.reverse(images, axes: [2, 3])\n    end\n  end\nend\n```","ref":"horses_or_humans.html#data-processing","title":"Data processing - Classifying horses and humans","type":"extras"},{"doc":"The next step is creating our model. In this notebook, we choose the classic Convolutional Neural Network architecture. Let's dive in to the core components of a CNN.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n`Axon.conv/3` adds a convolutional layer, which is at the core of a CNN. A convolutional layer applies a filter function throughout the image, sliding a window with shape `:kernel_size`. As opposed to dense layers, a convolutional layer exploits weight sharing to better model data where locality matters. This feature is a natural fit for images.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n|            ![](https://miroslawmamczur.pl/wp-content/uploads/2021/03/06.gif)            |\n| :-------------------------------------------------------------------------------------: |\n| Figure 1: A step-by-step visualization of a convolution layer for `kernel_size: {3, 3}` |\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n`Axon.max_pool/2` adds a downscaling operation that takes the maximum value from a subtensor according to `:kernel_size`.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n| ![](https://production-media.paperswithcode.com/methods/MaxpoolSample2.png) |\n| :-------------------------------------------------------------------------: |\n|          Figure 2: Max pooling operation for `kernel_size: {2, 2}`          |\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n`Axon.dropout/2` and `Axon.spatial_dropout/2` add dropout layers which prevent a neural network from overfitting. Standard dropout drops a given rate of randomly chosen neurons during the training process. On the other hand, spatial dropout gets rid of whole feature maps. The graphical difference between dropout and spatial dropout is presented in a picture below.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n|  ![](https://miro.medium.com/max/1400/1*KkqxjvXTIV_b365B41ltfg.png)   |\n| :-------------------------------------------------------------------: |\n| Figure 3: The difference between standard dropout and spatial dropout |\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nKnowing the relevant building blocks, let's build our network! It will have a convolutional part, composed of convolutional and pooling layers, this part should capture the spatial features of an image. Then at the end, we will add a dense layer with 512 neurons fed with all the spatial features, and a final two-neuron layer for as our classification output.\n\n```elixir\nmodel =\n  Axon.input(\"input\", shape: {nil, 300, 300, 4})\n  |> Axon.conv(16, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.conv(32, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.spatial_dropout(rate: 0.5)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.conv(64, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.spatial_dropout(rate: 0.5)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.conv(64, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.conv(64, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.flatten()\n  |> Axon.dropout(rate: 0.5)\n  |> Axon.dense(512, activation: :relu)\n  |> Axon.dense(2, activation: :softmax)\n```","ref":"horses_or_humans.html#building-the-model","title":"Building the model - Classifying horses and humans","type":"extras"},{"doc":"It's time to train our model. We specify the loss, optimizer and choose accuracy as our metric. We also set `log: 1` to frequently update the training progress. We manually specify the number of iterations, such that each epoch goes through all of the baches once.\n\n```elixir\ndata = HorsesHumans.DataProcessing.data_stream(files, batch_size)\n\noptimizer = Polaris.Optimizers.adam(learning_rate: 1.0e-4)\n\nparams =\n  model\n  |> Axon.Loop.trainer(:categorical_cross_entropy, optimizer, log: 1)\n  |> Axon.Loop.metric(:accuracy)\n  |> Axon.Loop.run(data, %{}, epochs: 10, iterations: batches_per_epoch)\n```\n\n<!-- livebook:{\"branch_parent_index\":5} -->","ref":"horses_or_humans.html#training-the-model","title":"Training the model - Classifying horses and humans","type":"extras"},{"doc":"We can improve the training by applying gradient centralization. It is a technique with a similar purpose to batch normalization. For each loss gradient, we subtract a mean value to have a gradient with mean equal to zero. This process prevents gradients from exploding.\n\n```elixir\ncentralized_optimizer = Polaris.Updates.compose(Polaris.Updates.centralize(), optimizer)\n\nmodel\n|> Axon.Loop.trainer(:categorical_cross_entropy, centralized_optimizer, log: 1)\n|> Axon.Loop.metric(:accuracy)\n|> Axon.Loop.run(data, %{}, epochs: 10, iterations: batches_per_epoch)\n```","ref":"horses_or_humans.html#extra-gradient-centralization","title":"Extra: gradient centralization - Classifying horses and humans","type":"extras"},{"doc":"We can now use our trained model, let's try a couple examples.\n\n```elixir\n{name, binary} = Enum.random(files)\nKino.Markdown.new(name) |> Kino.render()\nKino.Image.new(binary, :png) |> Kino.render()\n\ninput =\n  binary\n  |> StbImage.read_binary!()\n  |> StbImage.to_nx()\n  |> Nx.new_axis(0)\n  |> Nx.divide(255.0)\n\nAxon.predict(model, params, input)\n```\n\n_Note: the model output refers to the probability that the image presents a horse and a human respectively._\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nYou can find a validation set [here](https://storage.googleapis.com/learning-datasets/validation-horse-or-human.zip), in case you want to experiment further!","ref":"horses_or_humans.html#inference","title":"Inference - Classifying horses and humans","type":"extras"},{"doc":"# Generating text with LSTM\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:req, \"~> 0.3.1\"}\n])\n\nNx.Defn.default_options(compiler: EXLA)\nNx.global_default_backend(EXLA.Backend)\n```","ref":"lstm_generation.html","title":"Generating text with LSTM","type":"extras"},{"doc":"Recurrent Neural Networks (RNNs) can be used as generative models. This means that in addition to being used for predictive models (making predictions) they can learn the sequences of a problem and then generate entirely new plausible sequences for the problem domain.\n\nGenerative models like this are useful not only to study how well a model has learned a problem, but to learn more about the problem domain itself.\n\nIn this example, we will discover how to create a generative model for text, character-by-character using Long Short-Term Memory (LSTM) recurrent neural networks in Elixir with Axon.","ref":"lstm_generation.html#introduction","title":"Introduction - Generating text with LSTM","type":"extras"},{"doc":"Using [Project Gutenburg](https://www.gutenberg.org/) we can download a text books that are no longer protected under copywrite, so we can experiment with them.\n\nThe one that we will use for this experiment is [Alice's Adventures in Wonderland by Lewis Carroll](https://www.gutenberg.org/ebooks/11). You can choose any other text or book that you like for this experiment.\n\n```elixir\n# Change the URL if you'd like to experiment with other books\ndownload_url = \"https://www.gutenberg.org/files/11/11-0.txt\"\n\nbook_text = Req.get!(download_url).body\n```\n\nFirst of all, we need to normalize the content of the book. We are only interested in the sequence of English characters, periods and new lines. Also currently we don't care about the capitalization and things like apostrophe so we can remove all other unknown characters and downcase everything. We can use a regular expression for that.\n\nWe can also convert the string into a list of characters so we can handle them easier. You will understand exactly why a bit further.\n\n```elixir\nnormalized_book_text =\n  book_text\n  |> String.downcase()\n  |> String.replace(~r/[^a-z \\.\\n]/, \"\")\n  |> String.to_charlist()\n```\n\nWe converted the text to a list of characters, where each character is a number (specifically, a Unicode code point). Lowercase English characters are represented with numbers between `97 = a` and `122 = z`, a space is `32 = [ ]`, a new line is `10 = \\n` and the period is `46 = .`.\n\nSo we should have 26 + 3 (= 29) characters in total. Let's see if that's true.\n\n```elixir\nnormalized_book_text |> Enum.uniq() |> Enum.count()\n```\n\nSince we want to use this 29 characters as possible values for each input in our neural network, we can re-map them to values between 0 and 28. So each specific neuron will indicate a specific character.\n\n```elixir\n# Extract all then unique characters we have and sort them for clarity\ncharacters = normalized_book_text |> Enum.uniq() |> Enum.sort()\ncharacters_count = Enum.count(characters)\n\n# Create a mapping for every character\nchar_to_idx = characters |> Enum.with_index() |> Map.new()\n# And a reverse mapping to convert back to characters\nidx_to_char = characters |> Enum.with_index(&{&2, &1}) |> Map.new()\n\nIO.puts(\"Total book characters: #{Enum.count(normalized_book_text)}\")\nIO.puts(\"Total unique characters: #{characters_count}\")\n```\n\nNow we need to create our training and testing data sets. But how?\n\nOur goal is to teach the machine what comes after a sequence of characters (usually). For example given the following sequence **\"Hello, My name i\"** the computer should be able to guess that the next character is probably **\"s\"**.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n<!-- Learn more at https://mermaid-js.github.io/mermaid -->\n\n```mermaid\ngraph LR;\n  A[Input: Hello my name i]-->NN[Neural Network]-->B[Output: s];\n```\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nLet's choose an arbitrary sequence length and create a data set from the book text. All we need to do is read X amount of characters from the book as the input and then read 1 more as the designated output.\n\nAfter doing all that, we also want to convert every character to it's index using the `char_to_idx` mapping that we have created before.\n\nNeural networks work best if you scale your inputs and outputs. In this case we are going to scale everything between 0 and 1 by dividing them by the number of unique characters that we have.\n\nAnd for the final step we will reshape it so we can use the data in our LSTM model.\n\n```elixir\nsequence_length = 100\n\ntrain_data =\n  normalized_book_text\n  |> Enum.map(&Map.fetch!(char_to_idx, &1))\n  |> Enum.chunk_every(sequence_length, 1, :discard)\n  # We don't want the last chunk since we don't have a prediction for it.\n  |> Enum.drop(-1)\n  |> Nx.tensor()\n  |> Nx.divide(characters_count)\n  |> Nx.reshape({:auto, sequence_length, 1})\n```\n\nFor our train results, We will do the same. Drop the first `sequence_length` characters and then convert them to the mapping. Additionally, we will do **one-hot encoding**.\n\nThe reason we want to use one-hot encoding is that in our model we don't want to only return a character as the output. We want it to return the probability of each character for the output. This way we can decide if certain probability is good or not or even we can decide between multiple possible outputs or even discard everything if the network is not confident enough.\n\nIn Nx, you can achieve this encoding by using this snippet\n\n```elixir\nNx.tensor([\n  [0],\n  [1],\n  [2]\n])\n|> Nx.equal(Nx.iota({1, 3}))\n```\n\nTo sum it up, Here is how we generate the train results.\n\n```elixir\ntrain_results =\n  normalized_book_text\n  |> Enum.drop(sequence_length)\n  |> Enum.map(&Map.fetch!(char_to_idx, &1))\n  |> Nx.tensor()\n  |> Nx.reshape({:auto, 1})\n  |> Nx.equal(Nx.iota({1, characters_count}))\n```","ref":"lstm_generation.html#preparation","title":"Preparation - Generating text with LSTM","type":"extras"},{"doc":"```elixir\n# As the input, we expect the sequence_length characters\n\nmodel =\n  Axon.input(\"input_chars\", shape: {nil, sequence_length, 1})\n  # The LSTM layer of our network\n  |> Axon.lstm(256)\n  # Selecting only the output from the LSTM Layer\n  |> then(fn {out, _} -> out end)\n  # Since we only want the last sequence in LSTM we will slice it and\n  # select the last one\n  |> Axon.nx(fn t -> t[[0..-1//1, -1]] end)\n  # 20% dropout so we will not become too dependent on specific neurons\n  |> Axon.dropout(rate: 0.2)\n  # The output layer. One neuron for each character and using softmax,\n  # as activation so every node represents a probability\n  |> Axon.dense(characters_count, activation: :softmax)\n```","ref":"lstm_generation.html#defining-the-model","title":"Defining the Model - Generating text with LSTM","type":"extras"},{"doc":"To train the network, we will use Axon's Loop API. It is pretty straightforward.\n\nFor the loss function we can use _categorical cross-entropy_ since we are dealing with categories (each character) in our output. For the optimizer we can use _Adam_.\n\nWe will train our network for 20 epochs. Note that we are working with a fair amount data, so it may take a long time unless you run it on a GPU.\n\n```elixir\nbatch_size = 128\ntrain_batches = Nx.to_batched(train_data, batch_size)\nresult_batches = Nx.to_batched(train_results, batch_size)\n\nIO.puts(\"Total batches: #{Enum.count(train_batches)}\")\n\nparams =\n  model\n  |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.001))\n  |> Axon.Loop.run(Stream.zip(train_batches, result_batches), %{}, epochs: 20, compiler: EXLA)\n\n:ok\n```","ref":"lstm_generation.html#training-the-network","title":"Training the network - Generating text with LSTM","type":"extras"},{"doc":"Now we have a trained neural network, so we can start generating text with it! We just need to pass the initial sequence as the input to the network and select the most probable output. `Axon.predict/3` will give us the output layer and then using `Nx.argmax/1` we get the most confident neuron index, then simply convert that index back to its Unicode representation.\n\n```elixir\ngenerate_fn = fn model, params, init_seq ->\n  # The initial sequence that we want the network to complete for us.\n  init_seq =\n    init_seq\n    |> String.trim()\n    |> String.downcase()\n    |> String.to_charlist()\n    |> Enum.map(&Map.fetch!(char_to_idx, &1))\n\n  Enum.reduce(1..100, init_seq, fn _, seq ->\n    init_seq =\n      seq\n      |> Enum.take(-sequence_length)\n      |> Nx.tensor()\n      |> Nx.divide(characters_count)\n      |> Nx.reshape({1, sequence_length, 1})\n\n    char =\n      Axon.predict(model, params, init_seq)\n      |> Nx.argmax()\n      |> Nx.to_number()\n\n    seq ++ [char]\n  end)\n  |> Enum.map(&Map.fetch!(idx_to_char, &1))\nend\n\n# The initial sequence that we want the network to complete for us.\ninit_seq = \"\"\"\nnot like to drop the jar for fear\nof killing somebody underneath so managed to put it into one of the\ncupboards as she fell past it.\n\"\"\"\n\ngenerate_fn.(model, params, init_seq) |> IO.puts()\n```","ref":"lstm_generation.html#generating-text","title":"Generating text - Generating text with LSTM","type":"extras"},{"doc":"We can improve our network by stacking multiple LSTM layers together. We just need to change our model and re-train our network.\n\n```elixir\nnew_model =\n  Axon.input(\"input_chars\", shape: {nil, sequence_length, 1})\n  |> Axon.lstm(256)\n  |> then(fn {out, _} -> out end)\n  |> Axon.dropout(rate: 0.2)\n  # This time we will pass all of the `out` to the next lstm layer.\n  # We just need to slice the last one.\n  |> Axon.lstm(256)\n  |> then(fn {out, _} -> out end)\n  |> Axon.nx(fn x -> x[[0..-1//1, -1]] end)\n  |> Axon.dropout(rate: 0.2)\n  |> Axon.dense(characters_count, activation: :softmax)\n```\n\nThen we can train the network using the exact same code as before\n\n```elixir\n# Using a smaller batch size in this case will give the network more opportunity to learn\nbatch_size = 64\ntrain_batches = Nx.to_batched(train_data, batch_size)\nresult_batches = Nx.to_batched(train_results, batch_size)\n\nIO.puts(\"Total batches: #{Enum.count(train_batches)}\")\n\nnew_params =\n  new_model\n  |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.001))\n  |> Axon.Loop.run(Stream.zip(train_batches, result_batches), %{}, epochs: 50, compiler: EXLA)\n\n:ok\n```","ref":"lstm_generation.html#multi-lstm-layers","title":"Multi LSTM layers - Generating text with LSTM","type":"extras"},{"doc":"```elixir\ngenerate_fn.(new_model, new_params, init_seq) |> IO.puts()\n```\n\nAs you may see, it improved a lot with this new model and the extensive training. This time it knows about rules like adding a space after period.","ref":"lstm_generation.html#generate-text-with-the-new-network","title":"Generate text with the new network - Generating text with LSTM","type":"extras"},{"doc":"The above example was written heavily inspired by [this article](https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/) by Jason Brownlee.","ref":"lstm_generation.html#references","title":"References - Generating text with LSTM","type":"extras"},{"doc":"# Classifying fraudulent transactions\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:explorer, \"~> 0.3.1\"},\n  {:kino, \"~> 0.7.0\"}\n])\n\nNx.Defn.default_options(compiler: EXLA)\nNx.global_default_backend(EXLA.Backend)\n\nalias Explorer.{DataFrame, Series}\n```","ref":"credit_card_fraud.html","title":"Classifying fraudulent transactions","type":"extras"},{"doc":"This time we will examine the Credit Card Fraud Dataset. Due to confidentiality, the original data were preprocessed by principal component analysis (PCA), and then 31 principal components were selected for the final data set. The dataset is highly imbalanced. The positive class (frauds) account for 0.172% of all transactions. Eventually, we will create a classifier which has not only great accuracy but, what is even more important, a high _recall_ and _precision_ - two metrics that are much more indicative of performance with imbalanced classification problems.","ref":"credit_card_fraud.html#introduction","title":"Introduction - Classifying fraudulent transactions","type":"extras"},{"doc":"The first step is to prepare the data for training and evaluation. Please download the dataset in the CSV format from https://www.kaggle.com/mlg-ulb/creditcardfraud (this requires a Kaggla account). Once done, put the file path in the input below.\n\n```elixir\ndata_path_input = Kino.Input.text(\"Data path (CSV)\")\n```\n\nNow, let's read the data into an `Explorer.Dataframe`:\n\n```elixir\ndata_path = Kino.Input.read(data_path_input)\n\ndf = DataFrame.from_csv!(data_path, dtypes: [{\"Time\", :float}])\n```\n\nFor further processing, we will need a couple helper functions. We will group them in a module for convenience.\n\n```elixir\ndefmodule CredidCard.Data do\n  import Nx.Defn\n\n  def split_train_test(df, portion) do\n    num_examples = DataFrame.n_rows(df)\n    num_train = ceil(portion * num_examples)\n    num_test = num_examples - num_train\n\n    train = DataFrame.slice(df, 0, num_train)\n    test = DataFrame.slice(df, num_train, num_test)\n    {train, test}\n  end\n\n  def split_features_targets(df) do\n    features = DataFrame.select(df, &(&1 == \"Class\"), :drop)\n    targets = DataFrame.select(df, &(&1 == \"Class\"), :keep)\n    {features, targets}\n  end\n\n  def df_to_tensor(df) do\n    df\n    |> DataFrame.names()\n    |> Enum.map(&Series.to_tensor(df[&1]))\n    |> Nx.stack(axis: 1)\n  end\n\n  defn normalize_features(tensor) do\n    max =\n      tensor\n      |> Nx.abs()\n      |> Nx.reduce_max(axes: [0], keep_axes: true)\n\n    tensor / max\n  end\nend\n```\n\nWith that, we can start converting the data into the desired format. First, we split the data into training and test data (in proportion 80% into a training set and 20% into a test set).\n\n```elixir\n{train_df, test_df} = CredidCard.Data.split_train_test(df, 0.8)\n{DataFrame.n_rows(train_df), DataFrame.n_rows(test_df)}\n```\n\nNext, we separate features from labels and convert both to tensors. In case of features we additionally normalize each of them, dividing by the maximum absolute value of that feature.\n\n```elixir\n{train_features, train_targets} = CredidCard.Data.split_features_targets(train_df)\n{test_features, test_targets} = CredidCard.Data.split_features_targets(test_df)\n\ntrain_inputs =\n  train_features\n  |> CredidCard.Data.df_to_tensor()\n  |> CredidCard.Data.normalize_features()\n\ntest_inputs =\n  test_features\n  |> CredidCard.Data.df_to_tensor()\n  |> CredidCard.Data.normalize_features()\n\ntrain_targets = CredidCard.Data.df_to_tensor(train_targets)\ntest_targets = CredidCard.Data.df_to_tensor(test_targets)\n\n:ok\n```","ref":"credit_card_fraud.html#data-processing","title":"Data processing - Classifying fraudulent transactions","type":"extras"},{"doc":"Our model for predicting whether a transaction was fraudulent or not is a dense neural network. It consists of two dense layers with 256 neurons, ReLU activation functions, one dropout layer, and a dense layer with one neuron (since the problem is a binary prediction) followed by a sigmoid activation function.\n\n```elixir\nmodel =\n  Axon.input(\"input\")\n  |> Axon.dense(256)\n  |> Axon.relu()\n  |> Axon.dense(256)\n  |> Axon.relu()\n  |> Axon.dropout(rate: 0.3)\n  |> Axon.dense(1)\n  |> Axon.sigmoid()\n```","ref":"credit_card_fraud.html#building-the-model","title":"Building the model - Classifying fraudulent transactions","type":"extras"},{"doc":"Now we have both data and model architecture prepared, it's time to train!\n\nNote the disproportion in the data samples:\n\n```elixir\nfraud = Nx.sum(train_targets) |> Nx.to_number()\nlegit = Nx.size(train_targets) - fraud\n\nbatched_train_inputs = Nx.to_batched(train_inputs, 2048)\nbatched_train_targets = Nx.to_batched(train_targets, 2048)\nbatched_train = Stream.zip(batched_train_inputs, batched_train_targets)\n\nIO.puts(\"# of legit transactions (train): #{legit}\")\nIO.puts(\"# of fraudulent transactions (train): #{fraud}\")\nIO.puts(\"% fraudlent transactions (train): #{100 * (fraud / (legit + fraud))}%\")\n```\n\nAs always, we define our train loop. We are using _binary cross-entropy_ as our loss function and Adam as the optimizer with a learning rate of 0.01. Then we immediately start the training passing our train portion of the dataset.\n\n```elixir\nloss =\n  &Axon.Losses.binary_cross_entropy(\n    &1,\n    &2,\n    negative_weight: 1 / legit,\n    positive_weight: 1 / fraud,\n    reduction: :mean\n  )\n\noptimizer = Polaris.Optimizers.adam(learning_rate: 1.0e-2)\n\nparams =\n  model\n  |> Axon.Loop.trainer(loss, optimizer)\n  |> Axon.Loop.run(batched_train, %{}, epochs: 30, compiler: EXLA)\n\n:ok\n```","ref":"credit_card_fraud.html#training-our-model","title":"Training our model - Classifying fraudulent transactions","type":"extras"},{"doc":"After the training, there is only one thing left: testing. Here, we will focus on the number of true positive, true negative, false positive, and false negative values, but also on the likelihood of denying legit and fraudulent transactions.\n\n```elixir\nbatched_test_inputs = Nx.to_batched(test_inputs, 2048)\nbatched_test_targets = Nx.to_batched(test_targets, 2048)\nbatched_test = Stream.zip(batched_test_inputs, batched_test_targets)\n\nsummarize = fn %Axon.Loop.State{metrics: metrics} = state ->\n  legit_transactions_declined = Nx.to_number(metrics[\"fp\"])\n  legit_transactions_accepted = Nx.to_number(metrics[\"tn\"])\n  fraud_transactions_accepted = Nx.to_number(metrics[\"fn\"])\n  fraud_transactions_declined = Nx.to_number(metrics[\"tp\"])\n  total_fraud = fraud_transactions_declined + fraud_transactions_accepted\n  total_legit = legit_transactions_declined + legit_transactions_accepted\n\n  fraud_denial_percent = 100 * (fraud_transactions_declined / total_fraud)\n  legit_denial_percent = 100 * (legit_transactions_declined / total_legit)\n\n  IO.write(\"\\n\")\n  IO.puts(\"Legit Transactions Declined: #{legit_transactions_declined}\")\n  IO.puts(\"Fraudulent Transactions Caught: #{fraud_transactions_declined}\")\n  IO.puts(\"Fraudulent Transactions Missed: #{fraud_transactions_accepted}\")\n  IO.puts(\"Likelihood of catching fraud: #{fraud_denial_percent}%\")\n  IO.puts(\"Likelihood of denying legit transaction: #{legit_denial_percent}%\")\n\n  {:continue, state}\nend\n\nmodel\n|> Axon.Loop.evaluator()\n|> Axon.Loop.metric(:true_positives, \"tp\", :running_sum)\n|> Axon.Loop.metric(:true_negatives, \"tn\", :running_sum)\n|> Axon.Loop.metric(:false_positives, \"fp\", :running_sum)\n|> Axon.Loop.metric(:false_negatives, \"fn\", :running_sum)\n|> Axon.Loop.handle(:epoch_completed, summarize)\n|> Axon.Loop.run(batched_test, params, compiler: EXLA)\n\n:ok\n```","ref":"credit_card_fraud.html#model-evaluation","title":"Model evaluation - Classifying fraudulent transactions","type":"extras"},{"doc":"# MNIST Denoising Autoencoder using Kino for visualization\n\n```elixir\nMix.install([\n  {:exla, \"~> 0.4.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:axon, \"~> 0.3.0\"},\n  {:req, \"~> 0.3.1\"},\n  {:kino, \"~> 0.7.0\"},\n  {:scidata, \"~> 0.1.9\"},\n  {:stb_image, \"~> 0.5.2\"},\n  {:table_rex, \"~> 3.1.1\"}\n])\n```","ref":"mnist_autoencoder_using_kino.html","title":"MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"The goal of this notebook is to build a Denoising Autoencoder from scratch using Livebook. This notebook is based on [Training an Autoencoder on Fashion MNIST](fashionmnist_autoencoder.livemd), but includes some tips on using Livebook to train the model and using [Kino](https://hexdocs.pm/kino/Kino.html) (Livebook's interactive widget library) to play with and visualize our results.","ref":"mnist_autoencoder_using_kino.html#introduction","title":"Introduction - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"An autoencoder learns to recreate data it's seen in the dataset. For this notebook, we're going to try something simple: generating images of digits using the MNIST digit recognition dataset.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nFollowing along with the [Fashion MNIST Autoencoder example](fashionmnist_autoencoder.livemd), we'll use [Scidata](https://github.com/elixir-nx/scidata) to download the MNIST dataset and then preprocess the data.\n\n```elixir\n# We're not going to use the labels so we'll ignore them\n{train_images, _train_labels} = Scidata.MNIST.download()\n{train_images_binary, type, shape} = train_images\n```\n\nThe `shape` tells us we have 60,000 images with a single channel of size 28x28.\n\nAccording to [the MNIST website](http://yann.lecun.com/exdb/mnist/):\n\n> Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).\n\nLet's preprocess and normalize the data accordingly.\n\n```elixir\ntrain_images =\n  train_images_binary\n  |> Nx.from_binary(type)\n  # Since pixels are organized row-wise, reshape into rows x columns\n  |> Nx.reshape(shape, names: [:images, :channels, :height, :width])\n  # Normalize the pixel values to be between 0 and 1\n  |> Nx.divide(255)\n```\n\n```elixir\n# Make sure they look like numbers\ntrain_images[[images: 0..2]] |> Nx.to_heatmap()\n```\n\nThat looks right! Let's repeat the process for the test set.\n\n```elixir\n{test_images, _train_labels} = Scidata.MNIST.download_test()\n{test_images_binary, type, shape} = test_images\n\ntest_images =\n  test_images_binary\n  |> Nx.from_binary(type)\n  # Since pixels are organized row-wise, reshape into rows x columns\n  |> Nx.reshape(shape, names: [:images, :channels, :height, :width])\n  # Normalize the pixel values to be between 0 and 1\n  |> Nx.divide(255)\n\ntest_images[[images: 0..2]] |> Nx.to_heatmap()\n```","ref":"mnist_autoencoder_using_kino.html#data-loading","title":"Data loading - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"An autoencoder is a a network that has the same sized input as output, with a \"bottleneck\" layer in the middle with far fewer parameters than the input. Its goal is to force the output to reconstruct the input. The bottleneck layer forces the network to learn a compressed representation of the input space.\n\nA _denoising_ autoencoder is a small tweak on an autoencoder that takes a corrupted input (often corrupted by adding noise or zeroing out pixels) and reconstructs the original input, removing the noise in the process.\n\nThe part of the autoencoder that takes the input and compresses it into the bottleneck layer is called the _encoder_ and the part that takes the compressed representation and reconstructs the input is called the _decoder_. Usually the decoder mirrors the encoder.\n\nMNIST is a pretty easy dataset, so we're going to try a fairly small autoencoder.\n\nThe input image has size 784 (28 rows _ 28 cols _ 1 pixel). We'll set up the encoder to turn that into 256 features, then 128, 64, and then 10 features for the bottleneck layer. The decoder will do the reverse, take the 10 features and go to 64, 128, 256 and 784. I'll use fully-connected (dense) layers.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n#","ref":"mnist_autoencoder_using_kino.html#building-the-model","title":"Building the model - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"```elixir\nmodel =\n  Axon.input(\"image\", shape: {nil, 1, 28, 28})\n  # This is now 28*28*1 = 784\n  |> Axon.flatten()\n  # The encoder\n  |> Axon.dense(256, activation: :relu)\n  |> Axon.dense(128, activation: :relu)\n  |> Axon.dense(64, activation: :relu)\n  # Bottleneck layer\n  |> Axon.dense(10, activation: :relu)\n  # The decoder\n  |> Axon.dense(64, activation: :relu)\n  |> Axon.dense(128, activation: :relu)\n  |> Axon.dense(256, activation: :relu)\n  |> Axon.dense(784, activation: :sigmoid)\n  # Turn it back into a 28x28 single channel image\n  |> Axon.reshape({:auto, 1, 28, 28})\n\n# We can use Axon.Display to show us what each of the layers would look like\n# assuming we send in a batch of 4 images\nAxon.Display.as_table(model, Nx.template({4, 1, 28, 28}, :f32)) |> IO.puts()\n```\n\nChecking our understanding, since the layers are all dense layers, the number of parameters should be `input_features * output_features` parameters for the weights + `output_features` parameters for the biases for each layer.\n\nThis should match the `Total Parameters` output from Axon.Display (486298 parameters)\n\n```elixir\n# encoder\nencoder_parameters = 784 * 256 + 256 + (256 * 128 + 128) + (128 * 64 + 64) + (64 * 10 + 10)\ndecoder_parameters = 10 * 64 + 64 + (64 * 128 + 128) + (128 * 256 + 256) + (256 * 784 + 784)\ntotal_parameters = encoder_parameters + decoder_parameters\n```\n\n#","ref":"mnist_autoencoder_using_kino.html#the-model","title":"The model - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"With the model set up, we can now try to train the model. We'll use MSE loss to compare our reconstruction with the original\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nWe'll create the training input by turning our image list into batches of size 128 and then using the same image as both the input and the target. However, the input image will have noise added to it that the autoencoder will have to remove.\n\nFor validation data, we'll use the test set and look at how the autoencoder does at reconstructing the test set to make sure we're not overfitting\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nThe function below adds some noise to the image by adding the image with gaussian noise scaled by a noise factor. We then have to make sure the pixel values are still within the 0..1.0 range.\n\nWe have to define this function using `defn` so that `Nx` can optimize it. If we don't do this, adding noise will take a really long time, making our training loop very slow. See [Nx.defn](https://hexdocs.pm/nx/Nx.Defn.html) for more details. `defn` can only be used in a module so we'll define a little module to contain it.\n\n```elixir\ndefmodule Noiser do\n  import Nx.Defn\n\n  @noise_factor 0.4\n\n  defn add_noise(images) do\n    @noise_factor\n    |> Nx.multiply(Nx.random_normal(images))\n    |> Nx.add(images)\n    |> Nx.clip(0.0, 1.0)\n  end\nend\n\nadd_noise = Nx.Defn.jit(&Noiser.add_noise/1, compiler: EXLA)\n```\n\n```elixir\nbatch_size = 128\n\n# The original image which is the target the network will trying to match\nbatched_train_images =\n  train_images\n  |> Nx.to_batched(batch_size)\n\nbatched_noisy_train_images =\n  train_images\n  |> Nx.to_batched(batch_size)\n  # goes after to_batched so the noise is different every time\n  |> Stream.map(add_noise)\n\n# The noisy image is the input to the network\n# and the original image is the target it's trying to match\ntrain_data = Stream.zip(batched_noisy_train_images, batched_train_images)\n\nbatched_test_images =\n  test_images\n  |> Nx.to_batched(batch_size)\n\nbatched_noisy_test_images =\n  test_images\n  |> Nx.to_batched(batch_size)\n  |> Stream.map(add_noise)\n\ntest_data = Stream.zip(batched_noisy_test_images, batched_test_images)\n```\n\nLet's see what an element of the input and target look like\n\n```elixir\n{input_batch, target_batch} = Enum.at(train_data, 0)\n{Nx.to_heatmap(input_batch[images: 0]), Nx.to_heatmap(target_batch[images: 0])}\n```\n\nLooks right (and tricky). Let's see how the model does.\n\n```elixir\nparams =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, Polaris.Optimizers.adamw(learning_rate: 0.001))\n  |> Axon.Loop.validate(model, test_data)\n  |> Axon.Loop.run(train_data, %{}, epochs: 20, compiler: EXLA)\n\n:ok\n```\n\nNow that we have a model that theoretically has learned _something_, we'll see what it's learned by running it on some images from the test set. We'll use Kino to allow us to select the image from the test set to run the model against. To avoid losing the params that took a while to train, we'll create another branch so we can experiment with the params and stop execution when needed without having to retrain.\n\n<!-- livebook:{\"branch_parent_index\":2} -->","ref":"mnist_autoencoder_using_kino.html#training","title":"Training - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"**A note on branching**\n\nBy default, everything in Livebook runs sequentially in a single process. Stopping a running cell aborts that process and consequently all its state is lost. A **branching section** copies everything from its parent and runs in a separate process. Thanks to this **isolation**, when we stop a cell in a branching section, only the state within that section is gone.\n\nSince we just spent a bunch of time training the model and don't want to lose that memory state as we continue to experiment, we create a branching section. This does add some memory overhead, but it's worth it so we can experiment without fear!\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nTo use `Kino` to give us an interactive tool to evaluate the model, we'll create a `Kino.Frame` that we can dynamically update. We'll also create a form using `Kino.Control` to allow the user to select which image from the test set they'd like to evaluate the model on. Finally `Kino.Control.stream` enables us to respond to changes in the user's selection when the user clicks the \"Render\" button.\n\nWe can use `Nx.concatenate` to stack the images side by side for a prettier output.\n\n```elixir\nform =\n  Kino.Control.form(\n    [\n      test_image_index: Kino.Input.number(\"Test Image Index\", default: 0)\n    ],\n    submit: \"Render\"\n  )\n\nKino.render(form)\n\nform\n|> Kino.Control.stream()\n|> Kino.animate(fn %{data: %{test_image_index: image_index}} ->\n  test_image = test_images[[images: image_index]] |> add_noise.()\n\n  reconstructed_image =\n    model\n    |> Axon.predict(params, test_image)\n    # Get rid of the batch dimension\n    |> Nx.squeeze(axes: [0])\n\n  combined_image = Nx.concatenate([test_image, reconstructed_image], axis: :width)\n  Nx.to_heatmap(combined_image)\nend)\n```\n\nThat looks pretty good!\n\nNote we used `Kino.animate/2` which runs asynchronously so we don't block execution of the rest of the notebook.\n\n<!-- livebook:{\"branch_parent_index\":2} -->","ref":"mnist_autoencoder_using_kino.html#evaluation","title":"Evaluation - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"_Note that we branch from the \"Building a model\" section since we only need the model definition for this section and not the previously trained model._\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nIt'd be nice to see how the model improves as it trains. In this section (also a branch since I plan to experiment and don't want to lose the execution state) we'll improve the training loop to use `Kino` to show us how it's doing.\n\n[Axon.Loop.handle](https://hexdocs.pm/axon/Axon.Loop.html#handle/4) gives us a hook into various points of the training loop. We'll can use it with the `:iteration_completed` event to get a copy of the state of the params after some number of completed iterations of the training loop. By using those params to render an image in the test set, we can get a live view of the autoencoder learning to reconstruct its inputs.\n\n```elixir\n# A helper function to display the input and output side by side\ncombined_input_output = fn params, image_index ->\n  test_image = test_images[[images: image_index]] |> add_noise.()\n  reconstructed_image = Axon.predict(model, params, test_image) |> Nx.squeeze(axes: [0])\n  Nx.concatenate([test_image, reconstructed_image], axis: :width)\nend\n\nNx.to_heatmap(combined_input_output.(params, 0))\n```\n\nIt'd also be nice to have a prettier version of the output. Let's convert the heatmap to a png to make that happen.\n\n```elixir\nimage_to_kino = fn image ->\n  image\n  |> Nx.multiply(255)\n  |> Nx.as_type(:u8)\n  |> Nx.transpose(axes: [:height, :width, :channels])\n  |> StbImage.from_nx()\n  |> StbImage.resize(200, 400)\n  |> StbImage.to_binary(:png)\n  |> Kino.Image.new(:png)\nend\n\nimage_to_kino.(combined_input_output.(params, 0))\n```\n\nMuch nicer!\n\nOnce again we'll use `Kino.Frame` for dynamically updating output:\n\n```elixir\nframe = Kino.Frame.new() |> Kino.render()\n\nrender_example_handler = fn state ->\n  Kino.Frame.append(frame, \"Epoch: #{state.epoch}, Iteration: #{state.iteration}\")\n  # state.step_state[:model_state] contains the model params when this event is fired\n  params = state.step_state[:model_state]\n  image_index = Enum.random(0..(Nx.axis_size(test_images, :images) - 1))\n  image = combined_input_output.(params, image_index) |> image_to_kino.()\n  Kino.Frame.append(frame, image)\n  {:continue, state}\nend\n\nparams =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, Polaris.Optimizers.adamw(learning_rate: 0.001))\n  |> Axon.Loop.handle(:iteration_completed, render_example_handler, every: 450)\n  |> Axon.Loop.validate(model, test_data)\n  |> Axon.Loop.run(train_data, %{}, epochs: 20, compiler: EXLA)\n\n:ok\n```\n\nAwesome! We have a working denoising autoencoder that we can visualize getting better in 20 epochs!","ref":"mnist_autoencoder_using_kino.html#a-better-training-loop","title":"A better training loop - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"# Training an Autoencoder on Fashion MNIST\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:scidata, \"~> 0.1.9\"}\n])\n\nNx.Defn.default_options(compiler: EXLA)\n```","ref":"fashionmnist_autoencoder.html","title":"Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"An autoencoder is a deep learning model which consists of two parts: encoder and decoder. The encoder compresses high dimensional data into a low dimensional representation and feeds it to the decoder. The decoder tries to recreate the original data from the low dimensional representation.\nAutoencoders can be used in the following problems:\n\n* Dimensionality reduction\n* Noise reduction\n* Generative models\n* Data augmentation\n\nLet's walk through a basic autoencoder implementation in Axon to get a better understanding of how they work in practice.","ref":"fashionmnist_autoencoder.html#introduction","title":"Introduction - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"To train and test how our model works, we use one of the most popular data sets: [Fashion MNIST](https://github.com/zalandoresearch/fashion-mnist). It consists of small black and white images of clothes. Loading this data set is very simple with the help of `Scidata`.\n\n```elixir\n{image_data, _label_data} = Scidata.FashionMNIST.download()\n{bin, type, shape} = image_data\n```\n\nWe get the data in a raw format, but this is exactly the information we need to build an Nx tensor.\n\n```elixir\ntrain_images =\n  bin\n  |> Nx.from_binary(type)\n  |> Nx.reshape(shape)\n  |> Nx.divide(255.0)\n```\n\nWe also normalize pixel values into the range $[0, 1]$.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nWe can visualize one of the images by looking at the tensor heatmap:\n\n```elixir\nNx.to_heatmap(train_images[1])\n```","ref":"fashionmnist_autoencoder.html#downloading-the-data","title":"Downloading the data - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"First we need to define the encoder and decoder. Both are one-layer neural networks.\n\nIn the encoder, we start by flattening the input, so we get from shape `{batch_size, 1, 28, 28}` to `{batch_size, 784}` and we pass the input into a dense layer. Our dense layer has only `latent_dim` number of neurons. The `latent_dim` (or the latent space) is a compressed representation of data. Remember, we want our encoder to compress the input data into a lower-dimensional representation, so we choose a `latent_dim` which is less than the dimensionality of the input.\n\n```elixir\nencoder = fn x, latent_dim ->\n  x\n  |> Axon.flatten()\n  |> Axon.dense(latent_dim, activation: :relu)\nend\n```\n\nNext, we pass the output of the encoder to the decoder and try to reconstruct the compressed data into its original form. Since our original input had a dimensionality of 784, we use a dense layer with 784 neurons. Because our original data was normalized to have pixel values between 0 and 1, we use a `:sigmoid` activation in our dense layer to squeeze output values between 0 and 1. Our original input shape was 28x28, so we use `Axon.reshape` to convert the flattened representation of the outputs into an image with correct the width and height.\n\n```elixir\ndecoder = fn x ->\n  x\n  |> Axon.dense(784, activation: :sigmoid)\n  |> Axon.reshape({:batch, 1, 28, 28})\nend\n```\n\nIf we just bind the encoder and decoder sequentially, we'll get the desired model. This was pretty smooth, wasn't it?\n\n```elixir\nmodel =\n  Axon.input(\"input\", shape: {nil, 1, 28, 28})\n  |> encoder.(64)\n  |> decoder.()\n```","ref":"fashionmnist_autoencoder.html#encoder-and-decoder","title":"Encoder and decoder - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"Finally, we can train the model. We'll use the `:adam` and `:mean_squared_error` loss with `Axon.Loop.trainer`. Our loss function will measure the aggregate error between pixels of original images and the model's reconstructed images. We'll also `:mean_absolute_error` using `Axon.Loop.metric`. `Axon.Loop.run` trains the model with the given training data.\n\n```elixir\nbatch_size = 32\nepochs = 5\n\nbatched_images = Nx.to_batched(train_images, batch_size)\ntrain_batches = Stream.zip(batched_images, batched_images)\n\nparams =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :adam)\n  |> Axon.Loop.metric(:mean_absolute_error, \"Error\")\n  |> Axon.Loop.run(train_batches, %{}, epochs: epochs, compiler: EXLA)\n```","ref":"fashionmnist_autoencoder.html#training-the-model","title":"Training the model - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"To better understand what is mean absolute error (MAE) and mean square error (MSE) let's go through an example.\n\n```elixir\n# Error definitions for a single sample\n\nmean_square_error = fn y_pred, y ->\n  y_pred\n  |> Nx.subtract(y)\n  |> Nx.power(2)\n  |> Nx.mean()\nend\n\nmean_absolute_error = fn y_pred, y ->\n  y_pred\n  |> Nx.subtract(y)\n  |> Nx.abs()\n  |> Nx.mean()\nend\n```\n\nWe will work with a sample image of a shoe, a slightly noised version of that image, and also an entirely different image from the dataset.\n\n```elixir\nshoe_image = train_images[0]\nnoised_shoe_image = Nx.add(shoe_image, Nx.random_normal(shoe_image, 0.0, 0.05))\nother_image = train_images[1]\n:ok\n```\n\nFor the same image both errors should be 0, because when we have two exact copies, there is no pixel difference.\n\n```elixir\n{\n  mean_square_error.(shoe_image, shoe_image),\n  mean_absolute_error.(shoe_image, shoe_image)\n}\n```\n\nNow the noised image:\n\n```elixir\n{\n  mean_square_error.(shoe_image, noised_shoe_image),\n  mean_absolute_error.(shoe_image, noised_shoe_image)\n}\n```\n\nAnd a different image:\n\n```elixir\n{\n  mean_square_error.(shoe_image, other_image),\n  mean_absolute_error.(shoe_image, other_image)\n}\n```\n\nAs we can see, the noised image has a non-zero MSE and MAE but is much smaller than the error of two completely different pictures. In other words, both of these error types measure the level of similarity between images. A small error implies decent prediction values. On the other hand, a large error value suggests poor quality of predictions.\n\nIf you look at our implementation of MAE and MSE, you will notice that they are very similar. MAE and MSE can also be called the $L_1$ and $L_2$ loss respectively for the $L_1$ and $L_2$ norm. The $L_2$ loss (MSE) is typically preferred because it's a smoother function whereas $L_1$ is often difficult to optimize with stochastic gradient descent (SGD).","ref":"fashionmnist_autoencoder.html#extra-losses","title":"Extra: losses - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"Now, let's see how our model is doing! We will compare a sample image before and after compression.\n\n```elixir\nsample_image = train_images[0..0//1]\ncompressed_image = Axon.predict(model, params, sample_image, compiler: EXLA)\n\nsample_image\n|> Nx.to_heatmap()\n|> IO.inspect(label: \"Original\")\n\ncompressed_image\n|> Nx.to_heatmap()\n|> IO.inspect(label: \"Compressed\")\n\n:ok\n```\n\nAs we can see, the generated image is similar to the input image. The only difference between them is the absence of a sign in the middle of the second shoe. The model treated the sign as noise and bled this into the plain shoe.","ref":"fashionmnist_autoencoder.html#inference","title":"Inference - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"# A Variational Autoencoder for MNIST\n\n```elixir\nMix.install([\n  {:exla, \"~> 0.4.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:axon, \"~> 0.3.0\"},\n  {:req, \"~> 0.3.1\"},\n  {:kino, \"~> 0.7.0\"},\n  {:scidata, \"~> 0.1.9\"},\n  {:stb_image, \"~> 0.5.2\"},\n  {:kino_vega_lite, \"~> 0.1.6\"},\n  {:vega_lite, \"~> 0.1.6\"},\n  {:table_rex, \"~> 3.1.1\"}\n])\n\nalias VegaLite, as: Vl\n\n# This speeds up all our `Nx` operations without having to use `defn`\nNx.global_default_backend(EXLA.Backend)\n\n:ok\n```","ref":"fashionmnist_vae.html","title":"A Variational Autoencoder for MNIST","type":"extras"},{"doc":"In this notebook, we'll be building a variational autoencoder (VAE). This will help demonstrate splitting up models, defining custom layers and loss functions, using multiple outputs, and a few additional Kino tricks for training models.\n\nThis notebook builds on the [denoising autoencoder example](mnist_autoencoder_using_kino.livemd) and turns the simple autoencoder into a variational one for the same dataset.","ref":"fashionmnist_vae.html#introduction","title":"Introduction - A Variational Autoencoder for MNIST","type":"extras"},{"doc":"This section will proceed without much explanation as most of it is extracted from [denoising autoencoder example](mnist_autoencoder_using_kino.livemd). If anything here doesn't make sense, take a look at that notebook for an explanation.\n\n```elixir\ndefmodule Data do\n  @moduledoc \"\"\"\n  A module to hold useful data processing utilities,\n  mostly extracted from the previous notebook\n  \"\"\"\n\n  @doc \"\"\"\n  Converts the given image into a `Kino.Image`.\n\n  `image` must be a single channel `Nx` tensor with pixel values between 0 and 1.\n  `height` and `width` are the output size in pixels\n  \"\"\"\n  def image_to_kino(image, height \\\\ 200, width \\\\ 200) do\n    image\n    |> Nx.multiply(255)\n    |> Nx.as_type(:u8)\n    |> Nx.transpose(axes: [:height, :width, :channels])\n    |> StbImage.from_nx()\n    |> StbImage.resize(height, width)\n    |> StbImage.to_binary(:png)\n    |> Kino.Image.new(:png)\n  end\n\n  @doc \"\"\"\n  Converts image data from `Scidata.MNIST` into an `Nx` tensor and normalizes it.\n  \"\"\"\n  def preprocess_data(data) do\n    {image_data, _labels} = data\n    {images_binary, type, shape} = image_data\n\n    images_binary\n    |> Nx.from_binary(type)\n    # Since pixels are organized row-wise, reshape into rows x columns\n    |> Nx.reshape(shape, names: [:images, :channels, :height, :width])\n    # Normalize the pixel values to be between 0 and 1\n    |> Nx.divide(255)\n  end\n\n  @doc \"\"\"\n  Converts a tensor of images into random batches of paired images for model training\n  \"\"\"\n  def prepare_training_data(images, batch_size) do\n    Stream.flat_map([nil], fn nil ->\n      images |> Nx.shuffle(axis: :images) |> Nx.to_batched(batch_size)\n    end)\n    |> Stream.map(fn batch -> {batch, batch} end)\n  end\nend\n```\n\n```elixir\ntrain_images = Data.preprocess_data(Scidata.FashionMNIST.download())\ntest_images = Data.preprocess_data(Scidata.FashionMNIST.download_test())\n\nKino.render(train_images[[images: 0]] |> Data.image_to_kino())\nKino.render(test_images[[images: 0]] |> Data.image_to_kino())\n\n:ok\n```\n\nNow for our simple autoencoder model. We won't be using a denoising autoencoder here.\n\nNote that we're giving each of the layers a name - the reason for this will be apparent later.\n\nI'm also using a small custom layer to shift and scale the output of the sigmoid layer slightly so it can hit the 0 and 1 targets. I noticed the gradients tend to explode without this.\n\n```elixir\ndefmodule CustomLayer do\n  import Nx.Defn\n\n  def scaling_layer(%Axon{} = input, _opts \\\\ []) do\n    Axon.layer(&scaling_layer_impl/2, [input])\n  end\n\n  defnp scaling_layer_impl(x, _opts \\\\ []) do\n    x\n    |> Nx.subtract(0.05)\n    |> Nx.multiply(1.2)\n  end\nend\n```\n\n```elixir\nmodel =\n  Axon.input(\"image\", shape: {nil, 1, 28, 28})\n  # This is now 28*28*1 = 784\n  |> Axon.flatten()\n  # The encoder\n  |> Axon.dense(256, activation: :relu, name: \"encoder_layer_1\")\n  |> Axon.dense(128, activation: :relu, name: \"encoder_layer_2\")\n  |> Axon.dense(64, activation: :relu, name: \"encoder_layer_3\")\n  # Bottleneck layer\n  |> Axon.dense(10, activation: :relu, name: \"bottleneck_layer\")\n  # The decoder\n  |> Axon.dense(64, activation: :relu, name: \"decoder_layer_1\")\n  |> Axon.dense(128, activation: :relu, name: \"decoder_layer_2\")\n  |> Axon.dense(256, activation: :relu, name: \"decoder_layer_3\")\n  |> Axon.dense(784, activation: :sigmoid, name: \"decoder_layer_4\")\n  |> CustomLayer.scaling_layer()\n  # Turn it back into a 28x28 single channel image\n  |> Axon.reshape({:auto, 1, 28, 28})\n\n# We can use Axon.Display to show us what each of the layers would look like\n# assuming we send in a batch of 4 images\nAxon.Display.as_table(model, Nx.template({4, 1, 28, 28}, :f32)) |> IO.puts()\n```\n\n```elixir\nbatch_size = 128\n\ntrain_data = Data.prepare_training_data(train_images, 128)\ntest_data = Data.prepare_training_data(test_images, 128)\n\n{input_batch, target_batch} = Enum.at(train_data, 0)\nKino.render(input_batch[[images: 0]] |> Data.image_to_kino())\nKino.render(target_batch[[images: 0]] |> Data.image_to_kino())\n\n:ok\n```\n\nWhen training, it can be useful to stop execution early - either when you see it's failing and you don't want to waste time waiting for the remaining epochs to finish, or if it's good enough and you want to start experimenting with it.\n\nThe `kino_early_stop/1` function below is a handy handler to give us a `Kino.Control.button` that will stop the training loop when clicked.\n\nWe also have `plot_losses/1` function to visualize our train and validation losses using `VegaLite`.\n\n```elixir\ndefmodule KinoAxon do\n  @doc \"\"\"\n  Adds handler function which adds a frame with a \"stop\" button\n  to the cell with the training loop.\n\n  Clicking \"stop\" will halt the training loop.\n  \"\"\"\n  def kino_early_stop(loop) do\n    frame = Kino.Frame.new() |> Kino.render()\n    stop_button = Kino.Control.button(\"stop\")\n    Kino.Frame.render(frame, stop_button)\n\n    {:ok, button_agent} = Agent.start_link(fn -> nil end)\n\n    stop_button\n    |> Kino.Control.stream()\n    |> Kino.listen(fn _event ->\n      Agent.update(button_agent, fn _ -> :stop end)\n    end)\n\n    handler = fn state ->\n      stop_state = Agent.get(button_agent, & &1)\n\n      if stop_state == :stop do\n        Agent.stop(button_agent)\n        Kino.Frame.render(frame, \"stopped\")\n        {:halt_loop, state}\n      else\n        {:continue, state}\n      end\n    end\n\n    Axon.Loop.handle(loop, :iteration_completed, handler)\n  end\n\n  @doc \"\"\"\n  Plots the training and validation losses using Kino and VegaLite.\n\n  This *must* come after `Axon.Loop.validate`.\n  \"\"\"\n  def plot_losses(loop) do\n    vl_widget =\n      Vl.new(width: 600, height: 400)\n      |> Vl.mark(:point, tooltip: true)\n      |> Vl.encode_field(:x, \"epoch\", type: :ordinal)\n      |> Vl.encode_field(:y, \"loss\", type: :quantitative)\n      |> Vl.encode_field(:color, \"dataset\", type: :nominal)\n      |> Kino.VegaLite.new()\n      |> Kino.render()\n\n    handler = fn state ->\n      %Axon.Loop.State{metrics: metrics, epoch: epoch} = state\n      loss = metrics[\"loss\"] |> Nx.to_number()\n      val_loss = metrics[\"validation_loss\"] |> Nx.to_number()\n\n      points = [\n        %{epoch: epoch, loss: loss, dataset: \"train\"},\n        %{epoch: epoch, loss: val_loss, dataset: \"validation\"}\n      ]\n\n      Kino.VegaLite.push_many(vl_widget, points)\n      {:continue, state}\n    end\n\n    Axon.Loop.handle(loop, :epoch_completed, handler)\n  end\nend\n```\n\n```elixir\n# A helper function to display the input and output side by side\ncombined_input_output = fn params, image_index ->\n  test_image = test_images[[images: image_index]]\n  reconstructed_image = Axon.predict(model, params, test_image) |> Nx.squeeze(axes: [0])\n  Nx.concatenate([test_image, reconstructed_image], axis: :width)\nend\n\nframe = Kino.Frame.new() |> Kino.render()\n\nrender_example_handler = fn state ->\n  # state.step_state[:model_state] contains the model params when this event is fired\n  params = state.step_state[:model_state]\n  image_index = Enum.random(0..(Nx.axis_size(test_images, :images) - 1))\n  image = combined_input_output.(params, image_index) |> Data.image_to_kino(200, 400)\n  Kino.Frame.render(frame, image)\n  Kino.Frame.append(frame, \"Epoch: #{state.epoch}, Iteration: #{state.iteration}\")\n  {:continue, state}\nend\n\nparams =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, Polaris.Optimizers.adamw(learning_rate: 0.001))\n  |> KinoAxon.kino_early_stop()\n  |> Axon.Loop.handle(:iteration_completed, render_example_handler, every: 450)\n  |> Axon.Loop.validate(model, test_data)\n  |> KinoAxon.plot_losses()\n  |> Axon.Loop.run(train_data, %{}, epochs: 40, compiler: EXLA)\n\n:ok\n```\n\n<!-- livebook:{\"branch_parent_index\":1} -->","ref":"fashionmnist_vae.html#training-a-simple-autoencoder","title":"Training a simple autoencoder - A Variational Autoencoder for MNIST","type":"extras"},{"doc":"Cool! We now have the parameters for a trained, simple autoencoder. Our next step is to split up the model so we can use the encoder and decoder separately. By doing that, we'll be able to take an image and _encode_ it to get the model's compressed image representation (the latent vector). We can then manipulate the latent vector and run the manipulated latent vector through the _decoder_ to get a new image.\n\nLet's start by defining the encoder and decoder separately as two different models.\n\n```elixir\nencoder =\n  Axon.input(\"image\", shape: {nil, 1, 28, 28})\n  # This is now 28*28*1 = 784\n  |> Axon.flatten()\n  # The encoder\n  |> Axon.dense(256, activation: :relu, name: \"encoder_layer_1\")\n  |> Axon.dense(128, activation: :relu, name: \"encoder_layer_2\")\n  |> Axon.dense(64, activation: :relu, name: \"encoder_layer_3\")\n  # Bottleneck layer\n  |> Axon.dense(10, activation: :relu, name: \"bottleneck_layer\")\n\n# The output from the encoder\ndecoder =\n  Axon.input(\"latent\", shape: {nil, 10})\n  # The decoder\n  |> Axon.dense(64, activation: :relu, name: \"decoder_layer_1\")\n  |> Axon.dense(128, activation: :relu, name: \"decoder_layer_2\")\n  |> Axon.dense(256, activation: :relu, name: \"decoder_layer_3\")\n  |> Axon.dense(784, activation: :sigmoid, name: \"decoder_layer_4\")\n  |> CustomLayer.scaling_layer()\n  # Turn it back into a 28x28 single channel image\n  |> Axon.reshape({:auto, 1, 28, 28})\n\nAxon.Display.as_table(encoder, Nx.template({4, 1, 28, 28}, :f32)) |> IO.puts()\nAxon.Display.as_table(decoder, Nx.template({4, 10}, :f32)) |> IO.puts()\n```\n\nWe have the two models, but the problem is these are untrained models so we don't have the corresponding set of parameters. We'd like to use the parameters from the autoencoder we just trained and apply them to our split up models.\n\nLet's first take a look at what params actually are:\n\n```elixir\nparams\n```\n\nParams are just a `Map` with the layer name as the key identifying which parameters to use. We can easily match up the layer names with the output from the `Axon.Display.as_table/2` call for the autoencoder model.\n\nSo all we need to do is create a new Map that plucks out the right layers from our autoencoder `params` for each model and use that to run inference on our split up models.\n\nFortunately, since we gave each of the layers names, this requires no work at all - we can use the Map as it is since the layer names match up! Axon will ignore any extra keys so those won't be a problem.\n\nNote that naming the layers wasn't _required_, if the layers didn't have names we would have some renaming to do to get the names to match between the models. But giving them names made it very convenient :)\n\nLet's try encoding an image, printing the latent and then decoding the latent using our split up model to make sure it's working.\n\n```elixir\nimage = test_images[[images: 0]]\n\n# Encode the image\nlatent = Axon.predict(encoder, params, image)\nIO.inspect(latent, label: \"Latent\")\n# Decode the image\nreconstructed_image = Axon.predict(decoder, params, latent) |> Nx.squeeze(axes: [0])\n\ncombined_image = Nx.concatenate([image, reconstructed_image], axis: :width)\nData.image_to_kino(combined_image, 200, 400)\n```\n\nPerfect! Seems like the split up models are working as expected. Now let's try to generate some new images using our autoencoder. To do this, we'll manipulate the latent so it's slightly different from what the encoder gave us. Specifically, we'll try to interpolate between two images, showing 100 steps from our starting image to our final image.\n\n```elixir\nnum_steps = 100\n\n# Get our latents, image at index 0 is our starting point\n# index 1 is where we'll end\nlatents = Axon.predict(encoder, params, test_images[[images: 0..1]])\n# Latents is a {2, 10} tensor\n# The step we'll add to our latent to move it towards image[1]\nstep = Nx.subtract(latents[1], latents[0]) |> Nx.divide(num_steps)\n# We can make a batch of all our new latents\nnew_latents = Nx.multiply(Nx.iota({num_steps + 1, 1}), step) |> Nx.add(latents[0])\n\nreconstructed_images = Axon.predict(decoder, params, new_latents)\n\nreconstructed_images =\n  Nx.reshape(\n    reconstructed_images,\n    Nx.shape(reconstructed_images),\n    names: [:images, :channels, :height, :width]\n  )\n\nStream.interval(div(5000, num_steps))\n|> Stream.take(num_steps + 1)\n|> Kino.animate(fn i ->\n  Data.image_to_kino(reconstructed_images[i])\nend)\n```\n\nCool! We have interpolation! But did you notice that some of the intermediate frames don't look fashionable at all? Autoencoders don't generally return good results for random vectors in their latent space. That's where a VAE can help.\n\n<!-- livebook:{\"branch_parent_index\":1} -->","ref":"fashionmnist_vae.html#splitting-up-the-model","title":"Splitting up the model - A Variational Autoencoder for MNIST","type":"extras"},{"doc":"In a VAE, instead of outputting a latent vector, our encoder will output a distribution. Essentially this means instead of 10 outputs we'll have 20. 10 of them will represent the mean and 10 will represent the log of the variance of the latent. We'll have to sample from this distribution to get our latent vector. Finally, we'll have to modify our loss function to also compute the KL Divergence between the latent distribution and a standard normal distribution (this acts as a regularizer of the latent space).\n\nWe'll start by defining our model:\n\n```elixir\ndefmodule Vae do\n  import Nx.Defn\n\n  @latent_features 10\n\n  defp sampling_layer(%Axon{} = input, _opts \\\\ []) do\n    Axon.layer(&sampling_layer_impl/2, [input], name: \"sampling_layer\", op_name: :sample)\n  end\n\n  defnp sampling_layer_impl(x, _opts \\\\ []) do\n    mu = x[[0..-1//1, 0, 0..-1//1]]\n    log_var = x[[0..-1//1, 1, 0..-1//1]]\n    std_dev = Nx.exp(0.5 * log_var)\n    eps = Nx.random_normal(std_dev)\n    sample = mu + std_dev * eps\n    Nx.stack([sample, mu, std_dev], axis: 1)\n  end\n\n  defp encoder_partial() do\n    Axon.input(\"image\", shape: {nil, 1, 28, 28})\n    # This is now 28*28*1 = 784\n    |> Axon.flatten()\n    # The encoder\n    |> Axon.dense(256, activation: :relu, name: \"encoder_layer_1\")\n    |> Axon.dense(128, activation: :relu, name: \"encoder_layer_2\")\n    |> Axon.dense(64, activation: :relu, name: \"encoder_layer_3\")\n    # Bottleneck layer\n    |> Axon.dense(@latent_features * 2, name: \"bottleneck_layer\")\n    # Split up the mu and logvar\n    |> Axon.reshape({:auto, 2, @latent_features})\n    |> sampling_layer()\n  end\n\n  def encoder() do\n    encoder_partial()\n    # Grab only the sample (ie. the sampled latent)\n    |> Axon.nx(fn x -> x[[0..-1//1, 0]] end)\n  end\n\n  def decoder(input_latent) do\n    input_latent\n    |> Axon.dense(64, activation: :relu, name: \"decoder_layer_1\")\n    |> Axon.dense(128, activation: :relu, name: \"decoder_layer_2\")\n    |> Axon.dense(256, activation: :relu, name: \"decoder_layer_3\")\n    |> Axon.dense(784, activation: :sigmoid, name: \"decoder_layer_4\")\n    |> CustomLayer.scaling_layer()\n    # Turn it back into a 28x28 single channel image\n    |> Axon.reshape({:auto, 1, 28, 28})\n  end\n\n  def autoencoder() do\n    encoder_partial = encoder_partial()\n    encoder = encoder()\n    autoencoder = decoder(encoder)\n    Axon.container(%{mu_sigma: encoder_partial, reconstruction: autoencoder})\n  end\nend\n```\n\nThere's a few interesting things going on here. First, since our model has become more complex, we've used a module to keep it organized. We also built a custom layer to do the sampling and output the sampled latent vector as well as the distribution parameters (mu and sigma).\n\nFinally, we need the distribution itself so we can calculate the KL Divergence in our loss function. To make the model output the distribution parameters (mu and sigma), we use `Axon.container/1` to produce two outputs from our model instead of one. Now, instead of getting a tensor as an output, we'll get a map with the two tensors we need for our loss function.\n\nOur loss function also has to be modified so be the sum of the KL divergence and MSE. Here's our custom loss function:\n\n```elixir\ndefmodule CustomLoss do\n  import Nx.Defn\n\n  defn loss(y_true, %{reconstruction: reconstruction, mu_sigma: mu_sigma}) do\n    mu = mu_sigma[[0..-1//1, 1, 0..-1//1]]\n    sigma = mu_sigma[[0..-1//1, 2, 0..-1//1]]\n    kld = Nx.sum(-Nx.log(sigma) - 0.5 + Nx.multiply(sigma, sigma) + Nx.multiply(mu, mu))\n    kld * 0.1 + Axon.Losses.mean_squared_error(y_true, reconstruction, reduction: :sum)\n  end\nend\n```\n\nWith all our pieces ready, we can pretty much use the same training loop as we did earlier. The only modifications needed are to account for the fact that the model outputs a map with two values instead of a single tensor and telling the trainer to use our custom loss.\n\n```elixir\nmodel = Vae.autoencoder()\n\n# A helper function to display the input and output side by side\ncombined_input_output = fn params, image_index ->\n  test_image = test_images[[images: image_index]]\n  %{reconstruction: reconstructed_image} = Axon.predict(model, params, test_image)\n  reconstructed_image = reconstructed_image |> Nx.squeeze(axes: [0])\n  Nx.concatenate([test_image, reconstructed_image], axis: :width)\nend\n\nframe = Kino.Frame.new() |> Kino.render()\n\nrender_example_handler = fn state ->\n  # state.step_state[:model_state] contains the model params when this event is fired\n  params = state.step_state[:model_state]\n  image_index = Enum.random(0..(Nx.axis_size(test_images, :images) - 1))\n  image = combined_input_output.(params, image_index) |> Data.image_to_kino(200, 400)\n  Kino.Frame.render(frame, image)\n  Kino.Frame.append(frame, \"Epoch: #{state.epoch}, Iteration: #{state.iteration}\")\n  {:continue, state}\nend\n\nparams =\n  model\n  |> Axon.Loop.trainer(&CustomLoss.loss/2, Polaris.Optimizers.adam(learning_rate: 0.001))\n  |> KinoAxon.kino_early_stop()\n  |> Axon.Loop.handle(:epoch_completed, render_example_handler)\n  |> Axon.Loop.validate(model, test_data)\n  |> KinoAxon.plot_losses()\n  |> Axon.Loop.run(train_data, %{}, epochs: 40, compiler: EXLA)\n\n:ok\n```\n\nFinally, we can try our interpolation again:\n\n```elixir\nnum_steps = 100\n\n# Get our latents, image at index 0 is our starting point\n# index 1 is where we'll end\nlatents = Axon.predict(Vae.encoder(), params, test_images[[images: 0..1]])\n# Latents is a {2, 10} tensor\n# The step we'll add to our latent to move it towards image[1]\nstep = Nx.subtract(latents[1], latents[0]) |> Nx.divide(num_steps)\n# We can make a batch of all our new latents\nnew_latents = Nx.multiply(Nx.iota({num_steps + 1, 1}), step) |> Nx.add(latents[0])\n\ndecoder = Axon.input(\"latent\", shape: {nil, 10}) |> Vae.decoder()\n\nreconstructed_images = Axon.predict(decoder, params, new_latents)\n\nreconstructed_images =\n  Nx.reshape(\n    reconstructed_images,\n    Nx.shape(reconstructed_images),\n    names: [:images, :channels, :height, :width]\n  )\n\nStream.interval(div(5000, num_steps))\n|> Stream.take(num_steps + 1)\n|> Kino.animate(fn i ->\n  Data.image_to_kino(reconstructed_images[i])\nend)\n```\n\nDid you notice the difference? Every step in our interpolation looks similar to items in our dataset! This is the benefit of the VAE: we can generate new items by using random latents. In contrast, in the simple autoencoder, for the most part only latents we got from our encoder were likely to produce sensible outputs.","ref":"fashionmnist_vae.html#making-it-variational","title":"Making it variational - A Variational Autoencoder for MNIST","type":"extras"}]}
\ No newline at end of file
diff --git a/dist/search_data-BDD49AAD.js b/dist/search_data-BDD49AAD.js
new file mode 100644
index 00000000..214f2191
--- /dev/null
+++ b/dist/search_data-BDD49AAD.js
@@ -0,0 +1 @@
+searchData={"content_type":"text/markdown","items":[{"doc":"Model State Data Structure.\n\nThis data structure represents all the state needed for\na model to perform inference.","ref":"Axon.ModelState.html","title":"Axon.ModelState","type":"module"},{"doc":"Returns an empty model state.","ref":"Axon.ModelState.html#empty/0","title":"Axon.ModelState.empty/0","type":"function"},{"doc":"Freezes parameters and state in the given model state\nusing the given mask.\n\nThe mask is an arity 1 function which takes the access path to the\nleaf parameter and returns `true` if the parameter should be frozen\nor `false` otherwise. With this, you can construct flexible masking\npolicies:\n\n    fn\n      [\"dense_\" <> n, \"kernel\"] -> String.to_integer(n) < 3\n      _ -> false\n    end\n\nThe default mask returns `true` for all paths, and is equivalent to\nfreezing the entire model.","ref":"Axon.ModelState.html#freeze/2","title":"Axon.ModelState.freeze/2","type":"function"},{"doc":"Returns the frozen parameters in the given model state.","ref":"Axon.ModelState.html#frozen_parameters/1","title":"Axon.ModelState.frozen_parameters/1","type":"function"},{"doc":"Returns the frozen state in the given model state.","ref":"Axon.ModelState.html#frozen_state/1","title":"Axon.ModelState.frozen_state/1","type":"function"},{"doc":"Returns a new model state struct from the given parameter\nmap.","ref":"Axon.ModelState.html#new/1","title":"Axon.ModelState.new/1","type":"function"},{"doc":"Returns the trainable parameters in the given model state.","ref":"Axon.ModelState.html#trainable_parameters/1","title":"Axon.ModelState.trainable_parameters/1","type":"function"},{"doc":"Returns the trainable state in the given model state.","ref":"Axon.ModelState.html#trainable_state/1","title":"Axon.ModelState.trainable_state/1","type":"function"},{"doc":"Unfreezes parameters and state in the given model state\nusing the given mask.\n\nThe mask is an arity 1 function which takes the access path to the\nleaf parameter and returns `true` if the parameter should be unfrozen\nor `false` otherwise. With this, you can construct flexible masking\npolicies:\n\n    fn\n      [\"dense_\" <> n, \"kernel\"] -> n < 3\n      _ -> false\n    end\n\nThe default mask returns `true` for all paths, and is equivalent to\nunfreezing the entire model.","ref":"Axon.ModelState.html#unfreeze/2","title":"Axon.ModelState.unfreeze/2","type":"function"},{"doc":"Updates the given model state.","ref":"Axon.ModelState.html#update/3","title":"Axon.ModelState.update/3","type":"function"},{"doc":"A high-level interface for creating neural network models.\n\nAxon is built entirely on top of Nx numerical definitions,\nso every neural network can be JIT or AOT compiled using\nany Nx compiler, or even transformed into high-level neural\nnetwork formats like TensorFlow Lite and\n[ONNX](https://github.com/elixir-nx/axon_onnx).\n\nFor a more in-depth overview of Axon, refer to the [Guides](guides.html).","ref":"Axon.html","title":"Axon","type":"module"},{"doc":"All Axon models start with an input layer, optionally specifying\nthe expected shape of the input data:\n\n    input = Axon.input(\"input\", shape: {nil, 784})\n\nNotice you can specify some dimensions as `nil`, indicating\nthat the dimension size will be filled in at model runtime.\nYou can then compose inputs with other layers:\n\n    model =\n      input\n      |> Axon.dense(128, activation: :relu)\n      |> Axon.batch_norm()\n      |> Axon.dropout(rate: 0.8)\n      |> Axon.dense(64)\n      |> Axon.tanh()\n      |> Axon.dense(10)\n      |> Axon.activation(:softmax)\n\nYou can inspect the model for a nice summary:\n\n    IO.inspect(model)\n\n    #Axon \n\nOr use the `Axon.Display` module to see more in-depth summaries:\n\n    Axon.Display.as_table(model, Nx.template({1, 784}, :f32)) |> IO.puts\n\n    +----------------------------------------------------------------------------------------------------------------+\n    |                                                     Model                                                      |\n    +=======================================+=============+==============+===================+=======================+\n    | Layer                                 | Input Shape | Output Shape | Options           | Parameters            |\n    +=======================================+=============+==============+===================+=======================+\n    | input ( input )                       | []          | {1, 784}     | shape: {nil, 784} |                       |\n    |                                       |             |              | optional: false   |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | dense_0 ( dense[\"input\"] )            | [{1, 784}]  | {1, 128}     |                   | kernel: f32[784][128] |\n    |                                       |             |              |                   | bias: f32[128]        |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | relu_0 ( relu[\"dense_0\"] )            | [{1, 128}]  | {1, 128}     |                   |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | batch_norm_0 ( batch_norm[\"relu_0\"] ) | [{1, 128}]  | {1, 128}     | epsilon: 1.0e-5   | gamma: f32[128]       |\n    |                                       |             |              | channel_index: 1  | beta: f32[128]        |\n    |                                       |             |              | momentum: 0.1     | mean: f32[128]        |\n    |                                       |             |              |                   | var: f32[128]         |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | dropout_0 ( dropout[\"batch_norm_0\"] ) | [{1, 128}]  | {1, 128}     | rate: 0.8         |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | dense_1 ( dense[\"dropout_0\"] )        | [{1, 128}]  | {1, 64}      |                   | kernel: f32[128][64]  |\n    |                                       |             |              |                   | bias: f32[64]         |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | tanh_0 ( tanh[\"dense_1\"] )            | [{1, 64}]   | {1, 64}      |                   |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | dense_2 ( dense[\"tanh_0\"] )           | [{1, 64}]   | {1, 10}      |                   | kernel: f32[64][10]   |\n    |                                       |             |              |                   | bias: f32[10]         |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n    | softmax_0 ( softmax[\"dense_2\"] )      | [{1, 10}]   | {1, 10}      |                   |                       |\n    +---------------------------------------+-------------+--------------+-------------------+-----------------------+\n\n#","ref":"Axon.html#module-model-creation","title":"Model Creation - Axon","type":"module"},{"doc":"Creating a model with multiple inputs is as easy as declaring an\nadditional input in your Axon graph. Every input layer present in\nthe final Axon graph will be required to be passed as input at the\ntime of model execution.\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n\n    # Both inputs will be used\n    model1 = Axon.add(inp1, inp2)\n\n    # Only inp2 will be used\n    model2 = Axon.add(inp2, inp2)\n\nAxon graphs are immutable, which means composing and manipulating\nan Axon graph creates an entirely new graph. Additionally, layer\nnames are lazily generated at model execution time. To avoid\nnon-deterministic input orderings and names, Axon requires each\ninput to have a unique binary identifier. You can then reference\ninputs by name when passing to models at execution time:\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n\n    model1 = Axon.add(inp1, inp2)\n\n    {init_fn, predict_fn} = Axon.build(model1)\n\n    params1 = init_fn.(Nx.template({1, 1}, {:f, 32}), %{})\n    # Inputs are referenced by name\n    predict_fn.(params1, %{\"input_0\" => x, \"input_1\" => y})\n\n#","ref":"Axon.html#module-multiple-inputs","title":"Multiple Inputs - Axon","type":"module"},{"doc":"Nx offers robust [container](https://hexdocs.pm/nx/Nx.Container.html) support\nwhich is extended to Axon. Axon allows you to wrap any valid Nx container\nin a layer. Containers are most commonly used to structure outputs:\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n    model = Axon.container(%{foo: inp1, bar: inp2})\n\nContainers can be arbitrarily nested:\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n    model = Axon.container({%{foo: {inp1, %{bar: inp2}}}})\n\nYou can even use custom structs which implement the container protocol:\n\n    inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    inp2 = Axon.input(\"input_1\", shape: {nil, 1})\n    model = Axon.container(%MyStruct{foo: inp1, bar: inp2})\n\n#","ref":"Axon.html#module-multiple-outputs","title":"Multiple Outputs - Axon","type":"module"},{"doc":"If you find that Axon's built-in layers are insufficient for your needs,\nyou can create your own using the custom layer API. All of Axon's built-in\nlayers (aside from special ones such as `input`, `constant`, and `container`)\nmake use of this same API.\n\nAxon layers are really just placeholders for Nx computations with trainable\nparameters and possibly state. To define a custom layer, you just need to\ndefine a `defn` implementation:\n\n    defn my_layer(x, weight, _opts \\\\ []) do\n      Nx.atan2(x, weight)\n    end\n\nNotice the only stipulation is that your custom layer implementation must\naccept at least 1 input and a list of options. At execution time, every\nlayer will be passed a `:mode` option which can be used to control behavior\nat training and inference time.\n\nInputs to your custom layer can be either Axon graph inputs or trainable\nparameters. You can pass Axon graph inputs as-is to a custom layer. To\ndeclare trainable parameters, use `Axon.param/3`:\n\n    weight = Axon.param(\"weight\", param_shape)\n\nTo create a custom layer, you \"wrap\" your implementation and inputs into\na layer using `Axon.layer`. You'll notice the API mirrors Elixir's `apply`:\n\n    def atan2_layer(%Axon{} = input) do\n      weight = Axon.param(\"weight\", param_shape)\n      Axon.layer(&my_layer/3, [input, weight])\n    end","ref":"Axon.html#module-custom-layers","title":"Custom Layers - Axon","type":"module"},{"doc":"Under the hood, Axon models are represented as Elixir structs. You\ncan initialize and apply models by building or compiling them with\n`Axon.build/2` or `Axon.compile/4` and then calling the produced\ninitialization and predict functions:\n\n    {init_fn, predict_fn} = Axon.build(model)\n\n    params = init_fn.(Nx.template({1, 1}, {:f, 32}), %{})\n    predict_fn.(params, inputs)\n\nYou may either set the default JIT compiler or backend globally, or\npass a specific compiler to `Axon.build/2`:\n\n    EXLA.set_as_nx_default([:tpu, :cuda, :rocm, :host])\n\n    {init_fn, predict_fn} = Axon.build(model, compiler: EXLA, mode: :train)\n\n    params = init_fn.(Nx.template({1, 1}, {:f, 32}), %{})\n    predict_fn.(params, inputs)\n\n`predict_fn` by default runs in inference mode, which performs certain\noptimizations and removes layers such as dropout layers. If constructing\na training step using `Axon.predict/4` or `Axon.build/2`, be sure to specify\n`mode: :train`.","ref":"Axon.html#module-model-execution","title":"Model Execution - Axon","type":"module"},{"doc":"Combining the Axon model creation API with the optimization and training\nAPIs, you can create and train neural networks with ease:\n\n    model =\n      Axon.input(\"input_0\", shape: {nil, 784})\n      |> Axon.dense(128, activation: :relu)\n      |> Axon.layer_norm()\n      |> Axon.dropout()\n      |> Axon.dense(10, activation: :softmax)\n\n    IO.inspect model\n\n    model_state =\n      model\n      |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adamw(learning_rate: 0.005))\n      |> Axon.Loop.run(train_data, epochs: 10, compiler: EXLA)\n\nSee `Polaris.Updates` and `Axon.Loop` for a more in-depth treatment of\nmodel optimization and model training.","ref":"Axon.html#module-model-training","title":"Model Training - Axon","type":"module"},{"doc":"When deploying an `Axon` model to production, you usually want to batch\nmultiple prediction requests and run the inference for all of them at\nonce. Conveniently, `Nx` already has an abstraction for this task in the\nform of `Nx.Serving`. Here's how you could define a serving for an `Axon`\nmodel:\n\n    def build_serving() do\n      # Configuration\n      batch_size = 4\n      defn_options = [compiler: EXLA]\n\n      Nx.Serving.new(\n        # This function runs on the serving startup\n        fn ->\n          # Build the Axon model and load params (usually from file)\n          model = build_model()\n          params = load_params()\n\n          # Build the prediction defn function\n          {_init_fun, predict_fun} = Axon.build(model)\n\n          inputs_template = %{\"pixel_values\" => Nx.template({batch_size, 224, 224, 3}, :f32)}\n          template_args = [Nx.to_template(params), inputs_template]\n\n          # Compile the prediction function upfront for the configured batch_size\n          predict_fun = Nx.Defn.compile(predict_fun, template_args, defn_options)\n\n          # The returned function is called for every accumulated batch\n          fn inputs ->\n            inputs = Nx.Batch.pad(inputs, batch_size - inputs.size)\n            predict_fun.(params, inputs)\n          end\n        end,\n        batch_size: batch_size\n      )\n    end\n\nThen you would start the serving server as part of your application's\nsupervision tree:\n\n    children = [\n      ...,\n      {Nx.Serving, serving: build_serving(), name: MyApp.Serving, batch_timeout: 100}\n    ]\n\nWith that in place, you can now ask serving for predictions all across\nyour application (controllers, live views, async jobs, etc.). Having a\ntensor input you would do:\n\n    inputs = %{\"pixel_values\" => ...}\n    batch = Nx.Batch.concatenate([inputs])\n    result = Nx.Serving.batched_run(MyApp.Serving, batch)\n\nUsually you also want to do pre/post-processing of the model input/output.\nYou could make those preparations directly before/after `Nx.Serving.batched_run/2`,\nhowever you can also make use of `Nx.Serving.client_preprocessing/2` and\n`Nx.Serving.client_postprocessing/2` to encapsulate that logic as part of\nthe serving.","ref":"Axon.html#module-using-with-nx-serving","title":"Using with `Nx.Serving` - Axon","type":"module"},{"doc":"Adds an activation layer to the network.\n\nActivation layers are element-wise functions typically called\nafter the output of another layer.","ref":"Axon.html#activation/3","title":"Axon.activation/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#activation/3-options","title":"Options - Axon.activation/3","type":"function"},{"doc":"Adds an Adaptive average pool layer to the network.\n\nSee `Axon.Layers.adaptive_avg_pool/2` for more details.","ref":"Axon.html#adaptive_avg_pool/2","title":"Axon.adaptive_avg_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:output_size` - layer output size.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#adaptive_avg_pool/2-options","title":"Options - Axon.adaptive_avg_pool/2","type":"function"},{"doc":"Adds an Adaptive power average pool layer to the network.\n\nSee `Axon.Layers.adaptive_lp_pool/2` for more details.","ref":"Axon.html#adaptive_lp_pool/2","title":"Axon.adaptive_lp_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:output_size` - layer output size.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#adaptive_lp_pool/2-options","title":"Options - Axon.adaptive_lp_pool/2","type":"function"},{"doc":"Adds an Adaptive max pool layer to the network.\n\nSee `Axon.Layers.adaptive_max_pool/2` for more details.","ref":"Axon.html#adaptive_max_pool/2","title":"Axon.adaptive_max_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:output_size` - layer output size.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#adaptive_max_pool/2-options","title":"Options - Axon.adaptive_max_pool/2","type":"function"},{"doc":"Adds a add layer to the network.\n\nThis layer performs an element-wise add operation\non input layers. All input layers must be capable of being\nbroadcast together.\n\nIf one shape has a static batch size, all other shapes must have a\nstatic batch size as well.","ref":"Axon.html#add/3","title":"Axon.add/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#add/3-options","title":"Options - Axon.add/3","type":"function"},{"doc":"Adds an Alpha dropout layer to the network.\n\nSee `Axon.Layers.alpha_dropout/2` for more details.","ref":"Axon.html#alpha_dropout/2","title":"Axon.alpha_dropout/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:rate` - dropout rate. Defaults to `0.5`.\n    Needs to be equal or greater than zero and less than one.","ref":"Axon.html#alpha_dropout/2-options","title":"Options - Axon.alpha_dropout/2","type":"function"},{"doc":"Attaches a hook to the given Axon model.\n\nHooks compile down to `Nx.Defn.Kernel.hook/3` and provide the same\nfunctionality for adding side-effecting operations to a compiled\nmodel. For example, you can use hooks to inspect intermediate activations,\nsend data to an external service, and more.\n\nHooks can be configured to be invoked on the following events:\n\n  * `:initialize` - on model initialization.\n  * `:pre_forward` - before layer forward pass is invoked.\n  * `:forward` - after layer forward pass is invoked.\n  * `:backward` - after layer backward pass is invoked.\n\nTo invoke a hook on every single event, you may pass `:all` to `on:`.\n\n    Axon.input(\"input\", shape: {nil, 1}) |> Axon.attach_hook(&IO.inspect/1, on: :all)\n\nThe default event is `:forward`, assuming you want a hook invoked\non the layers forward pass.\n\nYou may configure hooks to run in one of only training or inference\nmode using the `:mode` option. The default mode is `:both` to be invoked\nduring both train and inference mode.\n\n    Axon.input(\"input\", shape: {nil, 1}) |> Axon.attach_hook(&IO.inspect/1, on: :forward, mode: :train)\n\nYou can also attach multiple hooks to a single layer. Hooks are invoked in\nthe order in which they are declared. If order is important, you should attach\nhooks in the order you want them to be executed:\n\n    Axon.input(\"input\", shape: {nil, 1})\n    # I will be executed first\n    |> Axon.attach_hook(&IO.inspect/1)\n    # I will be executed second\n    |> Axon.attach_hook(fn _ -> IO.write(\"HERE\") end)\n\nHooks are executed at their point of attachment. You must insert hooks at each point\nyou want a hook to execute during model execution.\n\n    Axon.input(\"input\", shape: {nil, 1})\n    |> Axon.attach_hook(&IO.inspect/1)\n    |> Axon.relu()\n    |> Axon.attach_hook(&IO.inspect/1)","ref":"Axon.html#attach_hook/3","title":"Axon.attach_hook/3","type":"function"},{"doc":"Adds an Average pool layer to the network.\n\nSee `Axon.Layers.avg_pool/2` for more details.","ref":"Axon.html#avg_pool/2","title":"Axon.avg_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to size of kernel.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:dilations` - window dilations. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#avg_pool/2-options","title":"Options - Axon.avg_pool/2","type":"function"},{"doc":"Adds a Batch normalization layer to the network.\n\nSee `Axon.Layers.batch_norm/6` for more details.","ref":"Axon.html#batch_norm/2","title":"Axon.batch_norm/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:gamma_initializer` - gamma parameter initializer. Defaults\n    to `:glorot_uniform`.\n\n  * `:beta_initializer` - beta parameter initializer. Defaults to\n    `:zeros`.\n\n  * `:channel_index` - input feature index used for calculating\n    mean and variance. Defaults to `-1`.\n\n  * `:epsilon` - numerical stability term. Defaults to `1.0e-5`.","ref":"Axon.html#batch_norm/2-options","title":"Options - Axon.batch_norm/2","type":"function"},{"doc":"Adds a bias layer to the network.\n\nA bias layer simply adds a trainable bias to an input.","ref":"Axon.html#bias/2","title":"Axon.bias/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`.","ref":"Axon.html#bias/2-options","title":"Options - Axon.bias/2","type":"function"},{"doc":"Applies the given forward function bidirectionally and merges\nthe results with the given merge function.\n\nThis is most commonly used with RNNs to capture the dependencies\nof a sequence in both directions.","ref":"Axon.html#bidirectional/4","title":"Axon.bidirectional/4","type":"function"},{"doc":"* `axis` - Axis to reverse.","ref":"Axon.html#bidirectional/4-options","title":"Options - Axon.bidirectional/4","type":"function"},{"doc":"Adds a bilinear layer to the network.\n\nThe bilinear layer implements:\n\n    output = activation(dot(dot(input1, kernel), input2) + bias)\n\nwhere `activation` is given by the `:activation` option and both\n`kernel` and `bias` are layer parameters. `units` specifies the\nnumber of output units.\n\nAll dimensions but the last of `input1` and `input2` must match. The\nbatch sizes of both inputs must also match or at least one must be `nil`.\nInferred output batch size coerces to the strictest input batch size.\n\nCompiles to `Axon.Layers.bilinear/5`.","ref":"Axon.html#bilinear/4","title":"Axon.bilinear/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`.\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#bilinear/4-options","title":"Options - Axon.bilinear/4","type":"function"},{"doc":"Returns a function which represents a self-contained re-usable block\nof operations in a neural network. All parameters in the block are\nshared between every usage of the block.\n\nThis returns an arity-1 function which accepts a list of inputs which\nare forwarded to `fun`. This is most often used in situations where\nyou wish to re-use parameters in a block:\n\n    reused_dense = Axon.block(&Axon.dense(&1, 32))\n\nEverytime `reused_dense` is invoked, it re-uses the same parameters:\n\n    input = Axon.input(\"features\")\n    # unique parameters\n    x1 = Axon.dense(input, 32)\n    # unique parameters\n    x2 = reused_dense.(x1)\n    # parameters shared\n    x3 = reused_dense.(x2)\n\nSubgraphs in blocks can be arbitrarily complex:\n\n    reused_block = Axon.block(fn x ->\n      x\n      |> Axon.dense(32)\n      |> Axon.dense(64)\n      |> Axon.dense(32)\n    end)\n\nBlocks can also have multiple inputs, you can invoke a block with multiple\ninputs by passing a list of arguments:\n\n    reused_block = Axon.block(fn x, y, z ->\n      x = Axon.dense(x, 32)\n      y = Axon.dense(y, 32)\n      z = Axon.dense(z, 32)\n\n      Axon.add([x, y, z])\n    end)\n\n    # invoke with a list\n    reused_block.([x, y, z])\n\nBlocks prefix subgraph parameters with their name and a dot. As with other\nAxon layers, if a name is not explicitly provided, one will be dynamically\ngenerated.","ref":"Axon.html#block/2","title":"Axon.block/2","type":"function"},{"doc":"Adds a blur pooling layer to the network.\n\nSee `Axon.Layers.blur_pool/2` for more details.","ref":"Axon.html#blur_pool/2","title":"Axon.blur_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#blur_pool/2-options","title":"Options - Axon.blur_pool/2","type":"function"},{"doc":"Builds the given model to `{init_fn, predict_fn}`.\n\nThe given functions can be either given as arguments to `Nx.Defn`\nfunctions or be invoked directly, to perform just-in-time compilation\nand execution. If you want to compile the model (instead of just-in-time)\nbased on a predefined initialization shape, see `compile/4`.\n\n## `init_fn`\n\nThe `init_fn` receives two arguments, the input template and\nan optional map with initial parameters for layers or namespaces:\n\n    {init_fn, predict_fn} = Axon.build(model)\n    init_fn.(Nx.template({1, 1}, {:f, 32}), %{\"dense_0\" => dense_params})\n\n## `predict_fn`\n\nThe `predict_fn` receives two arguments, the trained parameters\nand the actual inputs:\n\n    {_init_fn, predict_fn} = Axon.build(model, opts)\n    predict_fn.(params, input)","ref":"Axon.html#build/2","title":"Axon.build/2","type":"function"},{"doc":"* `:compiler` - the underlying `Nx.Defn` compiler to perform\n    JIT compilation when the functions are invoked. If none is\n    passed, it uses the default compiler configured in `Nx.Defn`;\n\n  * `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`\n\n  * `:mode` - one of `:inference` or `:train`. Forwarded to layers\n    to control differences in compilation at training or inference time.\n    Defaults to `:inference`\n\n  * `:global_layer_options` - a keyword list of options passed to\n    layers that accept said options\n\nAll other options are forwarded to the underlying JIT compiler.","ref":"Axon.html#build/2-options","title":"Options - Axon.build/2","type":"function"},{"doc":"Adds a Continuously-differentiable exponential linear unit activation layer to the network.\n\nSee `Axon.Activations.celu/1` for more details.","ref":"Axon.html#celu/2","title":"Axon.celu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#celu/2-options","title":"Options - Axon.celu/2","type":"function"},{"doc":"Compiles the given model to `{init_fn, predict_fn}`.\n\nThis function will compile a model specialized to the given\ninput shapes and types. This is useful for avoiding the overhead\nof long compilations at program runtime. You must provide template\ninputs which match the expected shapes and types of inputs at\nexecution time.\n\nThis function makes use of the built-in `Nx.Defn.compile/3`. Note\nthat passing inputs which differ in shape or type from the templates\nprovided to this function will result in a crash.","ref":"Axon.html#compile/4","title":"Axon.compile/4","type":"function"},{"doc":"It accepts the same options as `build/2`.","ref":"Axon.html#compile/4-options","title":"Options - Axon.compile/4","type":"function"},{"doc":"Adds a concatenate layer to the network.\n\nThis layer will concatenate inputs along the last\ndimension unless specified otherwise.","ref":"Axon.html#concatenate/3","title":"Axon.concatenate/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:axis` - concatenate axis. Defaults to `-1`.","ref":"Axon.html#concatenate/3-options","title":"Options - Axon.concatenate/3","type":"function"},{"doc":"Adds a conditional layer which conditionally executes\n`true_graph` or `false_graph` based on the condition `cond_fn`\nat runtime.\n\n`cond_fn` is an arity-1 function executed on the output of the\nparent graph. It must return a boolean scalar tensor (e.g. 1 or 0).\n\nThe shapes of `true_graph` and `false_graph` must be equal.","ref":"Axon.html#cond/5","title":"Axon.cond/5","type":"function"},{"doc":"Adds a constant layer to the network.\n\nConstant layers encapsulate Nx tensors in an Axon layer for ease\nof use with other Axon layers. They can be used interchangeably\nwith other Axon layers:\n\n    inp = Axon.input(\"input\", shape: {nil, 32})\n    my_constant = Axon.constant(Nx.iota({1, 32}))\n    model = Axon.add(inp, my_constant)\n\nConstant layers will be cast according to the mixed precision policy.\nIf it's important for your constant to retain it's type during\nthe computation, you will need to set the mixed precision policy to\nignore constant layers.","ref":"Axon.html#constant/2","title":"Axon.constant/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#constant/2-options","title":"Options - Axon.constant/2","type":"function"},{"doc":"Adds a container layer to the network.\n\nIn certain cases you may want your model to have multiple\noutputs. In order to make this work, you must \"join\" the\noutputs into an Axon layer using this function for use in\ninitialization and inference later on.\n\nThe given container can be any valid Axon Nx container.","ref":"Axon.html#container/2","title":"Axon.container/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#container/2-options","title":"Options - Axon.container/2","type":"function"},{"doc":"iex> inp1 = Axon.input(\"input_0\", shape: {nil, 1})\n    iex> inp2 = Axon.input(\"input_1\", shape: {nil, 2})\n    iex> model = Axon.container(%{a: inp1, b: inp2})\n    iex> %{a: a, b: b} = Axon.predict(model, Axon.ModelState.empty(), %{\n    ...>    \"input_0\" => Nx.tensor([[1.0]]),\n    ...>    \"input_1\" => Nx.tensor([[1.0, 2.0]])\n    ...> })\n    iex> a\n    #Nx.Tensor \n    iex> b\n    #Nx.Tensor","ref":"Axon.html#container/2-examples","title":"Examples - Axon.container/2","type":"function"},{"doc":"Adds a convolution layer to the network.\n\nThe convolution layer implements a general dimensional\nconvolutional layer - which convolves a kernel over the input\nto produce an output.\n\nCompiles to `Axon.Layers.conv/4`.","ref":"Axon.html#conv/3","title":"Axon.conv/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:input_dilation` - dilation to apply to input. Defaults to `1`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:feature_group_size` - feature group size for convolution. Defaults\n    to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#conv/3-options","title":"Options - Axon.conv/3","type":"function"},{"doc":"See `conv_lstm/3`.","ref":"Axon.html#conv_lstm/2","title":"Axon.conv_lstm/2","type":"function"},{"doc":"Adds a convolutional long short-term memory (LSTM) layer to the network\nwith a random initial hidden state.\n\nSee `conv_lstm/4` for more details.","ref":"Axon.html#conv_lstm/3","title":"Axon.conv_lstm/3","type":"function"},{"doc":"* `:recurrent_initializer` - initializer for hidden state. Defaults\n    to `:orthogonal`.","ref":"Axon.html#conv_lstm/3-additional-options","title":"Additional options - Axon.conv_lstm/3","type":"function"},{"doc":"Adds a convolutional long short-term memory (LSTM) layer to the network\nwith the given initial hidden state..\n\nConvLSTMs apply `Axon.Layers.conv_lstm_cell/5` over an entire input\nsequence and return:\n\n    {{new_cell, new_hidden}, output_sequence}\n\nYou can use the output state as the hidden state of another\nConvLSTM layer.","ref":"Axon.html#conv_lstm/4","title":"Axon.conv_lstm/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:padding` - convolutional padding. Defaults to `:same`.\n\n  * `:kernel_size` - convolutional kernel size. Defaults to `1`.\n\n  * `:strides` - convolutional strides. Defaults to `1`.\n\n  * `:unroll` - `:dynamic` (loop preserving) or `:static` (compiled)\n    unrolling of RNN.\n\n  * `:kernel_initializer` - initializer for kernel weights. Defaults\n    to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for bias weights. Defaults to\n    `:zeros`.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#conv_lstm/4-options","title":"Options - Axon.conv_lstm/4","type":"function"},{"doc":"Adds a transposed convolution layer to the network.\n\nThe transposed convolution layer is sometimes referred to as a\nfractionally strided convolution or (incorrectly) as a deconvolution.\n\nCompiles to `Axon.Layers.conv_transpose/4`.","ref":"Axon.html#conv_transpose/3","title":"Axon.conv_transpose/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#conv_transpose/3-options","title":"Options - Axon.conv_transpose/3","type":"function"},{"doc":"Adds a dense layer to the network.\n\nThe dense layer implements:\n\n    output = activation(dot(input, kernel) + bias)\n\nwhere `activation` is given by the `:activation` option and both\n`kernel` and `bias` are layer parameters. `units` specifies the\nnumber of output units.\n\nCompiles to `Axon.Layers.dense/4`.","ref":"Axon.html#dense/3","title":"Axon.dense/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`.\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#dense/3-options","title":"Options - Axon.dense/3","type":"function"},{"doc":"Adds a depthwise convolution layer to the network.\n\nThe depthwise convolution layer implements a general\ndimensional depthwise convolution - which is a convolution\nwhere the feature group size is equal to the number of\ninput channels.\n\nChannel multiplier grows the input channels by the given\nfactor. An input factor of 1 means the output channels\nare the same as the input channels.\n\nCompiles to `Axon.Layers.depthwise_conv/4`.","ref":"Axon.html#depthwise_conv/3","title":"Axon.depthwise_conv/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:input_dilation` - dilation to apply to input. Defaults to `1`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#depthwise_conv/3-options","title":"Options - Axon.depthwise_conv/3","type":"function"},{"doc":"Adds a Dropout layer to the network.\n\nSee `Axon.Layers.dropout/2` for more details.","ref":"Axon.html#dropout/2","title":"Axon.dropout/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:rate` - dropout rate. Defaults to `0.5`.\n    Needs to be equal or greater than zero and less than one.","ref":"Axon.html#dropout/2-options","title":"Options - Axon.dropout/2","type":"function"},{"doc":"Adds an Exponential linear unit activation layer to the network.\n\nSee `Axon.Activations.elu/1` for more details.","ref":"Axon.html#elu/2","title":"Axon.elu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#elu/2-options","title":"Options - Axon.elu/2","type":"function"},{"doc":"Adds an embedding layer to the network.\n\nAn embedding layer initializes a kernel of shape `{vocab_size, embedding_size}`\nwhich acts as a lookup table for sequences of discrete tokens (e.g. sentences).\nEmbeddings are typically used to obtain a dense representation of a sparse input\nspace.","ref":"Axon.html#embedding/4","title":"Axon.embedding/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights. Defaults\n    to `:uniform`.","ref":"Axon.html#embedding/4-options","title":"Options - Axon.embedding/4","type":"function"},{"doc":"Adds an Exponential activation layer to the network.\n\nSee `Axon.Activations.exp/1` for more details.","ref":"Axon.html#exp/2","title":"Axon.exp/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#exp/2-options","title":"Options - Axon.exp/2","type":"function"},{"doc":"Adds a Feature alpha dropout layer to the network.\n\nSee `Axon.Layers.feature_alpha_dropout/2` for more details.","ref":"Axon.html#feature_alpha_dropout/2","title":"Axon.feature_alpha_dropout/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:rate` - dropout rate. Defaults to `0.5`.\n    Needs to be equal or greater than zero and less than one.","ref":"Axon.html#feature_alpha_dropout/2-options","title":"Options - Axon.feature_alpha_dropout/2","type":"function"},{"doc":"Adds a flatten layer to the network.\n\nThis layer will flatten all but the batch dimensions\nof the input into a single layer. Typically called to flatten\nthe output of a convolution for use with a dense layer.","ref":"Axon.html#flatten/2","title":"Axon.flatten/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#flatten/2-options","title":"Options - Axon.flatten/2","type":"function"},{"doc":"Freezes parameters returned from the given function or predicate.\n\n`fun` can be a predicate `:all`, `up: n`, or `down: n`. `:all`\nfreezes all parameters in the model, `up: n` freezes the first `n`\nlayers up (starting from output), and `down: n` freezes the first `n`\nlayers down (starting from input).\n\n`fun` may also be a predicate function which takes a parameter and\nreturns `true` if a parameter should be frozen or `false` otherwise.\n\nFreezing parameters is useful when performing transfer learning\nto leverage features learned from another problem in a new problem.\nFor example, it's common to combine the convolutional base from\nlarger models trained on ImageNet with fresh fully-connected classifiers.\nThe combined model is then trained on fresh data, with the convolutional\nbase frozen so as not to lose information. You can see this example\nin code here:\n\n    cnn_base = get_pretrained_cnn_base()\n    model =\n      cnn_base\n      |> Axon.freeze()\n      |> Axon.flatten()\n      |> Axon.dense(1024, activation: :relu)\n      |> Axon.dropout()\n      |> Axon.dense(1000, activation: :softmax)\n\n    model\n    |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.005))\n    |> Axon.Loop.run(data, epochs: 10)\n\nWhen compiled, frozen parameters are wrapped in `Nx.Defn.Kernel.stop_grad/1`,\nwhich zeros out the gradient with respect to the frozen parameter. Gradients\nof frozen parameters will return `0.0`, meaning they won't be changed during\nthe update process.","ref":"Axon.html#freeze/2","title":"Axon.freeze/2","type":"function"},{"doc":"Adds a Gaussian error linear unit activation layer to the network.\n\nSee `Axon.Activations.gelu/1` for more details.","ref":"Axon.html#gelu/2","title":"Axon.gelu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#gelu/2-options","title":"Options - Axon.gelu/2","type":"function"},{"doc":"Returns information about a model's inputs.","ref":"Axon.html#get_inputs/1","title":"Axon.get_inputs/1","type":"function"},{"doc":"Returns a map of model op counts for each unique operation\nin a model by their given `:op_name`.","ref":"Axon.html#get_op_counts/1","title":"Axon.get_op_counts/1","type":"function"},{"doc":"iex> model = Axon.input(\"input\", shape: {nil, 1}) |> Axon.dense(2)\n    iex> Axon.get_op_counts(model)\n    %{input: 1, dense: 1}\n\n    iex> model = Axon.input(\"input\", shape: {nil, 1}) |> Axon.tanh() |> Axon.tanh()\n    iex> Axon.get_op_counts(model)\n    %{input: 1, tanh: 2}","ref":"Axon.html#get_op_counts/1-examples","title":"Examples - Axon.get_op_counts/1","type":"function"},{"doc":"Returns a node's immediate input options.\n\nNote that this does not take into account options of\nparent layers, only the option which belong to the\nimmediate layer.","ref":"Axon.html#get_options/1","title":"Axon.get_options/1","type":"function"},{"doc":"Returns a model's output shape from the given input\ntemplate.","ref":"Axon.html#get_output_shape/3","title":"Axon.get_output_shape/3","type":"function"},{"doc":"Returns a node's immediate parameters.\n\nNote this does not take into account parameters of\nparent layers - only the parameters which belong to\nthe immediate layer.","ref":"Axon.html#get_parameters/1","title":"Axon.get_parameters/1","type":"function"},{"doc":"Adds a Global average pool layer to the network.\n\nSee `Axon.Layers.global_avg_pool/2` for more details.\n\nTypically used to connect feature extractors such as those in convolutional\nneural networks to fully-connected models by reducing inputs along spatial\ndimensions to only feature and batch dimensions.","ref":"Axon.html#global_avg_pool/2","title":"Axon.global_avg_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:keep_axes` - option to keep reduced axes. If `true`, keeps reduced axes\n    with a dimension size of 1.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#global_avg_pool/2-options","title":"Options - Axon.global_avg_pool/2","type":"function"},{"doc":"Adds a Global LP pool layer to the network.\n\nSee `Axon.Layers.global_lp_pool/2` for more details.\n\nTypically used to connect feature extractors such as those in convolutional\nneural networks to fully-connected models by reducing inputs along spatial\ndimensions to only feature and batch dimensions.","ref":"Axon.html#global_lp_pool/2","title":"Axon.global_lp_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:keep_axes` - option to keep reduced axes. If `true`, keeps reduced axes\n    with a dimension size of 1.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#global_lp_pool/2-options","title":"Options - Axon.global_lp_pool/2","type":"function"},{"doc":"Adds a Global max pool layer to the network.\n\nSee `Axon.Layers.global_max_pool/2` for more details.\n\nTypically used to connect feature extractors such as those in convolutional\nneural networks to fully-connected models by reducing inputs along spatial\ndimensions to only feature and batch dimensions.","ref":"Axon.html#global_max_pool/2","title":"Axon.global_max_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:keep_axes` - option to keep reduced axes. If `true`, keeps reduced axes\n    with a dimension size of 1.\n\n  * `:channels` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#global_max_pool/2-options","title":"Options - Axon.global_max_pool/2","type":"function"},{"doc":"Adds a group normalization layer to the network.\n\nSee `Axon.Layers.group_norm/4` for more details.","ref":"Axon.html#group_norm/3","title":"Axon.group_norm/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:gamma_initializer` - gamma parameter initializer. Defaults\n    to `:glorot_uniform`.\n\n  * `:beta_initializer` - beta parameter initializer. Defaults to\n    `:zeros`.\n\n  * `:channel_index` - input feature index used for calculating\n    mean and variance. Defaults to `-1`.\n\n  * `:epsilon` - numerical stability term.","ref":"Axon.html#group_norm/3-options","title":"Options - Axon.group_norm/3","type":"function"},{"doc":"See `gru/3`.","ref":"Axon.html#gru/2","title":"Axon.gru/2","type":"function"},{"doc":"Adds a gated recurrent unit (GRU) layer to the network with\na random initial hidden state.\n\nSee `gru/4` for more details.","ref":"Axon.html#gru/3","title":"Axon.gru/3","type":"function"},{"doc":"* `:recurrent_initializer` - initializer for hidden state.\n    Defaults to `:orthogonal`.","ref":"Axon.html#gru/3-additional-options","title":"Additional options - Axon.gru/3","type":"function"},{"doc":"Adds a gated recurrent unit (GRU) layer to the network with\nthe given initial hidden state.\n\nGRUs apply `Axon.Layers.gru_cell/7` over an entire input\nsequence and return:\n\n    {{new_hidden}, output_sequence}\n\nYou can use the output state as the hidden state of another\nGRU layer.","ref":"Axon.html#gru/4","title":"Axon.gru/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:activation` - recurrent activation. Defaults to `:tanh`.\n\n  * `:gate` - recurrent gate function. Defaults to `:sigmoid`.\n\n  * `:unroll` - `:dynamic` (loop preserving) or `:static` (compiled)\n    unrolling of RNN.\n\n  * `:kernel_initializer` - initializer for kernel weights. Defaults\n    to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for bias weights. Defaults to\n    `:zeros`.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#gru/4-options","title":"Options - Axon.gru/4","type":"function"},{"doc":"Adds a Hard sigmoid activation layer to the network.\n\nSee `Axon.Activations.hard_sigmoid/1` for more details.","ref":"Axon.html#hard_sigmoid/2","title":"Axon.hard_sigmoid/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#hard_sigmoid/2-options","title":"Options - Axon.hard_sigmoid/2","type":"function"},{"doc":"Adds a Hard sigmoid weighted linear unit activation layer to the network.\n\nSee `Axon.Activations.hard_silu/1` for more details.","ref":"Axon.html#hard_silu/2","title":"Axon.hard_silu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#hard_silu/2-options","title":"Options - Axon.hard_silu/2","type":"function"},{"doc":"Adds a Hard hyperbolic tangent activation layer to the network.\n\nSee `Axon.Activations.hard_tanh/1` for more details.","ref":"Axon.html#hard_tanh/2","title":"Axon.hard_tanh/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#hard_tanh/2-options","title":"Options - Axon.hard_tanh/2","type":"function"},{"doc":"Adds an input layer to the network.\n\nInput layers specify a model's inputs. Input layers are\nalways the root layers of the neural network.\n\nYou must specify the input layers name, which will be used\nto uniquely identify it in the case of multiple inputs.","ref":"Axon.html#input/2","title":"Axon.input/2","type":"function"},{"doc":"* `:shape` - the expected input shape, use `nil` for dimensions\n    of a dynamic size.\n\n  * `:optional` - if `true`, the input may be omitted when using\n    the model. This needs to be handled in one of the subsequent\n    layers. See `optional/2` for more details.","ref":"Axon.html#input/2-options","title":"Options - Axon.input/2","type":"function"},{"doc":"Adds an Instance normalization layer to the network.\n\nSee `Axon.Layers.instance_norm/6` for more details.","ref":"Axon.html#instance_norm/2","title":"Axon.instance_norm/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:gamma_initializer` - gamma parameter initializer. Defaults\n    to `:glorot_uniform`.\n\n  * `:beta_initializer` - beta parameter initializer. Defaults to\n    `:zeros`.\n\n  * `:channel_index` - input feature index used for calculating\n    mean and variance. Defaults to `-1`.\n\n  * `:epsilon` - numerical stability term. Defaults to `1.0e-5`.","ref":"Axon.html#instance_norm/2-options","title":"Options - Axon.instance_norm/2","type":"function"},{"doc":"Custom Axon layer with given inputs.\n\nInputs may be other Axon layers or trainable parameters created\nwith `Axon.param`. At inference time, `op` will be applied with\ninputs in specified order and an additional `opts` parameter which\nspecifies inference options. All options passed to layer are forwarded\nto inference function except:\n\n  * `:name` - layer name.\n\n  * `:op_name` - layer operation for inspection and building parameter map.\n\n  * `:mode` - if the layer should run only on `:inference` or `:train`. Defaults to `:both`\n\n  * `:global_options` - a list of global option names that this layer\n    supports. Global options passed to `build/2` will be forwarded to\n    the layer, as long as they are declared\n\nNote this means your layer should not use these as input options,\nas they will always be dropped during inference compilation.\n\nAxon's compiler will additionally forward the following options to\nevery layer at inference time:\n\n  * `:mode` - `:inference` or `:train`. To control layer behavior\n    based on inference or train time.\n\n`op` is a function of the form:\n\n    fun = fn input, weight, bias, _opts ->\n      input * weight + bias\n    end","ref":"Axon.html#layer/3","title":"Axon.layer/3","type":"function"},{"doc":"Adds a Layer normalization layer to the network.\n\nSee `Axon.Layers.layer_norm/4` for more details.","ref":"Axon.html#layer_norm/2","title":"Axon.layer_norm/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:gamma_initializer` - gamma parameter initializer. Defaults\n    to `:glorot_uniform`.\n\n  * `:beta_initializer` - beta parameter initializer. Defaults to\n    `:zeros`.\n\n  * `:channel_index` - input feature index used for calculating\n    mean and variance. Defaults to `-1`.\n\n  * `:epsilon` - numerical stability term.","ref":"Axon.html#layer_norm/2-options","title":"Options - Axon.layer_norm/2","type":"function"},{"doc":"Adds a Leaky rectified linear unit activation layer to the network.\n\nSee `Axon.Activations.leaky_relu/1` for more details.","ref":"Axon.html#leaky_relu/2","title":"Axon.leaky_relu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#leaky_relu/2-options","title":"Options - Axon.leaky_relu/2","type":"function"},{"doc":"Adds a Linear activation layer to the network.\n\nSee `Axon.Activations.linear/1` for more details.","ref":"Axon.html#linear/2","title":"Axon.linear/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#linear/2-options","title":"Options - Axon.linear/2","type":"function"},{"doc":"Adds a Log-sigmoid activation layer to the network.\n\nSee `Axon.Activations.log_sigmoid/1` for more details.","ref":"Axon.html#log_sigmoid/2","title":"Axon.log_sigmoid/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#log_sigmoid/2-options","title":"Options - Axon.log_sigmoid/2","type":"function"},{"doc":"Adds a Log-softmax activation layer to the network.\n\nSee `Axon.Activations.log_softmax/1` for more details.","ref":"Axon.html#log_softmax/2","title":"Axon.log_softmax/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#log_softmax/2-options","title":"Options - Axon.log_softmax/2","type":"function"},{"doc":"Adds a Log-sumexp activation layer to the network.\n\nSee `Axon.Activations.log_sumexp/1` for more details.","ref":"Axon.html#log_sumexp/2","title":"Axon.log_sumexp/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#log_sumexp/2-options","title":"Options - Axon.log_sumexp/2","type":"function"},{"doc":"Adds a Power average pool layer to the network.\n\nSee `Axon.Layers.lp_pool/2` for more details.","ref":"Axon.html#lp_pool/2","title":"Axon.lp_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to size of kernel.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:dilations` - window dilations. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#lp_pool/2-options","title":"Options - Axon.lp_pool/2","type":"function"},{"doc":"See `lstm/3`.","ref":"Axon.html#lstm/2","title":"Axon.lstm/2","type":"function"},{"doc":"Adds a long short-term memory (LSTM) layer to the network\nwith a random initial hidden state.\n\nSee `lstm/4` for more details.","ref":"Axon.html#lstm/3","title":"Axon.lstm/3","type":"function"},{"doc":"* `:recurrent_initializer` - initializer for hidden state.\n    Defaults to `:orthogonal`.","ref":"Axon.html#lstm/3-additional-options","title":"Additional options - Axon.lstm/3","type":"function"},{"doc":"Adds a long short-term memory (LSTM) layer to the network\nwith the given initial hidden state.\n\nLSTMs apply `Axon.Layers.lstm_cell/7` over an entire input\nsequence and return:\n\n    {output_sequence, {new_cell, new_hidden}}\n\nYou can use the output state as the hidden state of another\nLSTM layer.","ref":"Axon.html#lstm/4","title":"Axon.lstm/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:activation` - recurrent activation. Defaults to `:tanh`.\n\n  * `:gate` - recurrent gate function. Defaults to `:sigmoid`.\n\n  * `:unroll` - `:dynamic` (loop preserving) or `:static` (compiled)\n    unrolling of RNN.\n\n  * `:kernel_initializer` - initializer for kernel weights. Defaults\n    to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for bias weights. Defaults to\n    `:zeros`.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`.","ref":"Axon.html#lstm/4-options","title":"Options - Axon.lstm/4","type":"function"},{"doc":"Traverses graph nodes in order, applying `fun` to each\nnode exactly once to return a transformed node in its\nplace(s) in the graph.\n\nThis function maintains an internal cache which ensures\neach node is only visited and transformed exactly once.\n\n`fun` must accept an Axon node and return an Axon node.\n\nPlease note that modifying node lineage (e.g. altering\na node's parent) will result in disconnected graphs.","ref":"Axon.html#map_nodes/2","title":"Axon.map_nodes/2","type":"function"},{"doc":"One common use of this function is to implement common\ninstrumentation between layers without needing to build\na new explicitly instrumented version of a model. For example,\nyou can use this function to visualize intermediate activations\nof all convolutional layers in a model:\n\n    instrumented_model = Axon.map_nodes(model, fn\n      %Axon.Node{op: :conv} = axon_node ->\n        Axon.attach_hook(axon_node, &visualize_activations/1)\n\n      axon_node ->\n        axon_node\n    end)\n\nAnother use case is to replace entire classes of layers\nwith another. For example, you may want to replace all\nrelu layers with tanh layers:\n\n    new_model = Axon.map_nodes(model, fn\n      %Axon{op: :relu} = graph ->\n        # Get nodes immediate parent\n        parent = Axon.get_parent(graph)\n        # Replace node with a tanh\n        Axon.tanh(parent)\n\n      graph ->\n        graph\n    end)","ref":"Axon.html#map_nodes/2-examples","title":"Examples - Axon.map_nodes/2","type":"function"},{"doc":"Computes a sequence mask according to the given EOS token.\n\nMasks can be propagated to recurrent layers or custom layers to\nindicate that a given token should be ignored in processing. This\nis useful when you have sequences of variable length.\n\nMost commonly, `eos_token` is `0`.","ref":"Axon.html#mask/3","title":"Axon.mask/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#mask/3-options","title":"Options - Axon.mask/3","type":"function"},{"doc":"Adds a Max pool layer to the network.\n\nSee `Axon.Layers.max_pool/2` for more details.","ref":"Axon.html#max_pool/2","title":"Axon.max_pool/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to size of kernel.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:dilations` - window dilations. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#max_pool/2-options","title":"Options - Axon.max_pool/2","type":"function"},{"doc":"Adds a Mish activation layer to the network.\n\nSee `Axon.Activations.mish/1` for more details.","ref":"Axon.html#mish/2","title":"Axon.mish/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#mish/2-options","title":"Options - Axon.mish/2","type":"function"},{"doc":"Adds a multiply layer to the network.\n\nThis layer performs an element-wise multiply operation\non input layers. All input layers must be capable of being\nbroadcast together.\n\nIf one shape has a static batch size, all other shapes must have a\nstatic batch size as well.","ref":"Axon.html#multiply/3","title":"Axon.multiply/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#multiply/3-options","title":"Options - Axon.multiply/3","type":"function"},{"doc":"Applies the given `Nx` expression to the input.\n\nNx layers are meant for quick applications of functions without\ntrainable parameters. For example, they are useful for applying\nfunctions which apply accessors to containers:\n\n    model = Axon.container({foo, bar})\n    Axon.nx(model, &elem(&1, 0))","ref":"Axon.html#nx/3","title":"Axon.nx/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#nx/3-options","title":"Options - Axon.nx/3","type":"function"},{"doc":"Wraps an Axon model in an optional node.\n\nBy default, when an optional input is missing, all subsequent layers\nare nullified. For example, consider this model:\n\n    values = Axon.input(\"values\")\n    mask = Axon.input(\"mask\", optional: true)\n\n    model =\n      values\n      |> Axon.dense(10)\n      |> Axon.multiply(mask)\n      |> Axon.dense(1)\n      |> Axon.sigmoid()\n\nIn case the mask is not provided, the input node will resolve to\n`%Axon.None{}` and so will all the layers that depend on it. By\nusing `optional/2` a layer may opt-in to receive `%Axon.None{}`.\nTo fix our example, we could define a custom layer to apply the\nmask only when present\n\n    def apply_optional_mask(%Axon{} = x, %Axon{} = mask) do\n      Axon.layer(\n        fn x, mask, _opts ->\n          case mask do\n            %Axon.None{} -> x\n            mask -> Nx.multiply(x, mask)\n          end\n        end,\n        [x, Axon.optional(mask)]\n      )\n    end\n\n    # ...\n\n    model =\n      values\n      |> Axon.dense(10)\n      |> apply_optional_mask(mask)\n      |> Axon.dense(1)\n      |> Axon.sigmoid()","ref":"Axon.html#optional/2","title":"Axon.optional/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#optional/2-options","title":"Options - Axon.optional/2","type":"function"},{"doc":"Adds a pad layer to the network.\n\nThis layer will pad the spatial dimensions of the input.\nPadding configuration is a list of tuples for each spatial\ndimension.","ref":"Axon.html#pad/4","title":"Axon.pad/4","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:channels` - channel configuration. One of `:first` or\n    `:last`. Defaults to `:last`.","ref":"Axon.html#pad/4-options","title":"Options - Axon.pad/4","type":"function"},{"doc":"Trainable Axon parameter used to create custom layers.\n\nParameters are specified in usages of `Axon.layer` and will\nbe automatically initialized and used in subsequent applications\nof Axon models.\n\nYou may specify the parameter shape as either a static shape or\nas function of the inputs to the given layer. If you specify the\nparameter shape as a function, it will be given the","ref":"Axon.html#param/3","title":"Axon.param/3","type":"function"},{"doc":"* `:initializer` - parameter initializer. Defaults to `:glorot_uniform`.","ref":"Axon.html#param/3-options","title":"Options - Axon.param/3","type":"function"},{"doc":"Pops the top node off of the graph.\n\nThis returns the popped node and the updated graph:\n\n    {_node, model} = Axon.pop_node(model)","ref":"Axon.html#pop_node/1","title":"Axon.pop_node/1","type":"function"},{"doc":"Builds and runs the given Axon `model` with `params` and `input`.\n\nThis is equivalent to calling `build/2` and then invoking the\npredict function.","ref":"Axon.html#predict/4","title":"Axon.predict/4","type":"function"},{"doc":"* `:mode` - one of `:inference` or `:train`. Forwarded to layers\n    to control differences in compilation at training or inference time.\n    Defaults to `:inference`\n\n  * `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`\n\nAll other options are forwarded to the default JIT compiler\nor backend.","ref":"Axon.html#predict/4-options","title":"Options - Axon.predict/4","type":"function"},{"doc":"Traverses graph nodes in order, applying `fun` to each\nnode exactly once to return a transformed node in its\nplace(s) in the graph.\n\nThis function maintains an internal cache which ensures\neach node is only visited and transformed exactly once.\n\n`fun` must accept an Axon node and accumulator and return\nan updated accumulator.","ref":"Axon.html#reduce_nodes/3","title":"Axon.reduce_nodes/3","type":"function"},{"doc":"Internally this function is used in several places to accumulate\ngraph metadata. For example, you can use it to count the number\nof a certain type of operation in the graph:\n\n    Axon.reduce_nodes(model, 0, fn\n      %Axon.Nodes{op: :relu}, acc -> acc + 1\n      _, acc -> acc\n    end)","ref":"Axon.html#reduce_nodes/3-examples","title":"Examples - Axon.reduce_nodes/3","type":"function"},{"doc":"Adds a Rectified linear unit 6 activation layer to the network.\n\nSee `Axon.Activations.relu6/1` for more details.","ref":"Axon.html#relu6/2","title":"Axon.relu6/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#relu6/2-options","title":"Options - Axon.relu6/2","type":"function"},{"doc":"Adds a Rectified linear unit activation layer to the network.\n\nSee `Axon.Activations.relu/1` for more details.","ref":"Axon.html#relu/2","title":"Axon.relu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#relu/2-options","title":"Options - Axon.relu/2","type":"function"},{"doc":"Adds a reshape layer to the network.\n\nThis layer implements a special case of `Nx.reshape` which accounts\nfor possible batch dimensions in the input tensor. You may pass the\nmagic dimension `:batch` as a placeholder for dynamic batch sizes.\nYou can use `:batch` seamlessly with `:auto` dimension sizes.\n\nIf the input is an Axon constant, the reshape behavior matches that of\n`Nx.reshape/2`.","ref":"Axon.html#reshape/3","title":"Axon.reshape/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#reshape/3-options","title":"Options - Axon.reshape/3","type":"function"},{"doc":"Adds a resize layer to the network.\n\nResizing can be used for interpolation or upsampling input\nvalues in a neural network. For example, you can use this\nlayer as an upsampling layer within a GAN.\n\nResize shape must be a tuple representing the resized spatial\ndimensions of the input tensor.\n\nCompiles to `Axon.Layers.resize/2`.","ref":"Axon.html#resize/3","title":"Axon.resize/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:method` - resize method. Defaults to `:nearest`.\n\n  * `:antialias` - whether an anti-aliasing filter should be used\n    when downsampling. Defaults to `true`.\n\n  * `:channels` - channel configuration. One of `:first` or\n    `:last`. Defaults to `:last`.","ref":"Axon.html#resize/3-options","title":"Options - Axon.resize/3","type":"function"},{"doc":"Adds a Scaled exponential linear unit activation layer to the network.\n\nSee `Axon.Activations.selu/1` for more details.","ref":"Axon.html#selu/2","title":"Axon.selu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#selu/2-options","title":"Options - Axon.selu/2","type":"function"},{"doc":"Adds a depthwise separable 2-dimensional convolution to the\nnetwork.\n\nDepthwise separable convolutions break the kernel into kernels\nfor each dimension of the input and perform a depthwise conv\nover the input with each kernel.\n\nCompiles to `Axon.Layers.separable_conv2d/6`.","ref":"Axon.html#separable_conv2d/3","title":"Axon.separable_conv2d/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:input_dilation` - dilation to apply to input. Defaults to `1`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#separable_conv2d/3-options","title":"Options - Axon.separable_conv2d/3","type":"function"},{"doc":"Adds a depthwise separable 3-dimensional convolution to the\nnetwork.\n\nDepthwise separable convolutions break the kernel into kernels\nfor each dimension of the input and perform a depthwise conv\nover the input with each kernel.\n\nCompiles to `Axon.Layers.separable_conv3d/8`.","ref":"Axon.html#separable_conv3d/3","title":"Axon.separable_conv3d/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:kernel_initializer` - initializer for `kernel` weights.\n    Defaults to `:glorot_uniform`.\n\n  * `:bias_initializer` - initializer for `bias` weights. Defaults\n    to `:zeros`\n\n  * `:activation` - element-wise activation function.\n\n  * `:use_bias` - whether the layer should add bias to the output.\n    Defaults to `true`\n\n  * `:kernel_size` - size of the kernel spatial dimensions. Defaults\n    to `1`.\n\n  * `:strides` - stride during convolution. Defaults to `1`.\n\n  * `:padding` - padding to the spatial dimensions of the input.\n    Defaults to `:valid`.\n\n  * `:input_dilation` - dilation to apply to input. Defaults to `1`.\n\n  * `:kernel_dilation` - dilation to apply to kernel. Defaults to `1`.\n\n  * `:channels` - channels location. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.html#separable_conv3d/3-options","title":"Options - Axon.separable_conv3d/3","type":"function"},{"doc":"Sets a node's immediate options to the given input\noptions.\n\nNote that this does not take into account options of\nparent layers, only the option which belong to the\nimmediate layer.\n\nNew options must be compatible with the given layer\nop. Adding unsupported options to an Axon layer will\nresult in an error at graph execution time.","ref":"Axon.html#set_options/2","title":"Axon.set_options/2","type":"function"},{"doc":"Sets a node's immediate parameters to the given\nparameters.\n\nNote this does not take into account parameters of\nparent layers - only the parameters which belong to\nthe immediate layer.\n\nThe new parameters must be compatible with the layer's\nold parameters.","ref":"Axon.html#set_parameters/2","title":"Axon.set_parameters/2","type":"function"},{"doc":"Adds a Sigmoid activation layer to the network.\n\nSee `Axon.Activations.sigmoid/1` for more details.","ref":"Axon.html#sigmoid/2","title":"Axon.sigmoid/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#sigmoid/2-options","title":"Options - Axon.sigmoid/2","type":"function"},{"doc":"Adds a Sigmoid weighted linear unit activation layer to the network.\n\nSee `Axon.Activations.silu/1` for more details.","ref":"Axon.html#silu/2","title":"Axon.silu/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#silu/2-options","title":"Options - Axon.silu/2","type":"function"},{"doc":"Adds a Softmax activation layer to the network.\n\nSee `Axon.Activations.softmax/1` for more details.","ref":"Axon.html#softmax/2","title":"Axon.softmax/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#softmax/2-options","title":"Options - Axon.softmax/2","type":"function"},{"doc":"Adds a Softplus activation layer to the network.\n\nSee `Axon.Activations.softplus/1` for more details.","ref":"Axon.html#softplus/2","title":"Axon.softplus/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#softplus/2-options","title":"Options - Axon.softplus/2","type":"function"},{"doc":"Adds a Softsign activation layer to the network.\n\nSee `Axon.Activations.softsign/1` for more details.","ref":"Axon.html#softsign/2","title":"Axon.softsign/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#softsign/2-options","title":"Options - Axon.softsign/2","type":"function"},{"doc":"Adds a Spatial dropout layer to the network.\n\nSee `Axon.Layers.spatial_dropout/2` for more details.","ref":"Axon.html#spatial_dropout/2","title":"Axon.spatial_dropout/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:rate` - dropout rate. Defaults to `0.5`.\n    Needs to be equal or greater than zero and less than one.","ref":"Axon.html#spatial_dropout/2-options","title":"Options - Axon.spatial_dropout/2","type":"function"},{"doc":"Splits input graph into a container of `n` input graphs\nalong the given axis.","ref":"Axon.html#split/3","title":"Axon.split/3","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:axis` - concatenate axis. Defaults to `-1`.","ref":"Axon.html#split/3-options","title":"Options - Axon.split/3","type":"function"},{"doc":"Adds a stack columns layer to the network.\n\nA stack columns layer is designed to be used with `Nx.LazyContainer`\ndata structures like Explorer DataFrames. Given an input which is a\nDataFrame, `stack_columns/2` will stack the columns in each row to\ncreate a single vector.\n\nYou may optionally specify `:ignore` to ignore certain columns in\nthe container.","ref":"Axon.html#stack_columns/2","title":"Axon.stack_columns/2","type":"function"},{"doc":"* `:name` - layer name.\n\n  * `:ignore` - keys to ignore when stacking.","ref":"Axon.html#stack_columns/2-options","title":"Options - Axon.stack_columns/2","type":"function"},{"doc":"Adds a subtract layer to the network.\n\nThis layer performs an element-wise subtract operation\non input layers. All input layers must be capable of being\nbroadcast together.\n\nIf one shape has a static batch size, all other shapes must have a\nstatic batch size as well.","ref":"Axon.html#subtract/3","title":"Axon.subtract/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#subtract/3-options","title":"Options - Axon.subtract/3","type":"function"},{"doc":"Adds a Hyperbolic tangent activation layer to the network.\n\nSee `Axon.Activations.tanh/1` for more details.","ref":"Axon.html#tanh/2","title":"Axon.tanh/2","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#tanh/2-options","title":"Options - Axon.tanh/2","type":"function"},{"doc":"Compiles and returns the given model's backward function\nexpression with respect to the given loss function.\n\nThe returned expression is an Nx expression which can be\ntraversed and lowered to an IR or inspected for debugging\npurposes.\n\nThe given loss function must be a scalar loss function which\nexpects inputs and targets with the same shapes as the model's\noutput shapes as determined by the model's signature.","ref":"Axon.html#trace_backward/5","title":"Axon.trace_backward/5","type":"function"},{"doc":"* `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`","ref":"Axon.html#trace_backward/5-options","title":"Options - Axon.trace_backward/5","type":"function"},{"doc":"Compiles and returns the given model's forward function\nexpression with the given options.\n\nThe returned expression is an Nx expression which can be\ntraversed and lowered to an IR or inspected for debugging\npurposes.","ref":"Axon.html#trace_forward/4","title":"Axon.trace_forward/4","type":"function"},{"doc":"* `:mode` - one of `:inference` or `:train`. Forwarded to layers\n    to control differences in compilation at training or inference time.\n    Defaults to `:inference`\n\n  * `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`","ref":"Axon.html#trace_forward/4-options","title":"Options - Axon.trace_forward/4","type":"function"},{"doc":"Compiles and returns the given model's init function\nexpression with the given options.\n\nThe returned expression is an Nx expression which can be\ntraversed and lowered to an IR or inspected for debugging\npurposes.\n\nYou may optionally specify initial parameters for some layers or\nnamespaces by passing a partial parameter map:\n\n    Axon.trace_init(model, %{\"dense_0\" => dense_params})\n\nThe parameter map will be merged with the initialized model\nparameters.","ref":"Axon.html#trace_init/4","title":"Axon.trace_init/4","type":"function"},{"doc":"* `:debug` - if `true`, will log graph traversal and generation\n    metrics. Also forwarded to JIT if debug mode is available\n    for your chosen compiler or backend. Defaults to `false`","ref":"Axon.html#trace_init/4-options","title":"Options - Axon.trace_init/4","type":"function"},{"doc":"Adds a transpose layer to the network.","ref":"Axon.html#transpose/3","title":"Axon.transpose/3","type":"function"},{"doc":"* `:name` - layer name.","ref":"Axon.html#transpose/3-options","title":"Options - Axon.transpose/3","type":"function"},{"doc":"Unfreezes parameters returned from the given function or predicate.\n\n`fun` can be a predicate `:all`, `up: n`, or `down: n`. `:all`\nfreezes all parameters in the model, `up: n` unfreezes the first `n`\nlayers up (starting from output), and `down: n` freezes the first `n`\nlayers down (starting from input).\n\n`fun` may also be a predicate function which takes a parameter and\nreturns `true` if a parameter should be unfrozen or `false` otherwise.\n\nUnfreezing parameters is useful when fine tuning a model which you\nhave previously frozen and performed transfer learning on. You may\nwant to unfreeze some of the later frozen layers in a model and\nfine tune them specifically for your application:\n\n    cnn_base = get_pretrained_cnn_base()\n    model =\n      frozen_model\n      |> Axon.unfreeze(up: 25)\n\n    model\n    |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.0005))\n    |> Axon.Loop.run(data, epochs: 10)\n\nWhen compiled, frozen parameters are wrapped in `Nx.Defn.Kernel.stop_grad/1`,\nwhich zeros out the gradient with respect to the frozen parameter. Gradients\nof frozen parameters will return `0.0`, meaning they won't be changed during\nthe update process.","ref":"Axon.html#unfreeze/2","title":"Axon.unfreeze/2","type":"function"},{"doc":"","ref":"Axon.html#t:t/0","title":"Axon.t/0","type":"type"},{"doc":"Parameter initializers.\n\nParameter initializers are used to initialize the weights\nand biases of a neural network. Because most deep learning\noptimization algorithms are iterative, they require an initial\npoint to iterate from.\n\nSometimes the initialization of a model can determine whether\nor not a model converges. In some cases, the initial point is\nunstable, and therefore the model has no chance of converging\nusing common first-order optimization methods. In cases where\nthe model will converge, initialization can have a significant\nimpact on how quickly the model converges.\n\nMost initialization strategies are built from intuition and\nheuristics rather than theory. It's commonly accepted that\nthe parameters of different layers should be different -\nmotivating the use of random initialization for each layer's\nparameters. Usually, only the weights of a layer are initialized\nusing a random distribution - while the biases are initialized\nto a uniform constant (like 0).\n\nMost initializers use Gaussian (normal) or uniform distributions\nwith variations on scale. The output scale of an initializer\nshould generally be large enough to avoid information loss but\nsmall enough to avoid exploding values. The initializers in\nthis module have a default scale known to work well with\nthe initialization strategy.\n\nThe functions in this module return initialization functions which\ntake shapes and types and return tensors:\n\n    init_fn = Axon.Initializers.zeros()\n    init_fn.({1, 2}, {:f, 32})\n\nYou may use these functions from within `defn` or outside.","ref":"Axon.Initializers.html","title":"Axon.Initializers","type":"module"},{"doc":"Initializes parameters to value.","ref":"Axon.Initializers.html#full/1","title":"Axon.Initializers.full/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.full(1.00)\n    iex> out = init_fn.({2, 2}, {:f, 32})\n    iex> out\n    #Nx.Tensor","ref":"Axon.Initializers.html#full/1-examples","title":"Examples - Axon.Initializers.full/1","type":"function"},{"doc":"Initializes parameters with the Glorot normal initializer.\n\nThe Glorot normal initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_avg`\nand `distribution: :truncated_normal`.\n\nThe Glorot normal initializer is also called the Xavier\nnormal initializer.","ref":"Axon.Initializers.html#glorot_normal/1","title":"Axon.Initializers.glorot_normal/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0`","ref":"Axon.Initializers.html#glorot_normal/1-options","title":"Options - Axon.Initializers.glorot_normal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.glorot_normal()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.glorot_normal(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#glorot_normal/1-examples","title":"Examples - Axon.Initializers.glorot_normal/1","type":"function"},{"doc":"* [Understanding the difficulty of training deep feedforward neural networks](http://proceedings.mlr.press/v9/glorot10a.html)","ref":"Axon.Initializers.html#glorot_normal/1-references","title":"References - Axon.Initializers.glorot_normal/1","type":"function"},{"doc":"Initializes parameters with the Glorot uniform initializer.\n\nThe Glorot uniform initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_avg`\nand `distribution: :uniform`.\n\nThe Glorot uniform initializer is also called the Xavier\nuniform initializer.","ref":"Axon.Initializers.html#glorot_uniform/1","title":"Axon.Initializers.glorot_uniform/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0`","ref":"Axon.Initializers.html#glorot_uniform/1-options","title":"Options - Axon.Initializers.glorot_uniform/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.glorot_uniform()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.glorot_uniform(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#glorot_uniform/1-examples","title":"Examples - Axon.Initializers.glorot_uniform/1","type":"function"},{"doc":"* [Understanding the difficulty of training deep feedforward neural networks](http://proceedings.mlr.press/v9/glorot10a.html)","ref":"Axon.Initializers.html#glorot_uniform/1-references","title":"References - Axon.Initializers.glorot_uniform/1","type":"function"},{"doc":"Initializes parameters with the He normal initializer.\n\nThe He normal initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_in`\nand `distribution: :truncated_normal`.","ref":"Axon.Initializers.html#he_normal/1","title":"Axon.Initializers.he_normal/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `2.0`","ref":"Axon.Initializers.html#he_normal/1-options","title":"Options - Axon.Initializers.he_normal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.he_normal()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.he_normal(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#he_normal/1-examples","title":"Examples - Axon.Initializers.he_normal/1","type":"function"},{"doc":"* [Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification](https://www.cv-foundation.org/openaccess/content_iccv_2015/html/He_Delving_Deep_into_ICCV_2015_paper.html)","ref":"Axon.Initializers.html#he_normal/1-references","title":"References - Axon.Initializers.he_normal/1","type":"function"},{"doc":"Initializes parameters with the He uniform initializer.\n\nThe He uniform initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_ni`\nand `distribution: :uniform`.","ref":"Axon.Initializers.html#he_uniform/1","title":"Axon.Initializers.he_uniform/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `2.0`","ref":"Axon.Initializers.html#he_uniform/1-options","title":"Options - Axon.Initializers.he_uniform/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.he_uniform()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.he_uniform(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#he_uniform/1-examples","title":"Examples - Axon.Initializers.he_uniform/1","type":"function"},{"doc":"* [Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification](https://www.cv-foundation.org/openaccess/content_iccv_2015/html/He_Delving_Deep_into_ICCV_2015_paper.html)","ref":"Axon.Initializers.html#he_uniform/1-references","title":"References - Axon.Initializers.he_uniform/1","type":"function"},{"doc":"Initializes parameters to an identity matrix.","ref":"Axon.Initializers.html#identity/0","title":"Axon.Initializers.identity/0","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.identity()\n    iex> out = init_fn.({2, 2}, {:f, 32})\n    iex> out\n    #Nx.Tensor","ref":"Axon.Initializers.html#identity/0-examples","title":"Examples - Axon.Initializers.identity/0","type":"function"},{"doc":"Initializes parameters with the Lecun normal initializer.\n\nThe Lecun normal initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_in`\nand `distribution: :truncated_normal`.","ref":"Axon.Initializers.html#lecun_normal/1","title":"Axon.Initializers.lecun_normal/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0`","ref":"Axon.Initializers.html#lecun_normal/1-options","title":"Options - Axon.Initializers.lecun_normal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.lecun_normal()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.lecun_normal(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#lecun_normal/1-examples","title":"Examples - Axon.Initializers.lecun_normal/1","type":"function"},{"doc":"* [Efficient BackProp](http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf)","ref":"Axon.Initializers.html#lecun_normal/1-references","title":"References - Axon.Initializers.lecun_normal/1","type":"function"},{"doc":"Initializes parameters with the Lecun uniform initializer.\n\nThe Lecun uniform initializer is equivalent to calling\n`Axon.Initializers.variance_scaling` with `mode: :fan_in`\nand `distribution: :uniform`.","ref":"Axon.Initializers.html#lecun_uniform/1","title":"Axon.Initializers.lecun_uniform/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0`","ref":"Axon.Initializers.html#lecun_uniform/1-options","title":"Options - Axon.Initializers.lecun_uniform/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.lecun_uniform()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.lecun_uniform(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#lecun_uniform/1-examples","title":"Examples - Axon.Initializers.lecun_uniform/1","type":"function"},{"doc":"* [Efficient BackProp](http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf)","ref":"Axon.Initializers.html#lecun_uniform/1-references","title":"References - Axon.Initializers.lecun_uniform/1","type":"function"},{"doc":"Initializes parameters with a random normal distribution.","ref":"Axon.Initializers.html#normal/1","title":"Axon.Initializers.normal/1","type":"function"},{"doc":"* `:mean` - mean of the output distribution. Defaults to `0.0`\n  * `:scale` - scale of the output distribution. Defaults to `1.0e-2`","ref":"Axon.Initializers.html#normal/1-options","title":"Options - Axon.Initializers.normal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.normal()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.normal(mean: 1.0, scale: 1.0)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#normal/1-examples","title":"Examples - Axon.Initializers.normal/1","type":"function"},{"doc":"Initializes parameters to 1.","ref":"Axon.Initializers.html#ones/0","title":"Axon.Initializers.ones/0","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.ones()\n    iex> out = init_fn.({2, 2}, {:f, 32})\n    iex> out\n    #Nx.Tensor","ref":"Axon.Initializers.html#ones/0-examples","title":"Examples - Axon.Initializers.ones/0","type":"function"},{"doc":"Initializes a tensor with an orthogonal distribution.\n\nFor 2-D tensors, the initialization is generated through the QR decomposition of a random distribution\nFor tensors with more than 2 dimensions, a 2-D tensor with shape `{shape[0] * shape[1] * ... * shape[n-2], shape[n-1]}`\nis initialized and then reshaped accordingly.","ref":"Axon.Initializers.html#orthogonal/1","title":"Axon.Initializers.orthogonal/1","type":"function"},{"doc":"* `:distribution` - output distribution. One of [`:normal`, `:uniform`].\n    Defaults to `:normal`","ref":"Axon.Initializers.html#orthogonal/1-options","title":"Options - Axon.Initializers.orthogonal/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.orthogonal()\n    iex> t = init_fn.({3, 3}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.type(t)\n    {:f, 32}\n    iex> Nx.shape(t)\n    {3, 3}\n\n    iex> init_fn = Axon.Initializers.orthogonal()\n    iex> t = init_fn.({1, 2, 3, 4}, {:f, 64}, Nx.Random.key(1))\n    iex> Nx.type(t)\n    {:f, 64}\n    iex> Nx.shape(t)\n    {1, 2, 3, 4}","ref":"Axon.Initializers.html#orthogonal/1-examples","title":"Examples - Axon.Initializers.orthogonal/1","type":"function"},{"doc":"Initializes parameters with a random uniform distribution.","ref":"Axon.Initializers.html#uniform/1","title":"Axon.Initializers.uniform/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0e-2`","ref":"Axon.Initializers.html#uniform/1-options","title":"Options - Axon.Initializers.uniform/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.uniform()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.uniform(scale: 1.0e-3)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}","ref":"Axon.Initializers.html#uniform/1-examples","title":"Examples - Axon.Initializers.uniform/1","type":"function"},{"doc":"Initializes parameters with variance scaling according to\nthe given distribution and mode.\n\nVariance scaling adapts scale to the weights of the output\ntensor.","ref":"Axon.Initializers.html#variance_scaling/1","title":"Axon.Initializers.variance_scaling/1","type":"function"},{"doc":"* `:scale` - scale of the output distribution. Defaults to `1.0e-2`\n  * `:mode` - compute fan mode. One of `:fan_in`, `:fan_out`, or `:fan_avg`.\n    Defaults to `:fan_in`\n  * `:distribution` - output distribution. One of `:normal`, `:truncated_normal`,\n    or `:uniform`. Defaults to `:normal`","ref":"Axon.Initializers.html#variance_scaling/1-options","title":"Options - Axon.Initializers.variance_scaling/1","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.variance_scaling()\n    iex> t = init_fn.({2, 2}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:f, 32}\n\n    iex> init_fn = Axon.Initializers.variance_scaling(mode: :fan_out, distribution: :truncated_normal)\n    iex> t = init_fn.({2, 2}, {:bf, 16}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {2, 2}\n    iex> Nx.type(t)\n    {:bf, 16}\n\n    iex> init_fn = Axon.Initializers.variance_scaling(mode: :fan_out, distribution: :normal)\n    iex> t = init_fn.({64, 3, 32, 32}, {:f, 32}, Nx.Random.key(1))\n    iex> Nx.shape(t)\n    {64, 3, 32, 32}\n    iex> Nx.type(t)\n    {:f, 32}","ref":"Axon.Initializers.html#variance_scaling/1-examples","title":"Examples - Axon.Initializers.variance_scaling/1","type":"function"},{"doc":"Initializes parameters to 0.","ref":"Axon.Initializers.html#zeros/0","title":"Axon.Initializers.zeros/0","type":"function"},{"doc":"iex> init_fn = Axon.Initializers.zeros()\n    iex> out = init_fn.({2, 2}, {:f, 32})\n    iex> out\n    #Nx.Tensor","ref":"Axon.Initializers.html#zeros/0-examples","title":"Examples - Axon.Initializers.zeros/0","type":"function"},{"doc":"Utilities for creating mixed precision policies.\n\nMixed precision is useful for increasing model throughput at the possible\nprice of a small dip in accuracy. When creating a mixed precision policy,\nyou define the policy for `params`, `compute`, and `output`.\n\nThe `params` policy dictates what type parameters should be stored as\nduring training. The `compute` policy dictates what type should be used\nduring intermediate computations in the model's forward pass. The `output`\npolicy dictates what type the model should output.\n\nHere's an example of creating a mixed precision policy and applying it\nto a model:\n\n    model =\n      Axon.input(\"input\", shape: {nil, 784})\n      |> Axon.dense(128, activation: :relu)\n      |> Axon.batch_norm()\n      |> Axon.dropout(rate: 0.5)\n      |> Axon.dense(64, activation: :relu)\n      |> Axon.batch_norm()\n      |> Axon.dropout(rate: 0.5)\n      |> Axon.dense(10, activation: :softmax)\n\n    policy = Axon.MixedPrecision.create_policy(\n      params: {:f, 32},\n      compute: {:f, 16},\n      output: {:f, 32}\n    )\n\n    mp_model =\n      model\n      |> Axon.MixedPrecision.apply_policy(policy, except: [:batch_norm])\n\nThe example above applies the mixed precision policy to every layer in\nthe model except Batch Normalization layers. The policy will cast parameters\nand inputs to `{:f, 16}` for intermediate computations in the model's forward\npass before casting the output back to `{:f, 32}`.","ref":"Axon.MixedPrecision.html","title":"Axon.MixedPrecision","type":"module"},{"doc":"Casts the given container according to the given policy\nand type.","ref":"Axon.MixedPrecision.html#cast/3","title":"Axon.MixedPrecision.cast/3","type":"function"},{"doc":"iex> policy = Axon.MixedPrecision.create_policy(params: {:f, 16})\n    iex> params = %{\"dense\" => %{\"kernel\" => Nx.tensor([1.0, 2.0, 3.0])}}\n    iex> params = Axon.MixedPrecision.cast(policy, params, :params)\n    iex> Nx.type(params[\"dense\"][\"kernel\"])\n    {:f, 16}\n\n    iex> policy = Axon.MixedPrecision.create_policy(compute: {:bf, 16})\n    iex> value = Nx.tensor([1.0, 2.0, 3.0])\n    iex> value = Axon.MixedPrecision.cast(policy, value, :compute)\n    iex> Nx.type(value)\n    {:bf, 16}\n\n    iex> policy = Axon.MixedPrecision.create_policy(output: {:bf, 16})\n    iex> value = Nx.tensor([1.0, 2.0, 3.0])\n    iex> value = Axon.MixedPrecision.cast(policy, value, :output)\n    iex> Nx.type(value)\n    {:bf, 16}\n\nNote that integers are never promoted to floats:\n\n    iex> policy = Axon.MixedPrecision.create_policy(output: {:f, 16})\n    iex> value = Nx.tensor([1, 2, 3], type: :s64)\n    iex> value = Axon.MixedPrecision.cast(policy, value, :params)\n    iex> Nx.type(value)\n    {:s, 64}","ref":"Axon.MixedPrecision.html#cast/3-examples","title":"Examples - Axon.MixedPrecision.cast/3","type":"function"},{"doc":"Creates a mixed precision policy with the given options.","ref":"Axon.MixedPrecision.html#create_policy/1","title":"Axon.MixedPrecision.create_policy/1","type":"function"},{"doc":"* `params` - parameter precision policy. Defaults to `{:f, 32}`\n  * `compute` - compute precision policy. Defaults to `{:f, 32}`\n  * `output` - output precision policy. Defaults to `{:f, 32}`","ref":"Axon.MixedPrecision.html#create_policy/1-options","title":"Options - Axon.MixedPrecision.create_policy/1","type":"function"},{"doc":"iex> Axon.MixedPrecision.create_policy(params: {:f, 16}, output: {:f, 16})\n    #Axon.MixedPrecision.Policy \n\n    iex> Axon.MixedPrecision.create_policy(compute: {:bf, 16})\n    #Axon.MixedPrecision.Policy","ref":"Axon.MixedPrecision.html#create_policy/1-examples","title":"Examples - Axon.MixedPrecision.create_policy/1","type":"function"},{"doc":"Represents a missing value of an optional node.\n\nSee `Axon.input/2` and `Axon.optional/2` for more details.","ref":"Axon.None.html","title":"Axon.None","type":"module"},{"doc":"Container for returning stateful outputs from Axon layers.\n\nSome layers, such as `Axon.batch_norm/2`, keep a running internal\nstate which is updated continuously at train time and used statically\nat inference time. In order for the Axon compiler to differentiate\nordinary layer outputs from internal state, you must mark output\nas stateful.\n\nStateful Outputs consist of two fields:\n\n    :output - Actual layer output to be forwarded to next layer\n    :state - Internal layer state to be tracked and updated\n\n`:output` is simply forwarded to the next layer. `:state` is aggregated\nwith other stateful outputs, and then is treated specially by internal\nAxon training functions such that update state parameters reflect returned\nvalues from stateful outputs.\n\n`:state` must be a map with keys that map directly to layer internal\nstate names. For example, `Axon.Layers.batch_norm` returns StatefulOutput\nwith `:state` keys of `\"mean\"` and `\"var\"`.","ref":"Axon.StatefulOutput.html","title":"Axon.StatefulOutput","type":"module"},{"doc":"Module for rendering various visual representations of Axon models.","ref":"Axon.Display.html","title":"Axon.Display","type":"module"},{"doc":"Traces execution of the given Axon model with the given\ninputs, rendering the execution flow as a mermaid flowchart.\n\nYou must include [kino](https://hex.pm/packages/kino) as\na dependency in your project to make use of this function.","ref":"Axon.Display.html#as_graph/3","title":"Axon.Display.as_graph/3","type":"function"},{"doc":"* `:direction` - defines the direction of the graph visual. The\n    value can either be `:top_down` or `:left_right`. Defaults to `:top_down`.","ref":"Axon.Display.html#as_graph/3-options","title":"Options - Axon.Display.as_graph/3","type":"function"},{"doc":"Given an Axon model:\n\n    model = Axon.input(\"input\") |> Axon.dense(32)\n\nYou can define input templates for each input:\n\n    input = Nx.template({1, 16}, :f32)\n\nAnd then display the execution flow of the model:\n\n    Axon.Display.as_graph(model, input, direction: :top_down)","ref":"Axon.Display.html#as_graph/3-examples","title":"Examples - Axon.Display.as_graph/3","type":"function"},{"doc":"Traces execution of the given Axon model with the given\ninputs, rendering the execution flow as a table.\n\nYou must include [table_rex](https://hex.pm/packages/table_rex) as\na dependency in your project to make use of this function.","ref":"Axon.Display.html#as_table/2","title":"Axon.Display.as_table/2","type":"function"},{"doc":"Given an Axon model:\n\n    model = Axon.input(\"input\") |> Axon.dense(32)\n\nYou can define input templates for each input:\n\n    input = Nx.template({1, 16}, :f32)\n\nAnd then display the execution flow of the model:\n\n    Axon.Display.as_table(model, input)","ref":"Axon.Display.html#as_table/2-examples","title":"Examples - Axon.Display.as_table/2","type":"function"},{"doc":"Activation functions.\n\nActivation functions are element-wise, (typically) non-linear\nfunctions called on the output of another layer, such as\na dense layer:\n\n    x\n    |> dense(weight, bias)\n    |> relu()\n\nActivation functions output the \"activation\" or how active\na given layer's neurons are in learning a representation\nof the data-generating distribution.\n\nSome activations are commonly used as output activations. For\nexample `softmax` is often used as the output in multiclass\nclassification problems because it returns a categorical\nprobability distribution:\n\n    iex> Axon.Activations.softmax(Nx.tensor([[1, 2, 3]], type: {:f, 32}))\n    #Nx.Tensor \n\nOther activations such as `tanh` or `sigmoid` are used because\nthey have desirable properties, such as keeping the output\ntensor constrained within a certain range.\n\nGenerally, the choice of activation function is arbitrary;\nalthough some activations work better than others in certain\nproblem domains. For example ReLU (rectified linear unit)\nactivation is a widely-accepted default. You can see\na list of activation functions and implementations\n[here](https://paperswithcode.com/methods/category/activation-functions).\n\nAll of the functions in this module are implemented as\nnumerical functions and can be JIT or AOT compiled with\nany supported `Nx` compiler.","ref":"Axon.Activations.html","title":"Axon.Activations","type":"module"},{"doc":"Continuously-differentiable exponential linear unit activation.\n\n$$f(x_i) = \\max(0, x_i) + \\min(0, \\alpha * e^{\\frac{x_i}{\\alpha}} - 1)$$","ref":"Axon.Activations.html#celu/2","title":"Axon.Activations.celu/2","type":"function"},{"doc":"* `alpha` - $\\alpha$ in CELU formulation. Must be non-zero.\n    Defaults to `1.0`","ref":"Axon.Activations.html#celu/2-options","title":"Options - Axon.Activations.celu/2","type":"function"},{"doc":"iex> Axon.Activations.celu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.celu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}))\n    #Nx.Tensor \n\n#","ref":"Axon.Activations.html#celu/2-examples","title":"Examples - Axon.Activations.celu/2","type":"function"},{"doc":"iex> Axon.Activations.celu(Nx.tensor([0.0, 1.0, 2.0], type: {:f, 32}), alpha: 0.0)\n    ** (ArgumentError) :alpha must be non-zero in CELU activation","ref":"Axon.Activations.html#celu/2-error-cases","title":"Error cases - Axon.Activations.celu/2","type":"function"},{"doc":"* [Continuously Differentiable Exponential Linear Units](https://arxiv.org/pdf/1704.07483.pdf)","ref":"Axon.Activations.html#celu/2-references","title":"References - Axon.Activations.celu/2","type":"function"},{"doc":"Exponential linear unit activation.\n\nEquivalent to `celu` for $\\alpha = 1$\n\n$$f(x_i) = \\begin{cases}x_i & x _i > 0 \\newline \\alpha * (e^{x_i} - 1) & x_i \\leq 0 \\\\ \\end{cases}$$","ref":"Axon.Activations.html#elu/2","title":"Axon.Activations.elu/2","type":"function"},{"doc":"* `alpha` - $\\alpha$ in ELU formulation. Defaults to `1.0`","ref":"Axon.Activations.html#elu/2-options","title":"Options - Axon.Activations.elu/2","type":"function"},{"doc":"iex> Axon.Activations.elu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.elu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}))\n    #Nx.Tensor","ref":"Axon.Activations.html#elu/2-examples","title":"Examples - Axon.Activations.elu/2","type":"function"},{"doc":"* [Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)](https://arxiv.org/abs/1511.07289)","ref":"Axon.Activations.html#elu/2-references","title":"References - Axon.Activations.elu/2","type":"function"},{"doc":"Exponential activation.\n\n$$f(x_i) = e^{x_i}$$","ref":"Axon.Activations.html#exp/1","title":"Axon.Activations.exp/1","type":"function"},{"doc":"iex> Axon.Activations.exp(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.exp(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#exp/1-examples","title":"Examples - Axon.Activations.exp/1","type":"function"},{"doc":"Gaussian error linear unit activation.\n\n$$f(x_i) = \\frac{x_i}{2}(1 + {erf}(\\frac{x_i}{\\sqrt{2}}))$$","ref":"Axon.Activations.html#gelu/1","title":"Axon.Activations.gelu/1","type":"function"},{"doc":"iex> Axon.Activations.gelu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.gelu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#gelu/1-examples","title":"Examples - Axon.Activations.gelu/1","type":"function"},{"doc":"* [Gaussian Error Linear Units (GELUs)](https://arxiv.org/abs/1606.08415)","ref":"Axon.Activations.html#gelu/1-references","title":"References - Axon.Activations.gelu/1","type":"function"},{"doc":"Hard sigmoid activation.","ref":"Axon.Activations.html#hard_sigmoid/2","title":"Axon.Activations.hard_sigmoid/2","type":"function"},{"doc":"iex> Axon.Activations.hard_sigmoid(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.hard_sigmoid(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#hard_sigmoid/2-examples","title":"Examples - Axon.Activations.hard_sigmoid/2","type":"function"},{"doc":"Hard sigmoid weighted linear unit activation.\n\n$$f(x_i) = \\begin{cases} 0 & x_i \\leq -3 \\newline\nx & x_i \\geq 3 \\newline\n\\frac{x_i^2}{6} + \\frac{x_i}{2} & otherwise \\end{cases}$$","ref":"Axon.Activations.html#hard_silu/2","title":"Axon.Activations.hard_silu/2","type":"function"},{"doc":"iex> Axon.Activations.hard_silu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.hard_silu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#hard_silu/2-examples","title":"Examples - Axon.Activations.hard_silu/2","type":"function"},{"doc":"Hard hyperbolic tangent activation.\n\n$$f(x_i) = \\begin{cases} 1 & x > 1 \\newline -1 & x < -1 \\newline x & otherwise \\end{cases}$$","ref":"Axon.Activations.html#hard_tanh/1","title":"Axon.Activations.hard_tanh/1","type":"function"},{"doc":"iex> Axon.Activations.hard_tanh(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.hard_tanh(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#hard_tanh/1-examples","title":"Examples - Axon.Activations.hard_tanh/1","type":"function"},{"doc":"Leaky rectified linear unit activation.\n\n$$f(x_i) = \\begin{cases} x & x \\geq 0 \\newline \\alpha * x & otherwise \\end{cases}$$","ref":"Axon.Activations.html#leaky_relu/2","title":"Axon.Activations.leaky_relu/2","type":"function"},{"doc":"* `:alpha` - $\\alpha$ in Leaky ReLU formulation. Defaults to `1.0e-2`","ref":"Axon.Activations.html#leaky_relu/2-options","title":"Options - Axon.Activations.leaky_relu/2","type":"function"},{"doc":"iex> Axon.Activations.leaky_relu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]), alpha: 0.5)\n    #Nx.Tensor \n\n    iex> Axon.Activations.leaky_relu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], names: [:batch, :data]), alpha: 0.5)\n    #Nx.Tensor","ref":"Axon.Activations.html#leaky_relu/2-examples","title":"Examples - Axon.Activations.leaky_relu/2","type":"function"},{"doc":"Linear activation.\n\n$$f(x_i) = x_i$$","ref":"Axon.Activations.html#linear/1","title":"Axon.Activations.linear/1","type":"function"},{"doc":"iex> Axon.Activations.linear(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.linear(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#linear/1-examples","title":"Examples - Axon.Activations.linear/1","type":"function"},{"doc":"Log-sigmoid activation.\n\n$$f(x_i) = \\log(sigmoid(x))$$","ref":"Axon.Activations.html#log_sigmoid/1","title":"Axon.Activations.log_sigmoid/1","type":"function"},{"doc":"iex> Axon.Activations.log_sigmoid(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], type: {:f, 32}, names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.log_sigmoid(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#log_sigmoid/1-examples","title":"Examples - Axon.Activations.log_sigmoid/1","type":"function"},{"doc":"Log-softmax activation.\n\n$$f(x_i) = -log( um{e^x_i})$$","ref":"Axon.Activations.html#log_softmax/2","title":"Axon.Activations.log_softmax/2","type":"function"},{"doc":"iex> Axon.Activations.log_softmax(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], type: {:f, 32}, names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.log_softmax(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#log_softmax/2-examples","title":"Examples - Axon.Activations.log_softmax/2","type":"function"},{"doc":"Logsumexp activation.\n\n$$\\log(sum e^x_i)$$","ref":"Axon.Activations.html#log_sumexp/2","title":"Axon.Activations.log_sumexp/2","type":"function"},{"doc":"iex> Axon.Activations.log_sumexp(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.log_sumexp(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#log_sumexp/2-examples","title":"Examples - Axon.Activations.log_sumexp/2","type":"function"},{"doc":"Mish activation.\n\n$$f(x_i) = x_i* \\tanh(\\log(1 + e^x_i))$$","ref":"Axon.Activations.html#mish/1","title":"Axon.Activations.mish/1","type":"function"},{"doc":"iex> Axon.Activations.mish(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], type: {:f, 32}, names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.mish(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#mish/1-examples","title":"Examples - Axon.Activations.mish/1","type":"function"},{"doc":"Rectified linear unit 6 activation.\n\n$$f(x_i) = \\min_i(\\max_i(x, 0), 6)$$","ref":"Axon.Activations.html#relu6/1","title":"Axon.Activations.relu6/1","type":"function"},{"doc":"iex> Axon.Activations.relu6(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.relu6(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#relu6/1-examples","title":"Examples - Axon.Activations.relu6/1","type":"function"},{"doc":"* [MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications](https://arxiv.org/abs/1704.04861v1)","ref":"Axon.Activations.html#relu6/1-references","title":"References - Axon.Activations.relu6/1","type":"function"},{"doc":"Rectified linear unit activation.\n\n$$f(x_i) = \\max_i(x, 0)$$","ref":"Axon.Activations.html#relu/1","title":"Axon.Activations.relu/1","type":"function"},{"doc":"iex> Axon.Activations.relu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.relu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#relu/1-examples","title":"Examples - Axon.Activations.relu/1","type":"function"},{"doc":"Scaled exponential linear unit activation.\n\n$$f(x_i) = \\begin{cases} \\lambda x & x \\geq 0 \\newline\n\\lambda \\alpha(e^{x} - 1) & x < 0 \\end{cases}$$\n\n$$\\alpha \\approx 1.6733$$\n$$\\lambda \\approx 1.0507$$","ref":"Axon.Activations.html#selu/2","title":"Axon.Activations.selu/2","type":"function"},{"doc":"iex> Axon.Activations.selu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.selu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#selu/2-examples","title":"Examples - Axon.Activations.selu/2","type":"function"},{"doc":"* [Self-Normalizing Neural Networks](https://arxiv.org/abs/1706.02515v5)","ref":"Axon.Activations.html#selu/2-references","title":"References - Axon.Activations.selu/2","type":"function"},{"doc":"Sigmoid activation.\n\n$$f(x_i) = \\frac{1}{1 + e^{-x_i}}$$\n\n**Implementation Note: Sigmoid logits are cached as metadata\nin the expression and can be used in calculations later on.\nFor example, they are used in cross-entropy calculations for\nbetter stability.**","ref":"Axon.Activations.html#sigmoid/1","title":"Axon.Activations.sigmoid/1","type":"function"},{"doc":"iex> Axon.Activations.sigmoid(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.sigmoid(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#sigmoid/1-examples","title":"Examples - Axon.Activations.sigmoid/1","type":"function"},{"doc":"Sigmoid weighted linear unit activation.\n\n$$f(x_i) = x * sigmoid(x)$$","ref":"Axon.Activations.html#silu/1","title":"Axon.Activations.silu/1","type":"function"},{"doc":"iex> Axon.Activations.silu(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.silu(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#silu/1-examples","title":"Examples - Axon.Activations.silu/1","type":"function"},{"doc":"* [Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning](https://arxiv.org/abs/1702.03118v3)","ref":"Axon.Activations.html#silu/1-references","title":"References - Axon.Activations.silu/1","type":"function"},{"doc":"Softmax activation along an axis.\n\n$$\\frac{e^{x_i}}{\\sum_i e^{x_i}}$$\n\n**Implementation Note: Softmax logits are cached as metadata\nin the expression and can be used in calculations later on.\nFor example, they are used in cross-entropy calculations for\nbetter stability.**","ref":"Axon.Activations.html#softmax/2","title":"Axon.Activations.softmax/2","type":"function"},{"doc":"* `:axis` - softmax axis along which to calculate distribution.\n    Defaults to 1.","ref":"Axon.Activations.html#softmax/2-options","title":"Options - Axon.Activations.softmax/2","type":"function"},{"doc":"iex> Axon.Activations.softmax(Nx.tensor([[-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0]], names: [:batch, :data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.softmax(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#softmax/2-examples","title":"Examples - Axon.Activations.softmax/2","type":"function"},{"doc":"Softplus activation.\n\n$$\\log(1 + e^x_i)$$","ref":"Axon.Activations.html#softplus/1","title":"Axon.Activations.softplus/1","type":"function"},{"doc":"iex> Axon.Activations.softplus(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.softplus(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#softplus/1-examples","title":"Examples - Axon.Activations.softplus/1","type":"function"},{"doc":"Softsign activation.\n\n$$f(x_i) = \\frac{x_i}{|x_i| + 1}$$","ref":"Axon.Activations.html#softsign/1","title":"Axon.Activations.softsign/1","type":"function"},{"doc":"iex> Axon.Activations.softsign(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.softsign(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#softsign/1-examples","title":"Examples - Axon.Activations.softsign/1","type":"function"},{"doc":"Hyperbolic tangent activation.\n\n$$f(x_i) = \\tanh(x_i)$$","ref":"Axon.Activations.html#tanh/1","title":"Axon.Activations.tanh/1","type":"function"},{"doc":"iex> Axon.Activations.tanh(Nx.tensor([-3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0], names: [:data]))\n    #Nx.Tensor \n\n    iex> Axon.Activations.tanh(Nx.tensor([[-1.0, -2.0, -3.0], [1.0, 2.0, 3.0]], type: {:bf, 16}, names: [:batch, :data]))\n    #Nx.Tensor","ref":"Axon.Activations.html#tanh/1-examples","title":"Examples - Axon.Activations.tanh/1","type":"function"},{"doc":"Functional implementations of common neural network layer\noperations.\n\nLayers are the building blocks of neural networks. These\nfunctional implementations can be used to express higher-level\nconstructs using fundamental building blocks. Neural network\nlayers are stateful with respect to their parameters.\nThese implementations do not assume the responsibility of\nmanaging state - instead opting to delegate this responsibility\nto the caller.\n\nBasic neural networks can be seen as a composition of functions:\n\n    input\n    |> dense(w1, b1)\n    |> relu()\n    |> dense(w2, b2)\n    |> softmax()\n\nThese kinds of models are often referred to as deep feedforward networks\nor multilayer perceptrons (MLPs) because information flows forward\nthrough the network with no feedback connections. Mathematically,\na feedforward network can be represented as:\n\n  $$f(x) = f^{(3)}(f^{(2)}(f^{(1)}(x)))$$\n\nYou can see a similar pattern emerge if we condense the call stack\nin the previous example:\n\n    softmax(dense(relu(dense(input, w1, b1)), w2, b2))\n\nThe chain structure shown here is the most common structure used\nin neural networks. You can consider each function $f^{(n)}$ as a\n*layer* in the neural network - for example $f^{(2)} is the 2nd\nlayer in the network. The number of function calls in the\nstructure is the *depth* of the network. This is where the term\n*deep learning* comes from.\n\nNeural networks are often written as the mapping:\n\n  $$y = f(x; \\theta)$$\n\nWhere $x$ is the input to the neural network and $\\theta$ are the\nset of learned parameters. In Elixir, you would write this:\n\n    y = model(input, params)\n\nFrom the previous example, `params` would represent the collection:\n\n    {w1, b1, w2, b2}\n\nwhere `w1` and `w2` are layer *kernels*, and `b1` and `b2` are layer\n*biases*.","ref":"Axon.Layers.html","title":"Axon.Layers","type":"module"},{"doc":"Functional implementation of general dimensional adaptive average\npooling.\n\nAdaptive pooling allows you to specify the desired output size\nof the transformed input. This will automatically adapt the\nwindow size and strides to obtain the desired output size. It\nwill then perform average pooling using the calculated window\nsize and strides.\n\nAdaptive pooling can be useful when working on multiple inputs with\ndifferent spatial input shapes. You can guarantee the output of\nan adaptive pooling operation is always the same size regardless\nof input shape.","ref":"Axon.Layers.html#adaptive_avg_pool/2","title":"Axon.Layers.adaptive_avg_pool/2","type":"function"},{"doc":"* `:output_size` - spatial output size. Must be a tuple with\n    size equal to the spatial dimensions in the input tensor.\n    Required.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#adaptive_avg_pool/2-options","title":"Options - Axon.Layers.adaptive_avg_pool/2","type":"function"},{"doc":"Functional implementation of general dimensional adaptive power\naverage pooling.\n\nComputes:\n\n  $$f(X) =  qrt[p]{ um_{x in X} x^{p}}$$\n\nAdaptive pooling allows you to specify the desired output size\nof the transformed input. This will automatically adapt the\nwindow size and strides to obtain the desired output size. It\nwill then perform max pooling using the calculated window\nsize and strides.\n\nAdaptive pooling can be useful when working on multiple inputs with\ndifferent spatial input shapes. You can guarantee the output of\nan adaptive pooling operation is always the same size regardless\nof input shape.","ref":"Axon.Layers.html#adaptive_lp_pool/2","title":"Axon.Layers.adaptive_lp_pool/2","type":"function"},{"doc":"* `:norm` - $p$ from above equation. Defaults to 2.\n\n  * `:output_size` - spatial output size. Must be a tuple with\n    size equal to the spatial dimensions in the input tensor.\n    Required.","ref":"Axon.Layers.html#adaptive_lp_pool/2-options","title":"Options - Axon.Layers.adaptive_lp_pool/2","type":"function"},{"doc":"Functional implementation of general dimensional adaptive max\npooling.\n\nAdaptive pooling allows you to specify the desired output size\nof the transformed input. This will automatically adapt the\nwindow size and strides to obtain the desired output size. It\nwill then perform max pooling using the calculated window\nsize and strides.\n\nAdaptive pooling can be useful when working on multiple inputs with\ndifferent spatial input shapes. You can guarantee the output of\nan adaptive pooling operation is always the same size regardless\nof input shape.","ref":"Axon.Layers.html#adaptive_max_pool/2","title":"Axon.Layers.adaptive_max_pool/2","type":"function"},{"doc":"* `:output_size` - spatial output size. Must be a tuple with\n    size equal to the spatial dimensions in the input tensor.\n    Required.","ref":"Axon.Layers.html#adaptive_max_pool/2-options","title":"Options - Axon.Layers.adaptive_max_pool/2","type":"function"},{"doc":"Functional implementation of an alpha dropout layer.\n\nAlpha dropout is a type of dropout that forces the input\nto have zero mean and unit standard deviation. Randomly\nmasks some elements and scales to enforce self-normalization.","ref":"Axon.Layers.html#alpha_dropout/3","title":"Axon.Layers.alpha_dropout/3","type":"function"},{"doc":"* `:rate` - dropout rate. Used to determine probability a connection\n    will be dropped. Required.\n\n  * `:noise_shape` - input noise shape. Shape of `mask` which can be useful\n    for broadcasting `mask` across feature channels or other dimensions.\n    Defaults to shape of input tensor.","ref":"Axon.Layers.html#alpha_dropout/3-options","title":"Options - Axon.Layers.alpha_dropout/3","type":"function"},{"doc":"* [Self-Normalizing Neural Networks](https://arxiv.org/abs/1706.02515)","ref":"Axon.Layers.html#alpha_dropout/3-references","title":"References - Axon.Layers.alpha_dropout/3","type":"function"},{"doc":"A general dimensional functional average pooling layer.\n\nPooling is applied to the spatial dimension of the input tensor.\nAverage pooling returns the average of all elements in valid\nwindows in the input tensor. It is often used after convolutional\nlayers to downsample the input even further.","ref":"Axon.Layers.html#avg_pool/2","title":"Axon.Layers.avg_pool/2","type":"function"},{"doc":"* `kernel_size` - window size. Rank must match spatial dimension\n    of the input tensor. Required.\n\n  * `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:window_dilations` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Can be scalar or list who's length matches the number of\n    spatial dimensions in the input tensor. Defaults to `1` or no\n    dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#avg_pool/2-options","title":"Options - Axon.Layers.avg_pool/2","type":"function"},{"doc":"Functional implementation of batch normalization.\n\nNormalizes the input by calculating mean and variance of the\ninput tensor along every dimension but the given `:channel_index`,\nand then scaling according to:\n\n$$y = \\frac{x - E[x]}{\\sqrt{Var[x] + \\epsilon}} * \\gamma + \\beta$$\n\n`gamma` and `beta` are often trainable parameters. If `training?` is\ntrue, this method will compute a new mean and variance, and return\nthe updated `ra_mean` and `ra_var`. Otherwise, it will just compute\nbatch norm from the given ra_mean and ra_var.","ref":"Axon.Layers.html#batch_norm/6","title":"Axon.Layers.batch_norm/6","type":"function"},{"doc":"* `:epsilon` - numerical stability term. $epsilon$ in the above\n    formulation.\n\n  * `:channel_index` - channel index used to determine reduction\n    axes for mean and variance calculation.\n\n  * `:momentum` - momentum to use for EMA update.\n\n  * `:mode` - if `:train`, uses training mode batch norm. Defaults to `:inference`.","ref":"Axon.Layers.html#batch_norm/6-options","title":"Options - Axon.Layers.batch_norm/6","type":"function"},{"doc":"* [Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift](https://arxiv.org/abs/1502.03167)","ref":"Axon.Layers.html#batch_norm/6-references","title":"References - Axon.Layers.batch_norm/6","type":"function"},{"doc":"Functional implementation of a bilinear layer.\n\nBilinear transformation of the input such that:\n\n$$y = x_1^{T}Ax_2 + b$$","ref":"Axon.Layers.html#bilinear/5","title":"Axon.Layers.bilinear/5","type":"function"},{"doc":"* `input1` - `{batch_size, ..., input1_features}`\n  * `input2` - `{batch_size, ..., input2_features}`\n  * `kernel` - `{out_features, input1_features, input2_features}`","ref":"Axon.Layers.html#bilinear/5-parameter-shapes","title":"Parameter Shapes - Axon.Layers.bilinear/5","type":"function"},{"doc":"`{batch_size, ..., output_features}`","ref":"Axon.Layers.html#bilinear/5-output-shape","title":"Output Shape - Axon.Layers.bilinear/5","type":"function"},{"doc":"iex> inp1 = Nx.iota({3, 2}, type: {:f, 32})\n    iex> inp2 = Nx.iota({3, 4}, type: {:f, 32})\n    iex> kernel = Nx.iota({1, 2, 4}, type: {:f, 32})\n    iex> bias = Nx.tensor(1.0)\n    iex> Axon.Layers.bilinear(inp1, inp2, kernel, bias)\n    #Nx.Tensor","ref":"Axon.Layers.html#bilinear/5-examples","title":"Examples - Axon.Layers.bilinear/5","type":"function"},{"doc":"Functional implementation of a 2-dimensional blur pooling layer.\n\nBlur pooling applies a spatial low-pass filter to the input. It is\noften applied before pooling and convolutional layers as a way to\nincrease model accuracy without much additional computation cost.\n\nThe blur pooling implementation follows from [MosaicML](https://github.com/mosaicml/composer/blob/dev/composer/algorithms/blurpool/blurpool_layers.py).","ref":"Axon.Layers.html#blur_pool/2","title":"Axon.Layers.blur_pool/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#celu/2","title":"Axon.Layers.celu/2","type":"function"},{"doc":"Functional implementation of a general dimensional convolutional\nlayer.\n\nConvolutional layers can be described as applying a convolution\nover an input signal composed of several input planes. Intuitively,\nthe input kernel slides `output_channels` number of filters over\nthe input tensor to extract features from the input tensor.\n\nConvolutional layers are most commonly used in computer vision,\nbut can also be useful when working with sequences and other input signals.","ref":"Axon.Layers.html#conv/4","title":"Axon.Layers.conv/4","type":"function"},{"doc":"* `input` - `{batch_size, input_channels, input_spatial0, ..., input_spatialN}`\n  * `kernel` - `{output_channels, input_channels, kernel_spatial0, ..., kernel_spatialN}`\n  * `bias` - `{}` or `{output_channels}`","ref":"Axon.Layers.html#conv/4-parameter-shapes","title":"Parameter Shapes - Axon.Layers.conv/4","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#conv/4-options","title":"Options - Axon.Layers.conv/4","type":"function"},{"doc":"#","ref":"Axon.Layers.html#conv/4-examples","title":"Examples - Axon.Layers.conv/4","type":"function"},{"doc":"iex> input = Nx.tensor([[[0.1294, -0.6638, 1.0251]], [[ 0.9182,  1.1512, -1.6149]]], type: {:f, 32})\n    iex> kernel = Nx.tensor([[[-1.5475, 1.2425]], [[0.1871, 0.5458]], [[-0.4488,  0.8879]]], type: {:f, 32})\n    iex> bias = Nx.tensor([0.7791, 0.1676, 1.5971], type: {:f, 32})\n    iex> Axon.Layers.conv(input, kernel, bias, channels: :first)\n    #Nx.Tensor \n\n#","ref":"Axon.Layers.html#conv/4-one-dimensional-convolution","title":"One-dimensional convolution - Axon.Layers.conv/4","type":"function"},{"doc":"iex> input = Nx.tensor([[[[-1.0476, -0.5041], [-0.9336, 1.5907]]]], type: {:f, 32})\n    iex> kernel = Nx.tensor([\n    ...>  [[[0.7514, 0.7356], [1.3909,  0.6800]]],\n    ...>  [[[-0.3450,  0.4551], [-0.6275, -0.9875]]],\n    ...>  [[[1.8587, 0.4722], [0.6058, -1.0301]]]\n    ...> ], type: {:f, 32})\n    iex> bias = Nx.tensor([1.9564, 0.2822, -0.5385], type: {:f, 32})\n    iex> Axon.Layers.conv(input, kernel, bias, channels: :first)\n    #Nx.Tensor \n\n#","ref":"Axon.Layers.html#conv/4-two-dimensional-convolution","title":"Two-dimensional convolution - Axon.Layers.conv/4","type":"function"},{"doc":"iex> input = Nx.tensor([[[[[-0.6497], [1.0939]], [[-2.5465], [0.7801]]]]], type: {:f, 32})\n    iex> kernel = Nx.tensor([\n    ...>  [[[[ 0.7390], [-0.0927]], [[-0.8675], [-0.9209]]]],\n    ...>  [[[[-0.6638], [0.4341]], [[0.6368], [1.1846]]]]\n    ...> ], type: {:f, 32})\n    iex> bias = Nx.tensor([-0.4101,  0.1776], type: {:f, 32})\n    iex> Axon.Layers.conv(input, kernel, bias, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#conv/4-three-dimensional-convolution","title":"Three-dimensional convolution - Axon.Layers.conv/4","type":"function"},{"doc":"","ref":"Axon.Layers.html#conv_lstm/7","title":"Axon.Layers.conv_lstm/7","type":"function"},{"doc":"ConvLSTM Cell.\n\nWhen combined with `Axon.Layers.*_unroll`, implements a\nConvLSTM-based RNN. More memory efficient than traditional LSTM.","ref":"Axon.Layers.html#conv_lstm_cell/7","title":"Axon.Layers.conv_lstm_cell/7","type":"function"},{"doc":"* `:strides` - convolution strides. Defaults to `1`.\n\n  * `:padding` - convolution padding. Defaults to `:same`.","ref":"Axon.Layers.html#conv_lstm_cell/7-options","title":"Options - Axon.Layers.conv_lstm_cell/7","type":"function"},{"doc":"* [Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting](https://arxiv.org/abs/1506.04214)","ref":"Axon.Layers.html#conv_lstm_cell/7-references","title":"References - Axon.Layers.conv_lstm_cell/7","type":"function"},{"doc":"Functional implementation of a general dimensional transposed\nconvolutional layer.\n\n*Note: This layer is currently implemented as a fractionally strided\nconvolution by padding the input tensor. Please open an issue if you'd\nlike this behavior changed.*\n\nTransposed convolutions are sometimes (incorrectly) referred to as\ndeconvolutions because it \"reverses\" the spatial dimensions\nof a normal convolution. Transposed convolutions are a form of upsampling -\nthey produce larger spatial dimensions than the input tensor. They\ncan be thought of as a convolution in reverse - and are sometimes\nimplemented as the backward pass of a normal convolution.","ref":"Axon.Layers.html#conv_transpose/4","title":"Axon.Layers.conv_transpose/4","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#conv_transpose/4-options","title":"Options - Axon.Layers.conv_transpose/4","type":"function"},{"doc":"iex> input = Nx.iota({1, 3, 3}, type: {:f, 32})\n    iex> kernel = Nx.iota({6, 3, 2}, type: {:f, 32})\n    iex> bias = Nx.tensor(1.0, type: {:f, 32})\n    iex> Axon.Layers.conv_transpose(input, kernel, bias, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#conv_transpose/4-examples","title":"Examples - Axon.Layers.conv_transpose/4","type":"function"},{"doc":"* [A guide to convolution arithmetic for deep learning](https://arxiv.org/abs/1603.07285v1)\n  * [Deconvolutional Networks](https://www.matthewzeiler.com/mattzeiler/deconvolutionalnetworks.pdf)","ref":"Axon.Layers.html#conv_transpose/4-references","title":"References - Axon.Layers.conv_transpose/4","type":"function"},{"doc":"Functional implementation of a dense layer.\n\nLinear transformation of the input such that:\n\n$$y = xW^T + b$$\n\nA dense layer or fully connected layer transforms\nthe input using the given kernel matrix and bias\nto compute:\n\n    Nx.dot(input, kernel) + bias\n\nTypically, both `kernel` and `bias` are learnable\nparameters trained using gradient-based optimization.","ref":"Axon.Layers.html#dense/4","title":"Axon.Layers.dense/4","type":"function"},{"doc":"* `input` - `{batch_size, * input_features}`\n  * `kernel` - `{input_features, output_features}`\n  * `bias` - `{}` or `{output_features}`","ref":"Axon.Layers.html#dense/4-parameter-shapes","title":"Parameter Shapes - Axon.Layers.dense/4","type":"function"},{"doc":"`{batch_size, *, output_features}`","ref":"Axon.Layers.html#dense/4-output-shape","title":"Output Shape - Axon.Layers.dense/4","type":"function"},{"doc":"iex> input = Nx.tensor([[1.0, 0.5, 1.0, 0.5], [0.0, 0.0, 0.0, 0.0]], type: {:f, 32})\n    iex> kernel = Nx.tensor([[0.2], [0.3], [0.5], [0.8]], type: {:f, 32})\n    iex> bias = Nx.tensor([1.0], type: {:f, 32})\n    iex> Axon.Layers.dense(input, kernel, bias)\n    #Nx.Tensor","ref":"Axon.Layers.html#dense/4-examples","title":"Examples - Axon.Layers.dense/4","type":"function"},{"doc":"Functional implementation of a general dimensional depthwise\nconvolution.\n\nDepthwise convolutions apply a single convolutional filter to\neach input channel. This is done by setting `feature_group_size`\nequal to the number of input channels. This will split the\n`output_channels` into `input_channels` number of groups and\nconvolve the grouped kernel channels over the corresponding input\nchannel.","ref":"Axon.Layers.html#depthwise_conv/4","title":"Axon.Layers.depthwise_conv/4","type":"function"},{"doc":"* `input` - `{batch_size, input_channels, input_spatial0, ..., input_spatialN}`\n  * `kernel` - `{output_channels, 1, kernel_spatial0, ..., kernel_spatialN}`\n  * `bias` - `{output_channels}` or `{}`\n\n  `output_channels` must be a multiple of the input channels.","ref":"Axon.Layers.html#depthwise_conv/4-parameter-shapes","title":"Parameter Shapes - Axon.Layers.depthwise_conv/4","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#depthwise_conv/4-options","title":"Options - Axon.Layers.depthwise_conv/4","type":"function"},{"doc":"Functional implementation of a dropout layer.\n\nApplies a mask to some elements of the input tensor with probability\n`rate` and scales the input tensor by a factor of $\\frac{1}{1 - rate}$.\n\nDropout is a form of regularization that helps prevent overfitting\nby preventing models from becoming too reliant on certain connections.\nDropout can somewhat be thought of as learning an ensemble of models\nwith random connections masked.","ref":"Axon.Layers.html#dropout/3","title":"Axon.Layers.dropout/3","type":"function"},{"doc":"* `:rate` - dropout rate. Used to determine probability a connection\n    will be dropped. Required.\n\n  * `:noise_shape` - input noise shape. Shape of `mask` which can be useful\n    for broadcasting `mask` across feature channels or other dimensions.\n    Defaults to shape of input tensor.","ref":"Axon.Layers.html#dropout/3-options","title":"Options - Axon.Layers.dropout/3","type":"function"},{"doc":"* [Dropout: A Simple Way to Prevent Neural Networks from Overfitting](https://jmlr.org/papers/v15/srivastava14a.html)","ref":"Axon.Layers.html#dropout/3-references","title":"References - Axon.Layers.dropout/3","type":"function"},{"doc":"Dynamically unrolls an RNN.\n\nUnrolls implement a `scan` operation which applies a\ntransformation on the leading axis of `input_sequence` carrying\nsome state. In this instance `cell_fn` is an RNN cell function\nsuch as `lstm_cell` or `gru_cell`.\n\nThis function will make use of an `defn` while-loop such and thus\nmay be more efficient for long sequences.","ref":"Axon.Layers.html#dynamic_unroll/7","title":"Axon.Layers.dynamic_unroll/7","type":"function"},{"doc":"","ref":"Axon.Layers.html#elu/2","title":"Axon.Layers.elu/2","type":"function"},{"doc":"Computes embedding by treating kernel matrix as a lookup table\nfor discrete tokens.\n\n`input` is a vector of discrete values, typically representing tokens\n(e.g. words, characters, etc.) from a vocabulary. `kernel` is a kernel\nmatrix of shape `{vocab_size, embedding_size}` from which the dense\nembeddings will be drawn.","ref":"Axon.Layers.html#embedding/3","title":"Axon.Layers.embedding/3","type":"function"},{"doc":"* `input` - `{batch_size, ..., seq_len}`\n  * `kernel` - `{vocab_size, embedding_size}`","ref":"Axon.Layers.html#embedding/3-parameter-shapes","title":"Parameter Shapes - Axon.Layers.embedding/3","type":"function"},{"doc":"iex> input = Nx.tensor([[1, 2, 4, 5], [4, 3, 2, 9]])\n    iex> kernels = Nx.tensor([\n    ...>  [0.46299999952316284, 0.5562999844551086, 0.18170000612735748],\n    ...>  [0.9801999926567078, 0.09780000150203705, 0.5333999991416931],\n    ...>  [0.6980000138282776, 0.9240999817848206, 0.23479999601840973],\n    ...>  [0.31929999589920044, 0.42250001430511475, 0.7865999937057495],\n    ...>  [0.5519000291824341, 0.5662999749183655, 0.20559999346733093],\n    ...>  [0.1898999959230423, 0.9311000108718872, 0.8356000185012817],\n    ...>  [0.6383000016212463, 0.8794000148773193, 0.5282999873161316],\n    ...>  [0.9523000121116638, 0.7597000002861023, 0.08250000327825546],\n    ...>  [0.6622999906539917, 0.02329999953508377, 0.8205999732017517],\n    ...>  [0.9855999946594238, 0.36419999599456787, 0.5372999906539917]\n    ...> ])\n    iex> Axon.Layers.embedding(input, kernels)\n    #Nx.Tensor","ref":"Axon.Layers.html#embedding/3-examples","title":"Examples - Axon.Layers.embedding/3","type":"function"},{"doc":"Functional implementation of a feature alpha dropout layer.\n\nFeature alpha dropout applies dropout in the same manner as\nspatial dropout; however, it also enforces self-normalization\nby masking inputs with the SELU activation function and scaling\nunmasked inputs.","ref":"Axon.Layers.html#feature_alpha_dropout/3","title":"Axon.Layers.feature_alpha_dropout/3","type":"function"},{"doc":"* `:rate` - dropout rate. Used to determine probability a connection\n    will be dropped. Required.\n\n  * `:noise_shape` - input noise shape. Shape of `mask` which can be useful\n    for broadcasting `mask` across feature channels or other dimensions.\n    Defaults to shape of input tensor.","ref":"Axon.Layers.html#feature_alpha_dropout/3-options","title":"Options - Axon.Layers.feature_alpha_dropout/3","type":"function"},{"doc":"Flattens input to shape of `{batch, units}` by folding outer\ndimensions.","ref":"Axon.Layers.html#flatten/2","title":"Axon.Layers.flatten/2","type":"function"},{"doc":"iex> Axon.Layers.flatten(Nx.iota({1, 2, 2}, type: {:f, 32}))\n    #Nx.Tensor","ref":"Axon.Layers.html#flatten/2-examples","title":"Examples - Axon.Layers.flatten/2","type":"function"},{"doc":"Functional implementation of global average pooling which averages across\nthe spatial dimensions of the input such that the only remaining dimensions\nare the batch and feature dimensions.\n\nAssumes data is configured in a channels-first like format.","ref":"Axon.Layers.html#global_avg_pool/2","title":"Axon.Layers.global_avg_pool/2","type":"function"},{"doc":"* `input` - {batch_size, features, s1, ..., sN}","ref":"Axon.Layers.html#global_avg_pool/2-parameter-shapes","title":"Parameter Shapes - Axon.Layers.global_avg_pool/2","type":"function"},{"doc":"* `:keep_axes` - option to keep reduced axes with size 1 for each reduced\n    dimensions. Defaults to `false`","ref":"Axon.Layers.html#global_avg_pool/2-options","title":"Options - Axon.Layers.global_avg_pool/2","type":"function"},{"doc":"iex> Axon.Layers.global_avg_pool(Nx.iota({3, 2, 3}, type: {:f, 32}), channels: :first)\n    #Nx.Tensor \n\n    iex> Axon.Layers.global_avg_pool(Nx.iota({1, 3, 2, 2}, type: {:f, 32}), channels: :first, keep_axes: true)\n    #Nx.Tensor","ref":"Axon.Layers.html#global_avg_pool/2-examples","title":"Examples - Axon.Layers.global_avg_pool/2","type":"function"},{"doc":"Functional implementation of global LP pooling which computes the following\nfunction across spatial dimensions of the input:\n\n  $$f(X) =  qrt[p]{ um_{x in X} x^{p}}$$\n\nWhere $p$ is given by the keyword argument `:norm`. As $p$ approaches\ninfinity, it becomes equivalent to max pooling.\n\nAssumes data is configured in a channels-first like format.","ref":"Axon.Layers.html#global_lp_pool/2","title":"Axon.Layers.global_lp_pool/2","type":"function"},{"doc":"* `input` - {batch_size, s1, ..., sN, features}","ref":"Axon.Layers.html#global_lp_pool/2-parameter-shapes","title":"Parameter Shapes - Axon.Layers.global_lp_pool/2","type":"function"},{"doc":"* `:keep_axes` - option to keep reduced axes with size 1 for each reduced\n    dimensions. Defaults to `false`\n  * `:norm` - $p$ in above function. Defaults to 2","ref":"Axon.Layers.html#global_lp_pool/2-options","title":"Options - Axon.Layers.global_lp_pool/2","type":"function"},{"doc":"iex> Axon.Layers.global_lp_pool(Nx.iota({3, 2, 3}, type: {:f, 32}), norm: 1, channels: :first)\n    #Nx.Tensor \n\n    iex> Axon.Layers.global_lp_pool(Nx.iota({1, 3, 2, 2}, type: {:f, 16}), keep_axes: true, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#global_lp_pool/2-examples","title":"Examples - Axon.Layers.global_lp_pool/2","type":"function"},{"doc":"Functional implementation of global max pooling which computes maximums across\nthe spatial dimensions of the input such that the only remaining dimensions are\nthe batch and feature dimensions.\n\nAssumes data is configured in a channels-first like format.","ref":"Axon.Layers.html#global_max_pool/2","title":"Axon.Layers.global_max_pool/2","type":"function"},{"doc":"* `input` - {batch_size, s1, ..., sN, features}","ref":"Axon.Layers.html#global_max_pool/2-parameter-shapes","title":"Parameter Shapes - Axon.Layers.global_max_pool/2","type":"function"},{"doc":"* `:keep_axes` - option to keep reduced axes with size 1 for each reduced\n    dimensions. Defaults to `false`","ref":"Axon.Layers.html#global_max_pool/2-options","title":"Options - Axon.Layers.global_max_pool/2","type":"function"},{"doc":"iex> Axon.Layers.global_max_pool(Nx.iota({3, 2, 3}, type: {:f, 32}), channels: :first)\n    #Nx.Tensor \n\n    iex> Axon.Layers.global_max_pool(Nx.iota({1, 3, 2, 2}, type: {:f, 32}), keep_axes: true, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#global_max_pool/2-examples","title":"Examples - Axon.Layers.global_max_pool/2","type":"function"},{"doc":"Functional implementation of group normalization.\n\nNormalizes the input by reshaping input into `:num_groups`\ngroups and then calculating the mean and variance along\nevery dimension but the input batch dimension.\n\n$$y = \\frac{x - E[x]}{\\sqrt{Var[x] + \\epsilon}} * \\gamma + \\beta$$\n\n`gamma` and `beta` are often trainable parameters. This method does\nnot maintain an EMA of mean and variance.","ref":"Axon.Layers.html#group_norm/4","title":"Axon.Layers.group_norm/4","type":"function"},{"doc":"* `:num_groups` - Number of groups.\n\n  * `:epsilon` - numerical stability term. $epsilon$ in the above\n    formulation.\n\n  * `:channel_index` - channel index used to determine reduction\n    axes and group shape for mean and variance calculation.","ref":"Axon.Layers.html#group_norm/4-options","title":"Options - Axon.Layers.group_norm/4","type":"function"},{"doc":"* [Group Normalization](https://arxiv.org/abs/1803.08494v3)","ref":"Axon.Layers.html#group_norm/4-references","title":"References - Axon.Layers.group_norm/4","type":"function"},{"doc":"","ref":"Axon.Layers.html#gru/7","title":"Axon.Layers.gru/7","type":"function"},{"doc":"GRU Cell.\n\nWhen combined with `Axon.Layers.*_unroll`, implements a\nGRU-based RNN. More memory efficient than traditional LSTM.","ref":"Axon.Layers.html#gru_cell/8","title":"Axon.Layers.gru_cell/8","type":"function"},{"doc":"* [Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling](https://arxiv.org/pdf/1412.3555v1.pdf)","ref":"Axon.Layers.html#gru_cell/8-references","title":"References - Axon.Layers.gru_cell/8","type":"function"},{"doc":"","ref":"Axon.Layers.html#hard_sigmoid/2","title":"Axon.Layers.hard_sigmoid/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#hard_silu/2","title":"Axon.Layers.hard_silu/2","type":"function"},{"doc":"Functional implementation of instance normalization.\n\nNormalizes the input by calculating mean and variance of the\ninput tensor along the spatial dimensions of the input.\n\n$$y = \\frac{x - E[x]}{\\sqrt{Var[x] + \\epsilon}} * \\gamma + \\beta$$\n\n`gamma` and `beta` are often trainable parameters. If `training?` is\ntrue, this method will compute a new mean and variance, and return\nthe updated `ra_mean` and `ra_var`. Otherwise, it will just compute\nbatch norm from the given ra_mean and ra_var.","ref":"Axon.Layers.html#instance_norm/6","title":"Axon.Layers.instance_norm/6","type":"function"},{"doc":"* `:epsilon` - numerical stability term. $epsilon$ in the above\n    formulation.\n\n  * `:channel_index` - channel index used to determine reduction\n    axes for mean and variance calculation.\n\n  * `:momentum` - momentum to use for EMA update.\n\n  * `:training?` - if true, uses training mode batch norm. Defaults to false.","ref":"Axon.Layers.html#instance_norm/6-options","title":"Options - Axon.Layers.instance_norm/6","type":"function"},{"doc":"* [Instance Normalization: The Missing Ingredient for Fast Stylization](https://arxiv.org/abs/1607.08022v3)","ref":"Axon.Layers.html#instance_norm/6-references","title":"References - Axon.Layers.instance_norm/6","type":"function"},{"doc":"Functional implementation of layer normalization.\n\nNormalizes the input by calculating mean and variance of the\ninput tensor along the given feature dimension `:channel_index`.\n\n$$y = \\frac{x - E[x]}{\\sqrt{Var[x] + \\epsilon}} * \\gamma + \\beta$$\n\n`gamma` and `beta` are often trainable parameters. This method does\nnot maintain an EMA of mean and variance.","ref":"Axon.Layers.html#layer_norm/4","title":"Axon.Layers.layer_norm/4","type":"function"},{"doc":"* `:epsilon` - numerical stability term. $epsilon$ in the above\n    formulation.\n\n  * `:channel_index` - channel index used to determine reduction\n    axes for mean and variance calculation.","ref":"Axon.Layers.html#layer_norm/4-options","title":"Options - Axon.Layers.layer_norm/4","type":"function"},{"doc":"","ref":"Axon.Layers.html#leaky_relu/2","title":"Axon.Layers.leaky_relu/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#log_softmax/2","title":"Axon.Layers.log_softmax/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#log_sumexp/2","title":"Axon.Layers.log_sumexp/2","type":"function"},{"doc":"Functional implementation of a general dimensional power average\npooling layer.\n\nPooling is applied to the spatial dimension of the input tensor.\nPower average pooling computes the following function on each\nvalid window of the input tensor:\n\n$$f(X) = \\sqrt[p]{\\sum_{x \\in X} x^{p}}$$\n\nWhere $p$ is given by the keyword argument `:norm`. As $p$ approaches\ninfinity, it becomes equivalent to max pooling.","ref":"Axon.Layers.html#lp_pool/2","title":"Axon.Layers.lp_pool/2","type":"function"},{"doc":"* `:norm` - $p$ from above equation. Defaults to 2.\n\n  * `:kernel_size` - window size. Rank must match spatial dimension\n    of the input tensor. Required.\n\n  * `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to size of kernel.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:window_dilations` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Can be scalar or list who's length matches the number of\n    spatial dimensions in the input tensor. Defaults to `1` or no\n    dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#lp_pool/2-options","title":"Options - Axon.Layers.lp_pool/2","type":"function"},{"doc":"iex> t = Nx.tensor([[[0.9450, 0.4684, 1.8146], [1.2663, 0.4354, -0.0781], [-0.4759, 0.3251, 0.8742]]], type: {:f, 32})\n    iex> Axon.Layers.lp_pool(t, kernel_size: 2, norm: 2, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#lp_pool/2-examples","title":"Examples - Axon.Layers.lp_pool/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#lstm/7","title":"Axon.Layers.lstm/7","type":"function"},{"doc":"LSTM Cell.\n\nWhen combined with `Axon.Layers.*_unroll`, implements a\nLSTM-based RNN. More memory efficient than traditional LSTM.","ref":"Axon.Layers.html#lstm_cell/8","title":"Axon.Layers.lstm_cell/8","type":"function"},{"doc":"* [Long Short-Term Memory](http://www.bioinf.jku.at/publications/older/2604.pdf)","ref":"Axon.Layers.html#lstm_cell/8-references","title":"References - Axon.Layers.lstm_cell/8","type":"function"},{"doc":"Functional implementation of a general dimensional max pooling layer.\n\nPooling is applied to the spatial dimension of the input tensor.\nMax pooling returns the maximum element in each valid window of\nthe input tensor. It is often used after convolutional layers\nto downsample the input even further.","ref":"Axon.Layers.html#max_pool/2","title":"Axon.Layers.max_pool/2","type":"function"},{"doc":"* `kernel_size` - window size. Rank must match spatial dimension\n    of the input tensor. Required.\n\n  * `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to size of kernel.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:window_dilations` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Can be scalar or list who's length matches the number of\n    spatial dimensions in the input tensor. Defaults to `1` or no\n    dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#max_pool/2-options","title":"Options - Axon.Layers.max_pool/2","type":"function"},{"doc":"iex> t = Nx.tensor([[\n    ...> [0.051500000059604645, -0.7042999863624573, -0.32899999618530273],\n    ...> [-0.37130001187324524, 1.6191999912261963, -0.11829999834299088],\n    ...> [0.7099999785423279, 0.7282999753952026, -0.18639999628067017]]], type: {:f, 32})\n    iex> Axon.Layers.max_pool(t, kernel_size: 2, channels: :first)\n    #Nx.Tensor","ref":"Axon.Layers.html#max_pool/2-examples","title":"Examples - Axon.Layers.max_pool/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#multiply/2","title":"Axon.Layers.multiply/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#padding_config_transform/2","title":"Axon.Layers.padding_config_transform/2","type":"function"},{"doc":"Resizes a batch of tensors to the given shape using one of a\nnumber of sampling methods.\n\nRequires input option `:size` which should be a tuple specifying\nthe resized spatial dimensions of the input tensor. Input tensor\nmust be at least rank 3, with fixed `batch` and `channel` dimensions.\nResizing will upsample or downsample using the given resize method.","ref":"Axon.Layers.html#resize/2","title":"Axon.Layers.resize/2","type":"function"},{"doc":"* `:size` - a tuple specifying the resized spatial dimensions.\n    Required.\n\n  * `:method` - the resizing method to use, either of `:nearest`,\n    `:bilinear`, `:bicubic`, `:lanczos3`, `:lanczos5`. Defaults to\n    `:nearest`.\n\n  * `:antialias` - whether an anti-aliasing filter should be used\n    when downsampling. This has no effect with upsampling. Defaults\n    to `true`.\n\n  * `:channels` - channels location, either `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#resize/2-options","title":"Options - Axon.Layers.resize/2","type":"function"},{"doc":"iex> img = Nx.iota({1, 1, 3, 3}, type: {:f, 32})\n    iex> Axon.Layers.resize(img, size: {4, 4}, channels: :first)\n    #Nx.Tensor \n\n#","ref":"Axon.Layers.html#resize/2-examples","title":"Examples - Axon.Layers.resize/2","type":"function"},{"doc":"iex> img = Nx.iota({1, 1, 3, 3}, type: {:f, 32})\n    iex> Axon.Layers.resize(img, size: {4, 4}, method: :foo)\n    ** (ArgumentError) expected :method to be either of :nearest, :bilinear, :bicubic, :lanczos3, :lanczos5, got: :foo","ref":"Axon.Layers.html#resize/2-error-cases","title":"Error cases - Axon.Layers.resize/2","type":"function"},{"doc":"","ref":"Axon.Layers.html#selu/2","title":"Axon.Layers.selu/2","type":"function"},{"doc":"Functional implementation of a 2-dimensional separable depthwise\nconvolution.\n\nThe 2-d depthwise separable convolution performs 2 depthwise convolutions\neach over 1 spatial dimension of the input.","ref":"Axon.Layers.html#separable_conv2d/6","title":"Axon.Layers.separable_conv2d/6","type":"function"},{"doc":"* `input` - `{batch_size, input_channels, input_spatial0, ..., input_spatialN}`\n  * `k1` - `{output_channels, 1, kernel_spatial0, 1}`\n  * `b1` - `{output_channels}` or `{}`\n  * `k2` - `{output_channels, 1, 1, kernel_spatial1}`\n  * `b2` - `{output_channels}` or `{}`\n\n  `output_channels` must be a multiple of the input channels.","ref":"Axon.Layers.html#separable_conv2d/6-parameter-shapes","title":"Parameter Shapes - Axon.Layers.separable_conv2d/6","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#separable_conv2d/6-options","title":"Options - Axon.Layers.separable_conv2d/6","type":"function"},{"doc":"* [Xception: Deep Learning with Depthwise Separable Convolutions](https://arxiv.org/abs/1610.02357)","ref":"Axon.Layers.html#separable_conv2d/6-references","title":"References - Axon.Layers.separable_conv2d/6","type":"function"},{"doc":"Functional implementation of a 3-dimensional separable depthwise\nconvolution.\n\nThe 3-d depthwise separable convolution performs 3 depthwise convolutions\neach over 1 spatial dimension of the input.","ref":"Axon.Layers.html#separable_conv3d/8","title":"Axon.Layers.separable_conv3d/8","type":"function"},{"doc":"* `input` - `{batch_size, input_channels, input_spatial0, input_spatial1, input_spatial2}`\n  * `k1` - `{output_channels, 1, kernel_spatial0, 1, 1}`\n  * `b1` - `{output_channels}` or `{}`\n  * `k2` - `{output_channels, 1, 1, kernel_spatial1, 1}`\n  * `b2` - `{output_channels}` or `{}`\n  * `k3` - `{output_channels, 1, 1, 1, 1, kernel_spatial2}`\n  * `b3` - `{output_channels}` or `{}`\n\n  `output_channels` must be a multiple of the input channels.","ref":"Axon.Layers.html#separable_conv3d/8-parameter-shapes","title":"Parameter Shapes - Axon.Layers.separable_conv3d/8","type":"function"},{"doc":"* `:strides` - kernel strides. Can be a scalar or a list\n    who's length matches the number of spatial dimensions in\n    the input tensor. Defaults to 1.\n\n  * `:padding` - zero padding on the input. Can be one of\n    `:valid`, `:same` or a general padding configuration\n    without interior padding for each spatial dimension\n    of the input.\n\n  * `:input_dilation` - input dilation factor. Equivalent\n    to applying interior padding on the input. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:kernel_dilation` - kernel dilation factor. Equivalent\n    to applying interior padding on the kernel. The amount\n    of interior padding applied is given by `kernel_dilation - 1`.\n    Defaults to `1` or no dilation.\n\n  * `:channels ` - channel configuration. One of `:first` or `:last`.\n    Defaults to `:last`.","ref":"Axon.Layers.html#separable_conv3d/8-options","title":"Options - Axon.Layers.separable_conv3d/8","type":"function"},{"doc":"* [Xception: Deep Learning with Depthwise Separable Convolutions](https://arxiv.org/abs/1610.02357)","ref":"Axon.Layers.html#separable_conv3d/8-references","title":"References - Axon.Layers.separable_conv3d/8","type":"function"},{"doc":"","ref":"Axon.Layers.html#softmax/2","title":"Axon.Layers.softmax/2","type":"function"},{"doc":"Functional implementation of an n-dimensional spatial\ndropout layer.\n\nApplies a mask to entire feature maps instead of individual\nelements. This is done by calculating a mask shape equal to\nthe spatial dimensions of the input tensor with 1 channel,\nand then broadcasting the mask across the feature dimension\nof the input tensor.","ref":"Axon.Layers.html#spatial_dropout/3","title":"Axon.Layers.spatial_dropout/3","type":"function"},{"doc":"* `:rate` - dropout rate. Used to determine probability a connection\n    will be dropped. Required.\n\n  * `:noise_shape` - input noise shape. Shape of `mask` which can be useful\n    for broadcasting `mask` across feature channels or other dimensions.\n    Defaults to shape of input tensor.","ref":"Axon.Layers.html#spatial_dropout/3-options","title":"Options - Axon.Layers.spatial_dropout/3","type":"function"},{"doc":"* [Efficient Object Localization Using Convolutional Networks](https://arxiv.org/abs/1411.4280)","ref":"Axon.Layers.html#spatial_dropout/3-references","title":"References - Axon.Layers.spatial_dropout/3","type":"function"},{"doc":"Statically unrolls an RNN.\n\nUnrolls implement a `scan` operation which applies a\ntransformation on the leading axis of `input_sequence` carrying\nsome state. In this instance `cell_fn` is an RNN cell function\nsuch as `lstm_cell` or `gru_cell`.\n\nThis function inlines the unrolling of the sequence such that\nthe entire operation appears as a part of the compilation graph.\nThis makes it suitable for shorter sequences.","ref":"Axon.Layers.html#static_unroll/7","title":"Axon.Layers.static_unroll/7","type":"function"},{"doc":"","ref":"Axon.Layers.html#subtract/2","title":"Axon.Layers.subtract/2","type":"function"},{"doc":"Implementations of loss-scalers for use in mixed precision\ntraining.\n\nLoss scaling is used to prevent underflow when using mixed\nprecision during the model training process. Each loss-scale\nimplementation here returns a 3-tuple of the functions:\n\n    {init_fn, scale_fn, unscale_fn, adjust_fn} = Axon.LossScale.static(Nx.pow(2, 15))\n\nYou can use these to scale/unscale loss and gradients as well\nas adjust the loss scale state.\n\n`Axon.Loop.trainer/3` builds loss-scaling in by default. You\ncan reference the `Axon.Loop.train_step/3` implementation to\nsee how loss-scaling is applied in practice.","ref":"Axon.LossScale.html","title":"Axon.LossScale","type":"module"},{"doc":"Implements dynamic loss-scale.","ref":"Axon.LossScale.html#dynamic/1","title":"Axon.LossScale.dynamic/1","type":"function"},{"doc":"Implements identity loss-scale.","ref":"Axon.LossScale.html#identity/1","title":"Axon.LossScale.identity/1","type":"function"},{"doc":"Implements static loss-scale.","ref":"Axon.LossScale.html#static/1","title":"Axon.LossScale.static/1","type":"function"},{"doc":"Loss functions.\n\nLoss functions evaluate predictions with respect to true\ndata, often to measure the divergence between a model's\nrepresentation of the data-generating distribution and the\ntrue representation of the data-generating distribution.\n\nEach loss function is implemented as an element-wise function\nmeasuring the loss with respect to the input target `y_true`\nand input prediction `y_pred`. As an example, the `mean_squared_error/2`\nloss function produces a tensor whose values are the mean squared\nerror between targets and predictions:\n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred)\n    #Nx.Tensor \n\nIt's common to compute the loss across an entire minibatch.\nYou can easily do so by specifying a `:reduction` mode, or\nby composing one of these with an `Nx` reduction method:\n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\nYou can even compose loss functions:\n\n    defn my_strange_loss(y_true, y_pred) do\n      y_true\n      |> Axon.Losses.mean_squared_error(y_pred)\n      |> Axon.Losses.binary_cross_entropy(y_pred)\n      |> Nx.sum()\n    end\n\nOr, more commonly, you can combine loss functions with penalties for\nregularization:\n\n    defn regularized_loss(params, y_true, y_pred) do\n      loss = Axon.mean_squared_error(y_true, y_pred)\n      penalty = l2_penalty(params)\n      Nx.sum(loss) + penalty\n    end\n\nAll of the functions in this module are implemented as\nnumerical functions and can be JIT or AOT compiled with\nany supported `Nx` compiler.","ref":"Axon.Losses.html","title":"Axon.Losses","type":"module"},{"doc":"Applies label smoothing to the given labels.\n\nLabel smoothing is a regularization technique which shrink targets\ntowards a uniform distribution. Label smoothing can improve model\ngeneralization.","ref":"Axon.Losses.html#apply_label_smoothing/3","title":"Axon.Losses.apply_label_smoothing/3","type":"function"},{"doc":"* `:smoothing` - smoothing factor. Defaults to 0.1","ref":"Axon.Losses.html#apply_label_smoothing/3-options","title":"Options - Axon.Losses.apply_label_smoothing/3","type":"function"},{"doc":"* [Rethinking the Inception Architecture for Computer Vision](https://arxiv.org/abs/1512.00567)","ref":"Axon.Losses.html#apply_label_smoothing/3-references","title":"References - Axon.Losses.apply_label_smoothing/3","type":"function"},{"doc":"Binary cross-entropy loss function.\n\n$$l_i = -\\frac{1}{2}(\\hat{y_i} \\cdot \\log(y_i) + (1 - \\hat{y_i}) \\cdot \\log(1 - y_i))$$\n\nBinary cross-entropy loss is most often used in binary classification problems.\nBy default, it expects `y_pred` to encode probabilities from `[0.0, 1.0]`, typically\nas the output of the sigmoid function or another function which squeezes values\nbetween 0 and 1. You may optionally set `from_logits: true` to specify that values\nare being sent as non-normalized values (e.g. weights with possibly infinite range).\nIn this case, input values will be encoded as probabilities by applying the logistic\nsigmoid function before computing loss.","ref":"Axon.Losses.html#binary_cross_entropy/3","title":"Axon.Losses.binary_cross_entropy/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#binary_cross_entropy/3-argument-shapes","title":"Argument Shapes - Axon.Losses.binary_cross_entropy/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.\n\n  * `:negative_weight` - class weight for `0` class useful for scaling loss\n    by importance of class. Defaults to `1.0`.\n\n  * `:positive_weight` - class weight for `1` class useful for scaling loss\n    by importance of class. Defaults to `1.0`.\n\n  * `:from_logits` - whether `y_pred` is a logits tensor. Defaults to `false`.","ref":"Axon.Losses.html#binary_cross_entropy/3-options","title":"Options - Axon.Losses.binary_cross_entropy/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> y_pred = Nx.tensor([[0.6811, 0.5565], [0.6551, 0.4551], [0.5422, 0.2648]])\n    iex> Axon.Losses.binary_cross_entropy(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> y_pred = Nx.tensor([[0.6811, 0.5565], [0.6551, 0.4551], [0.5422, 0.2648]])\n    iex> Axon.Losses.binary_cross_entropy(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> y_pred = Nx.tensor([[0.6811, 0.5565], [0.6551, 0.4551], [0.5422, 0.2648]])\n    iex> Axon.Losses.binary_cross_entropy(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#binary_cross_entropy/3-examples","title":"Examples - Axon.Losses.binary_cross_entropy/3","type":"function"},{"doc":"Categorical cross-entropy loss function.\n\n$$l_i = -\\sum_i^C \\hat{y_i} \\cdot \\log(y_i)$$\n\nCategorical cross-entropy is typically used for multi-class classification problems.\nBy default, it expects `y_pred` to encode a probability distribution along the last\naxis. You can specify `from_logits: true` to indicate `y_pred` is a logits tensor.\n\n    # Batch size of 3 with 3 target classes\n    y_true = Nx.tensor([0, 2, 1])\n    y_pred = Nx.tensor([[0.2, 0.8, 0.0], [0.1, 0.2, 0.7], [0.1, 0.2, 0.7]])","ref":"Axon.Losses.html#categorical_cross_entropy/3","title":"Axon.Losses.categorical_cross_entropy/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#categorical_cross_entropy/3-argument-shapes","title":"Argument Shapes - Axon.Losses.categorical_cross_entropy/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.\n\n  * `:class_weights` - 1-D list corresponding to weight of each\n    class useful for scaling loss according to importance of class. Tensor\n    size must match number of classes in dataset. Defaults to `1.0` for all\n    classes.\n\n  * `:from_logits` - whether `y_pred` is a logits tensor. Defaults to `false`.\n\n  * `:sparse` - whether `y_true` encodes a \"sparse\" tensor. In this case the\n    inputs are integer values corresponding to the target class. Defaults to\n    `false`.","ref":"Axon.Losses.html#categorical_cross_entropy/3-options","title":"Options - Axon.Losses.categorical_cross_entropy/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0, 1, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05, 0.95, 0], [0.1, 0.8, 0.1]])\n    iex> Axon.Losses.categorical_cross_entropy(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05, 0.95, 0], [0.1, 0.8, 0.1]])\n    iex> Axon.Losses.categorical_cross_entropy(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05, 0.95, 0], [0.1, 0.8, 0.1]])\n    iex> Axon.Losses.categorical_cross_entropy(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([1, 2], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05, 0.95, 0], [0.1, 0.8, 0.1]])\n    iex> Axon.Losses.categorical_cross_entropy(y_true, y_pred, reduction: :sum, sparse: true)\n    #Nx.Tensor","ref":"Axon.Losses.html#categorical_cross_entropy/3-examples","title":"Examples - Axon.Losses.categorical_cross_entropy/3","type":"function"},{"doc":"Categorical hinge loss function.","ref":"Axon.Losses.html#categorical_hinge/3","title":"Axon.Losses.categorical_hinge/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#categorical_hinge/3-argument-shapes","title":"Argument Shapes - Axon.Losses.categorical_hinge/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#categorical_hinge/3-options","title":"Options - Axon.Losses.categorical_hinge/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[1, 0, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05300799, 0.21617081, 0.68642382], [0.3754382 , 0.08494169, 0.13442067]])\n    iex> Axon.Losses.categorical_hinge(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[1, 0, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05300799, 0.21617081, 0.68642382], [0.3754382 , 0.08494169, 0.13442067]])\n    iex> Axon.Losses.categorical_hinge(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[1, 0, 0], [0, 0, 1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.05300799, 0.21617081, 0.68642382], [0.3754382 , 0.08494169, 0.13442067]])\n    iex> Axon.Losses.categorical_hinge(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#categorical_hinge/3-examples","title":"Examples - Axon.Losses.categorical_hinge/3","type":"function"},{"doc":"Connectionist Temporal Classification loss.","ref":"Axon.Losses.html#connectionist_temporal_classification/3","title":"Axon.Losses.connectionist_temporal_classification/3","type":"function"},{"doc":"* `l_true` - $(B)$\n  * `y_true` - $(B, S)$\n  * `y_pred` - $(B, T, D)$","ref":"Axon.Losses.html#connectionist_temporal_classification/3-argument-shapes","title":"Argument Shapes - Axon.Losses.connectionist_temporal_classification/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:sum` or `:none`.\n  Defaults to `:none`.","ref":"Axon.Losses.html#connectionist_temporal_classification/3-options","title":"Options - Axon.Losses.connectionist_temporal_classification/3","type":"function"},{"doc":"`l_true` contains lengths of target sequences. Nonzero positive values.\n  `y_true` contains target sequences. Each value represents a class\n  of element in range of available classes 0 <= y < D. Blank element\n  class is included in this range, but shouldn't be presented among\n  y_true values. Maximum target sequence length should be lower or equal\n  to `y_pred` sequence length: S <= T.\n  `y_pred` - log probabilities of classes D along the\n  prediction sequence T.","ref":"Axon.Losses.html#connectionist_temporal_classification/3-description","title":"Description - Axon.Losses.connectionist_temporal_classification/3","type":"function"},{"doc":"Cosine Similarity error loss function.\n\n$$l_i = \\sum_i (\\hat{y_i} - y_i)^2$$","ref":"Axon.Losses.html#cosine_similarity/3","title":"Axon.Losses.cosine_similarity/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#cosine_similarity/3-argument-shapes","title":"Argument Shapes - Axon.Losses.cosine_similarity/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.\n  * `:axes` - Defaults to `[1]`.\n  * `:eps` - Defaults to `1.0e-6`.","ref":"Axon.Losses.html#cosine_similarity/3-options","title":"Options - Axon.Losses.cosine_similarity/3","type":"function"},{"doc":"iex> y_pred = Nx.tensor([[1.0, 0.0], [1.0, 1.0]])\n    iex> y_true = Nx.tensor([[0.0, 1.0], [1.0, 1.0]])\n    iex> Axon.Losses.cosine_similarity(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Losses.html#cosine_similarity/3-examples","title":"Examples - Axon.Losses.cosine_similarity/3","type":"function"},{"doc":"Hinge loss function.\n\n$$\\frac{1}{C}\\max_i(1 - \\hat{y_i} * y_i, 0)$$","ref":"Axon.Losses.html#hinge/3","title":"Axon.Losses.hinge/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#hinge/3-options","title":"Options - Axon.Losses.hinge/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#hinge/3-argument-shapes","title":"Argument Shapes - Axon.Losses.hinge/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[ 1,  1, -1], [ 1,  1, -1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.45440044, 0.31470688, 0.67920924], [0.24311459, 0.93466766, 0.10914676]])\n    iex> Axon.Losses.hinge(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[ 1,  1, -1], [ 1,  1, -1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.45440044, 0.31470688, 0.67920924], [0.24311459, 0.93466766, 0.10914676]])\n    iex> Axon.Losses.hinge(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[ 1,  1, -1], [ 1,  1, -1]], type: {:s, 8})\n    iex> y_pred = Nx.tensor([[0.45440044, 0.31470688, 0.67920924], [0.24311459, 0.93466766, 0.10914676]])\n    iex> Axon.Losses.hinge(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#hinge/3-examples","title":"Examples - Axon.Losses.hinge/3","type":"function"},{"doc":"Huber loss.","ref":"Axon.Losses.html#huber/3","title":"Axon.Losses.huber/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#huber/3-argument-shapes","title":"Argument Shapes - Axon.Losses.huber/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.\n\n  * `:delta` - the point where the Huber loss function changes from a quadratic to linear.\n    Defaults to `1.0`.","ref":"Axon.Losses.html#huber/3-options","title":"Options - Axon.Losses.huber/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[1], [1.5], [2.0]])\n    iex> y_pred = Nx.tensor([[0.8], [1.8], [2.1]])\n    iex> Axon.Losses.huber(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[1], [1.5], [2.0]])\n    iex> y_pred = Nx.tensor([[0.8], [1.8], [2.1]])\n    iex> Axon.Losses.huber(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor","ref":"Axon.Losses.html#huber/3-examples","title":"Examples - Axon.Losses.huber/3","type":"function"},{"doc":"Kullback-Leibler divergence loss function.\n\n$$l_i = \\sum_i^C \\hat{y_i} \\cdot \\log(\\frac{\\hat{y_i}}{y_i})$$","ref":"Axon.Losses.html#kl_divergence/3","title":"Axon.Losses.kl_divergence/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#kl_divergence/3-argument-shapes","title":"Argument Shapes - Axon.Losses.kl_divergence/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#kl_divergence/3-options","title":"Options - Axon.Losses.kl_divergence/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0, 1], [0, 0]], type: {:u, 8})\n    iex> y_pred = Nx.tensor([[0.6, 0.4], [0.4, 0.6]])\n    iex> Axon.Losses.kl_divergence(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1], [0, 0]], type: {:u, 8})\n    iex> y_pred = Nx.tensor([[0.6, 0.4], [0.4, 0.6]])\n    iex> Axon.Losses.kl_divergence(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0, 1], [0, 0]], type: {:u, 8})\n    iex> y_pred = Nx.tensor([[0.6, 0.4], [0.4, 0.6]])\n    iex> Axon.Losses.kl_divergence(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#kl_divergence/3-examples","title":"Examples - Axon.Losses.kl_divergence/3","type":"function"},{"doc":"Modifies the given loss function to smooth labels prior\nto calculating loss.\n\nSee `apply_label_smoothing/2` for details.","ref":"Axon.Losses.html#label_smoothing/2","title":"Axon.Losses.label_smoothing/2","type":"function"},{"doc":"* `:smoothing` - smoothing factor. Defaults to 0.1","ref":"Axon.Losses.html#label_smoothing/2-options","title":"Options - Axon.Losses.label_smoothing/2","type":"function"},{"doc":"Logarithmic-Hyperbolic Cosine loss function.\n\n$$l_i = \\frac{1}{C} \\sum_i^C (\\hat{y_i} - y_i) + \\log(1 + e^{-2(\\hat{y_i} - y_i)}) - \\log(2)$$","ref":"Axon.Losses.html#log_cosh/3","title":"Axon.Losses.log_cosh/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#log_cosh/3-argument-shapes","title":"Argument Shapes - Axon.Losses.log_cosh/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#log_cosh/3-options","title":"Options - Axon.Losses.log_cosh/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]])\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]])\n    iex> Axon.Losses.log_cosh(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]])\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]])\n    iex> Axon.Losses.log_cosh(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]])\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]])\n    iex> Axon.Losses.log_cosh(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#log_cosh/3-examples","title":"Examples - Axon.Losses.log_cosh/3","type":"function"},{"doc":"Margin ranking loss function.\n\n$$l_i = \\max(0, -\\hat{y_i} * (y^(1)_i - y^(2)_i) + \\alpha)$$","ref":"Axon.Losses.html#margin_ranking/3","title":"Axon.Losses.margin_ranking/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#margin_ranking/3-options","title":"Options - Axon.Losses.margin_ranking/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1.0, 1.0, 1.0], type: {:f, 32})\n    iex> y_pred1 = Nx.tensor([0.6934, -0.7239,  1.1954], type: {:f, 32})\n    iex> y_pred2 = Nx.tensor([-0.4691, 0.2670, -1.7452], type: {:f, 32})\n    iex> Axon.Losses.margin_ranking(y_true, {y_pred1, y_pred2})\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([1.0, 1.0, 1.0], type: {:f, 32})\n    iex> y_pred1 = Nx.tensor([0.6934, -0.7239,  1.1954], type: {:f, 32})\n    iex> y_pred2 = Nx.tensor([-0.4691, 0.2670, -1.7452], type: {:f, 32})\n    iex> Axon.Losses.margin_ranking(y_true, {y_pred1, y_pred2}, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([1.0, 1.0, 1.0], type: {:f, 32})\n    iex> y_pred1 = Nx.tensor([0.6934, -0.7239,  1.1954], type: {:f, 32})\n    iex> y_pred2 = Nx.tensor([-0.4691, 0.2670, -1.7452], type: {:f, 32})\n    iex> Axon.Losses.margin_ranking(y_true, {y_pred1, y_pred2}, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#margin_ranking/3-examples","title":"Examples - Axon.Losses.margin_ranking/3","type":"function"},{"doc":"Mean-absolute error loss function.\n\n$$l_i = \\sum_i |\\hat{y_i} - y_i|$$","ref":"Axon.Losses.html#mean_absolute_error/3","title":"Axon.Losses.mean_absolute_error/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#mean_absolute_error/3-argument-shapes","title":"Argument Shapes - Axon.Losses.mean_absolute_error/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#mean_absolute_error/3-options","title":"Options - Axon.Losses.mean_absolute_error/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_absolute_error(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_absolute_error(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_absolute_error(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#mean_absolute_error/3-examples","title":"Examples - Axon.Losses.mean_absolute_error/3","type":"function"},{"doc":"Mean-squared error loss function.\n\n$$l_i = \\sum_i (\\hat{y_i} - y_i)^2$$","ref":"Axon.Losses.html#mean_squared_error/3","title":"Axon.Losses.mean_squared_error/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#mean_squared_error/3-argument-shapes","title":"Argument Shapes - Axon.Losses.mean_squared_error/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#mean_squared_error/3-options","title":"Options - Axon.Losses.mean_squared_error/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.mean_squared_error(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#mean_squared_error/3-examples","title":"Examples - Axon.Losses.mean_squared_error/3","type":"function"},{"doc":"Poisson loss function.\n\n$$l_i = \\frac{1}{C} \\sum_i^C y_i - (\\hat{y_i} \\cdot \\log(y_i))$$","ref":"Axon.Losses.html#poisson/3","title":"Axon.Losses.poisson/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Losses.html#poisson/3-argument-shapes","title":"Argument Shapes - Axon.Losses.poisson/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#poisson/3-options","title":"Options - Axon.Losses.poisson/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.poisson(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.poisson(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> Axon.Losses.poisson(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#poisson/3-examples","title":"Examples - Axon.Losses.poisson/3","type":"function"},{"doc":"Soft margin loss function.\n\n$$l_i = \\sum_i \\frac{\\log(1 + e^{-\\hat{y_i} * y_i})}{N}$$","ref":"Axon.Losses.html#soft_margin/3","title":"Axon.Losses.soft_margin/3","type":"function"},{"doc":"* `:reduction` - reduction mode. One of `:mean`, `:sum`, or `:none`.\n    Defaults to `:none`.","ref":"Axon.Losses.html#soft_margin/3-options","title":"Options - Axon.Losses.soft_margin/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([[-1.0, 1.0,  1.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[0.2953, -0.1709, 0.9486]], type: {:f, 32})\n    iex> Axon.Losses.soft_margin(y_true, y_pred)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[-1.0, 1.0,  1.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[0.2953, -0.1709, 0.9486]], type: {:f, 32})\n    iex> Axon.Losses.soft_margin(y_true, y_pred, reduction: :mean)\n    #Nx.Tensor \n\n    iex> y_true = Nx.tensor([[-1.0, 1.0,  1.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[0.2953, -0.1709, 0.9486]], type: {:f, 32})\n    iex> Axon.Losses.soft_margin(y_true, y_pred, reduction: :sum)\n    #Nx.Tensor","ref":"Axon.Losses.html#soft_margin/3-examples","title":"Examples - Axon.Losses.soft_margin/3","type":"function"},{"doc":"Metric functions.\n\nMetrics are used to measure the performance and compare\nperformance of models in easy-to-understand terms. Often\ntimes, neural networks use surrogate loss functions such\nas negative log-likelihood to indirectly optimize a certain\nperformance metric. Metrics such as accuracy, also called\nthe 0-1 loss, do not have useful derivatives (e.g. they\nare information sparse), and are often intractable even\nwith low input dimensions.\n\nDespite not being able to train specifically for certain\nmetrics, it's still useful to track these metrics to\nmonitor the performance of a neural network during training.\nMetrics such as accuracy provide useful feedback during\ntraining, whereas loss can sometimes be difficult to interpret.\n  \nYou can attach any of these functions as metrics within the\n`Axon.Loop` API using `Axon.Loop.metric/3`.\n\nAll of the functions in this module are implemented as\nnumerical functions and can be JIT or AOT compiled with\nany supported `Nx` compiler.","ref":"Axon.Metrics.html","title":"Axon.Metrics","type":"module"},{"doc":"Computes the accuracy of the given predictions.\n\nIf the size of the last axis is 1, it performs a binary\naccuracy computation with a threshold of 0.5. Otherwise,\ncomputes categorical accuracy.","ref":"Axon.Metrics.html#accuracy/3","title":"Axon.Metrics.accuracy/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#accuracy/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.accuracy/3","type":"function"},{"doc":"iex> Axon.Metrics.accuracy(Nx.tensor([[1], [0], [0]]), Nx.tensor([[1], [1], [1]]))\n    #Nx.Tensor \n\n    iex> Axon.Metrics.accuracy(Nx.tensor([[0, 1], [1, 0], [1, 0]]), Nx.tensor([[0, 1], [1, 0], [0, 1]]))\n    #Nx.Tensor \n\n    iex> Axon.Metrics.accuracy(Nx.tensor([[0, 1, 0], [1, 0, 0]]), Nx.tensor([[0, 1, 0], [0, 1, 0]]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#accuracy/3-examples","title":"Examples - Axon.Metrics.accuracy/3","type":"function"},{"doc":"","ref":"Axon.Metrics.html#accuracy_transform/4","title":"Axon.Metrics.accuracy_transform/4","type":"function"},{"doc":"Computes the number of false negative predictions with respect\nto given targets.","ref":"Axon.Metrics.html#false_negatives/3","title":"Axon.Metrics.false_negatives/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of predictions.\n    Defaults to `0.5`.","ref":"Axon.Metrics.html#false_negatives/3-options","title":"Options - Axon.Metrics.false_negatives/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1, 0, 1, 1, 0, 1, 0])\n    iex> y_pred = Nx.tensor([0.8, 0.6, 0.4, 0.2, 0.8, 0.2, 0.2])\n    iex> Axon.Metrics.false_negatives(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#false_negatives/3-examples","title":"Examples - Axon.Metrics.false_negatives/3","type":"function"},{"doc":"Computes the number of false positive predictions with respect\nto given targets.","ref":"Axon.Metrics.html#false_positives/3","title":"Axon.Metrics.false_positives/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of predictions.\n    Defaults to `0.5`.","ref":"Axon.Metrics.html#false_positives/3-options","title":"Options - Axon.Metrics.false_positives/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1, 0, 1, 1, 0, 1, 0])\n    iex> y_pred = Nx.tensor([0.8, 0.6, 0.4, 0.2, 0.8, 0.2, 0.2])\n    iex> Axon.Metrics.false_positives(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#false_positives/3-examples","title":"Examples - Axon.Metrics.false_positives/3","type":"function"},{"doc":"Calculates the mean absolute error of predictions\nwith respect to targets.\n\n$$l_i = \\sum_i |\\hat{y_i} - y_i|$$","ref":"Axon.Metrics.html#mean_absolute_error/2","title":"Axon.Metrics.mean_absolute_error/2","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#mean_absolute_error/2-argument-shapes","title":"Argument Shapes - Axon.Metrics.mean_absolute_error/2","type":"function"},{"doc":"iex> y_true = Nx.tensor([[0.0, 1.0], [0.0, 0.0]], type: {:f, 32})\n    iex> y_pred = Nx.tensor([[1.0, 1.0], [1.0, 0.0]], type: {:f, 32})\n    iex> Axon.Metrics.mean_absolute_error(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#mean_absolute_error/2-examples","title":"Examples - Axon.Metrics.mean_absolute_error/2","type":"function"},{"doc":"Computes the precision of the given predictions with\nrespect to the given targets.","ref":"Axon.Metrics.html#precision/3","title":"Axon.Metrics.precision/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#precision/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.precision/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of the predictions.\n    Defaults to `0.5`","ref":"Axon.Metrics.html#precision/3-options","title":"Options - Axon.Metrics.precision/3","type":"function"},{"doc":"iex> Axon.Metrics.precision(Nx.tensor([0, 1, 1, 1]), Nx.tensor([1, 0, 1, 1]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#precision/3-examples","title":"Examples - Axon.Metrics.precision/3","type":"function"},{"doc":"Computes the recall of the given predictions with\nrespect to the given targets.","ref":"Axon.Metrics.html#recall/3","title":"Axon.Metrics.recall/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#recall/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.recall/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of the predictions.\n    Defaults to `0.5`","ref":"Axon.Metrics.html#recall/3-options","title":"Options - Axon.Metrics.recall/3","type":"function"},{"doc":"iex> Axon.Metrics.recall(Nx.tensor([0, 1, 1, 1]), Nx.tensor([1, 0, 1, 1]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#recall/3-examples","title":"Examples - Axon.Metrics.recall/3","type":"function"},{"doc":"Returns a function which computes a running average given current average,\nnew observation, and current iteration.","ref":"Axon.Metrics.html#running_average/1","title":"Axon.Metrics.running_average/1","type":"function"},{"doc":"iex> cur_avg = 0.5\n    iex> iteration = 1\n    iex> y_true = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> y_pred = Nx.tensor([[0, 1], [1, 0], [1, 0]])\n    iex> avg_acc = Axon.Metrics.running_average(&Axon.Metrics.accuracy/2)\n    iex> avg_acc.(cur_avg, [y_true, y_pred], iteration)\n    #Nx.Tensor","ref":"Axon.Metrics.html#running_average/1-examples","title":"Examples - Axon.Metrics.running_average/1","type":"function"},{"doc":"Returns a function which computes a running sum given current sum,\nnew observation, and current iteration.","ref":"Axon.Metrics.html#running_sum/1","title":"Axon.Metrics.running_sum/1","type":"function"},{"doc":"iex> cur_sum = 12\n    iex> iteration = 2\n    iex> y_true = Nx.tensor([0, 1, 0, 1])\n    iex> y_pred = Nx.tensor([1, 1, 0, 1])\n    iex> fps = Axon.Metrics.running_sum(&Axon.Metrics.false_positives/2)\n    iex> fps.(cur_sum, [y_true, y_pred], iteration)\n    #Nx.Tensor","ref":"Axon.Metrics.html#running_sum/1-examples","title":"Examples - Axon.Metrics.running_sum/1","type":"function"},{"doc":"Computes the sensitivity of the given predictions\nwith respect to the given targets.","ref":"Axon.Metrics.html#sensitivity/3","title":"Axon.Metrics.sensitivity/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#sensitivity/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.sensitivity/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of the predictions.\n    Defaults to `0.5`","ref":"Axon.Metrics.html#sensitivity/3-options","title":"Options - Axon.Metrics.sensitivity/3","type":"function"},{"doc":"iex> Axon.Metrics.sensitivity(Nx.tensor([0, 1, 1, 1]), Nx.tensor([1, 0, 1, 1]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#sensitivity/3-examples","title":"Examples - Axon.Metrics.sensitivity/3","type":"function"},{"doc":"Computes the specificity of the given predictions\nwith respect to the given targets.","ref":"Axon.Metrics.html#specificity/3","title":"Axon.Metrics.specificity/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#specificity/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.specificity/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of the predictions.\n    Defaults to `0.5`","ref":"Axon.Metrics.html#specificity/3-options","title":"Options - Axon.Metrics.specificity/3","type":"function"},{"doc":"iex> Axon.Metrics.specificity(Nx.tensor([0, 1, 1, 1]), Nx.tensor([1, 0, 1, 1]))\n    #Nx.Tensor","ref":"Axon.Metrics.html#specificity/3-examples","title":"Examples - Axon.Metrics.specificity/3","type":"function"},{"doc":"Computes the top-k categorical accuracy.","ref":"Axon.Metrics.html#top_k_categorical_accuracy/3","title":"Axon.Metrics.top_k_categorical_accuracy/3","type":"function"},{"doc":"* `k` - The k in \"top-k\". Defaults to 5.\n  * `sparse` - If `y_true` is a sparse tensor. Defaults to `false`.","ref":"Axon.Metrics.html#top_k_categorical_accuracy/3-options","title":"Options - Axon.Metrics.top_k_categorical_accuracy/3","type":"function"},{"doc":"* `y_true` - $(d_0, d_1, ..., d_n)$\n  * `y_pred` - $(d_0, d_1, ..., d_n)$","ref":"Axon.Metrics.html#top_k_categorical_accuracy/3-argument-shapes","title":"Argument Shapes - Axon.Metrics.top_k_categorical_accuracy/3","type":"function"},{"doc":"iex> Axon.Metrics.top_k_categorical_accuracy(Nx.tensor([0, 1, 0, 0, 0]), Nx.tensor([0.1, 0.4, 0.3, 0.7, 0.1]), k: 2)\n    #Nx.Tensor \n\n    iex> Axon.Metrics.top_k_categorical_accuracy(Nx.tensor([[0, 1, 0], [1, 0, 0]]), Nx.tensor([[0.1, 0.4, 0.7], [0.1, 0.4, 0.7]]), k: 2)\n    #Nx.Tensor \n\n    iex> Axon.Metrics.top_k_categorical_accuracy(Nx.tensor([[0], [2]]), Nx.tensor([[0.1, 0.4, 0.7], [0.1, 0.4, 0.7]]), k: 2, sparse: true)\n    #Nx.Tensor","ref":"Axon.Metrics.html#top_k_categorical_accuracy/3-examples","title":"Examples - Axon.Metrics.top_k_categorical_accuracy/3","type":"function"},{"doc":"Computes the number of true negative predictions with respect\nto given targets.","ref":"Axon.Metrics.html#true_negatives/3","title":"Axon.Metrics.true_negatives/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of predictions.\n    Defaults to `0.5`.","ref":"Axon.Metrics.html#true_negatives/3-options","title":"Options - Axon.Metrics.true_negatives/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1, 0, 1, 1, 0, 1, 0])\n    iex> y_pred = Nx.tensor([0.8, 0.6, 0.4, 0.2, 0.8, 0.2, 0.2])\n    iex> Axon.Metrics.true_negatives(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#true_negatives/3-examples","title":"Examples - Axon.Metrics.true_negatives/3","type":"function"},{"doc":"Computes the number of true positive predictions with respect\nto given targets.","ref":"Axon.Metrics.html#true_positives/3","title":"Axon.Metrics.true_positives/3","type":"function"},{"doc":"* `:threshold` - threshold for truth value of predictions.\n    Defaults to `0.5`.","ref":"Axon.Metrics.html#true_positives/3-options","title":"Options - Axon.Metrics.true_positives/3","type":"function"},{"doc":"iex> y_true = Nx.tensor([1, 0, 1, 1, 0, 1, 0])\n    iex> y_pred = Nx.tensor([0.8, 0.6, 0.4, 0.2, 0.8, 0.2, 0.2])\n    iex> Axon.Metrics.true_positives(y_true, y_pred)\n    #Nx.Tensor","ref":"Axon.Metrics.html#true_positives/3-examples","title":"Examples - Axon.Metrics.true_positives/3","type":"function"},{"doc":"Abstraction for modeling a reduction of a dataset with an accumulated\nstate for a number of epochs.\n\nInspired heavily by [PyTorch Ignite](https://pytorch.org/ignite/index.html).\n\nThe main abstraction is the `%Axon.Loop{}` struct, which controls a nested\nreduction of the form:\n\n    Enum.reduce(1..max_epochs, state, fn epoch, state ->\n      Enum.reduce(data, state, &batch_step/2)\n    end)\n\n`data` is assumed to be an `Enumerable` or `Stream` of input data which is\nhandled by a processing function, `batch_step`. The purpose of the loop\nabstraction is to take away much of the boilerplate code used in solving machine\nlearning tasks. Tasks such as normalizing a dataset, hyperparameter optimization,\nor training machine learning models boil down to writing one function:\n\n    defn batch_step(batch, state) do\n      # ...do something with batch...\n      updated_state\n    end\n\nFor tasks such as training a neural network, `state` will encapsulate things\nsuch as model and optimizer state. For supervised learning tasks, `batch_step`\nmight look something like:\n\n    defn batch_step({inputs, targets}, state) do\n      %{parameters: params, optimizer_state: optim_state} = state\n\n      gradients = grad(params, objective_fn.(&1, inputs, targets))\n      {updates, new_optim_state} = optimizer.(optim_state, params, gradients)\n\n      new_params = apply_updates(params, updates)\n\n      %{parameters: new_params, optimizer_state: optim_state}\n    end\n\n`batch_step` takes a batch of `{input, target}` pairs and the current state,\nand updates the model parameters based on the gradients received from some arbitrary\nobjective function. This function will run in a nested loop, iterating over the entire\ndataset for `N` epochs before finally returning the trained model state. By defining\n1 function, we've created a training loop that works for most machine learning models.\n\nIn actuality, the loop abstraction accumulates a struct, `%Axon.Loop.State{}`, which looks\nlike (assuming `container` is a generic Elixir container of tensors, e.g. map, tuple, etc.):\n\n    %Axon.Loop.State{\n      epoch: integer(),\n      max_epoch: integer(),\n      iteration: integer(),\n      max_iteration: integer(),\n      metrics: map(string(), container()),\n      times: map(integer(), integer()),\n      step_state: container()\n    }\n\n`batch_step` takes in the batch and the step state field and returns a `step_state`,\nwhich is a generic container of state accumulated at each iteration. The rest of the fields\nin the state struct are updated automatically behind the scenes.\n\nThe loop must start from some initial step state, thus most tasks must also provide\nan additional initialization function to provide some starting point for the step\nstate. For machine learning tasks, the initialization function will return things like\ninitial model parameters and optimizer state.\n\nTypically, the final output of the loop is the accumulated final state; however, you\nmay optionally apply an output transform to extract specific values at the end of the\nloop. For example, `Axon.Loop.trainer/4` by default extracts trained model state:\n\n    output_transform = fn state ->\n      state.step_state[:model_state]\n    end","ref":"Axon.Loop.html","title":"Axon.Loop","type":"module"},{"doc":"The core of the Axon loop are the init and step functions. The initialization is an\narity-0 function which provides an initial step state:\n\n    init = fn ->\n      %{params: Axon.init(model)}\n    end\n\nWhile the step function is the `batch_step` function mentioned earlier:\n\n    step = fn data, state ->\n      new_state = # ...do something...\n      new_state\n    end\n\nNote that any optimization and training anonymous functions that need to be used in the\n`batch_step` function can be passed as extra arguments. For example:\n\n    step_with_training_arguments = fn data, state, optimizer_update_fn, state_update_fn ->\n      # ...do something...\n    end\n\n    step = &(step_with_training_arguments.(&1, &2, actual_optimizer_update_fn, actual_state_update_fn))","ref":"Axon.Loop.html#module-initialize-and-step","title":"Initialize and Step - Axon.Loop","type":"module"},{"doc":"Often times you want to compute metrics associated with your training iterations.\nTo accomplish this, you can attach metrics to each `Axon.Loop`. Assuming a `batch_step`\nfunction which looks like:\n\n    defn batch_step({inputs, targets}, state) do\n      %{parameters: params, optimizer_state: optim_state} = state\n\n      gradients = grad(params, objective_fn.(&1, inputs, targets))\n      {updates, new_optim_state} = optimizer.(optim_state, params, gradients)\n\n      new_params = apply_updates(params, updates)\n\n      # Shown for simplicity, you can optimize this by calculating preds\n      # along with the gradient calculation\n      preds = model_fn.(params, inputs)\n\n      %{\n        y_true: targets,\n        y_pred: preds,\n        parameters: new_params,\n        optimizer_state: optim_state\n      }\n    end\n\nYou can attach metrics to this by using `Axon.Loop.metric/4`:\n\n    Axon.Loop.loop(&batch_step/2)\n    |> Axon.Loop.metric(\"Accuracy\", :accuracy, fn %{y_true: y_, y_pred: y} -> [y_, y] end)\n    |> Axon.Loop.run(data)\n\nBecause metrics work directly on `step_state`, you typically need to provide an output\ntransform to indicate which values should be passed to your metric function. By default,\nAxon assumes a supervised training task with the fields `:y_true` and `:y_pred` present\nin the step state. See `Axon.Loop.metric/4` for more information.\n\nMetrics will be tracked in the loop state using the user-provided key. Metrics integrate\nseamlessly with the supervised metrics defined in `Axon.Metrics`. You can also use metrics\nto keep running averages of some values in the original dataset.","ref":"Axon.Loop.html#module-metrics","title":"Metrics - Axon.Loop","type":"module"},{"doc":"You can instrument several points in the loop using event handlers. By default, several events\nare fired when running a loop:\n\n    events = [\n      :started,             # After loop state initialization\n      :epoch_started,       # On epoch start\n      :iteration_started,   # On iteration start\n      :iteration_completed, # On iteration complete\n      :epoch_completed,     # On epoch complete\n      :epoch_halted,        # On epoch halt, if early halted\n    ]\n\nYou can attach event handlers to events using `Axon.Loop.handle_event/4`:\n\n    loop\n    |> Axon.Loop.handle_event(:iteration_completed, &log_metrics/1, every: 100)\n    |> Axon.Loop.run(data)\n\nThe above will trigger `log_metrics/1` every 100 times the `:iteration_completed` event\nis fired. Event handlers must return a tuple `{status, state}`, where `status` is an\natom with one of the following values:\n\n    :continue   # Continue epoch, continue looping\n    :halt_epoch # Halt the epoch, continue looping\n    :halt_loop  # Halt looping\n\nAnd `state` is an updated `Axon.Loop.State` struct. Handler functions take as input\nthe current loop state.\n\nIt's important to note that event handlers are triggered in the order they are attached\nto the loop. If you have two handlers on the same event, they will trigger in order:\n\n    loop\n    |> Axon.Loop.handle_event(:epoch_completed, &normalize_state/1) # Runs first\n    |> Axon.Loop.handle_event(:epoch_completed, &log_state/1) # Runs second\n\nYou may provide filters to filter when event handlers trigger. See `Axon.Loop.handle_event/4`\nfor more details on valid filters.","ref":"Axon.Loop.html#module-events-and-handlers","title":"Events and Handlers - Axon.Loop","type":"module"},{"doc":"Axon loops are typically created from one of the factory functions provided in this\nmodule:\n\n  * `Axon.Loop.loop/3` - Creates a loop from step function and optional initialization\n    functions and output transform functions.\n\n  * `Axon.Loop.trainer/3` - Creates a supervised training loop from model, loss, and\n    optimizer.\n\n  * `Axon.Loop.evaluator/1` - Creates a supervised evaluator loop from model.","ref":"Axon.Loop.html#module-factories","title":"Factories - Axon.Loop","type":"module"},{"doc":"In order to execute a loop, you should use `Axon.Loop.run/3`:\n\n    Axon.Loop.run(loop, data, epochs: 10)","ref":"Axon.Loop.html#module-running-loops","title":"Running loops - Axon.Loop","type":"module"},{"doc":"At times you may want to resume a loop from some previous state. You can accomplish this\nwith `Axon.Loop.from_state/2`:\n\n    loop\n    |> Axon.Loop.from_state(state)\n    |> Axon.Loop.run(data)","ref":"Axon.Loop.html#module-resuming-loops","title":"Resuming loops - Axon.Loop","type":"module"},{"doc":"Adds a handler function which saves loop checkpoints on a given\nevent, optionally with metric-based criteria.\n\nBy default, loop checkpoints will be saved at the end of every\nepoch in the current working directory under the `checkpoint/`\npath. Checkpoints are serialized representations of loop state\nobtained from `Axon.Loop.serialize_state/2`. Serialization\noptions will be forwarded to `Axon.Loop.serialize_state/2`.\n\nYou can customize checkpoint events by passing `:event` and `:filter`\noptions:\n\n    loop\n    |> Axon.Loop.checkpoint(event: :iteration_completed, filter: [every: 50])\n\nCheckpoints are saved under the `checkpoint/` directory with a pattern\nof `checkpoint_{epoch}_{iteration}.ckpt`. You can customize the path and pattern\nwith the `:path` and `:file_pattern` options:\n\n    my_file_pattern =\n      fn %Axon.Loop.State{epoch: epoch, iteration: iter} ->\n        \"checkpoint_#{epoch}_#{iter}\"\n      end\n\n    loop\n    |> Axon.Loop.checkpoint(path: \"my_checkpoints\", file_pattern: my_file_pattern)\n\nIf you'd like to only save checkpoints based on some metric criteria,\nyou can specify the `:criteria` option. `:criteria` must be a valid key\nin metrics:\n\n    loop\n    |> Axon.Loop.checkpoint(criteria: \"validation_loss\")\n\nThe default criteria mode is `:min`, meaning the min score metric will\nbe considered \"best\" when deciding to save on a given event. Valid modes\nare `:min` and `:max`:\n\n    loop\n    |> Axon.Loop.checkpoint(criteria: \"validation_accuracy\", mode: :max)","ref":"Axon.Loop.html#checkpoint/2","title":"Axon.Loop.checkpoint/2","type":"function"},{"doc":"* `:event` - event to fire handler on. Defaults to `:epoch_completed`.\n\n  * `:filter` - event filter to attach to handler. Defaults to `:always`.\n\n  * `:patience` - number of given events to wait for improvement. Defaults\n    to `3`.\n\n  * `:mode` - whether given metric is being minimized or maximized. One of\n    `:min`, `:max` or an arity-1 function which returns `true` or `false`.\n    Defaults to `:min`.\n\n  * `:path` - path to directory to save checkpoints. Defaults to `checkpoint`\n\n  * `:file_pattern` - arity-1 function which returns a string file pattern\n    based on the current loop state. Defaults to saving checkpoints to files\n    `checkpoint_#{epoch}_#{iteration}.ckpt`.","ref":"Axon.Loop.html#checkpoint/2-options","title":"Options - Axon.Loop.checkpoint/2","type":"function"},{"doc":"Deserializes loop state from a binary.\n\nIt is the opposite of `Axon.Loop.serialize_state/2`.\n\nBy default, the step state is deserialized using `Nx.deserialize.2`;\nhowever, this behavior can be changed if step state is an application\nspecific container. For example, if you introduce your own data\nstructure into step_state and you customized the serialization logic,\n`Nx.deserialize/2` will not be sufficient for deserialization. - you\nmust pass custom logic with `:deserialize_step_state`.","ref":"Axon.Loop.html#deserialize_state/2","title":"Axon.Loop.deserialize_state/2","type":"function"},{"doc":"Adds a handler function which halts a loop if the given\nmetric does not improve between events.\n\nBy default, this will run after each epoch and track the\nimprovement of a given metric.\n\nYou must specify a metric to monitor and the metric must\nbe present in the loop state. Typically, this will be\na validation metric:\n\n    model\n    |> Axon.Loop.trainer(loss, optim)\n    |> Axon.Loop.metric(:accuracy)\n    |> Axon.Loop.validate(val_data)\n    |> Axon.Loop.early_stop(\"validation_accuracy\")\n\nIt's important to remember that handlers are executed in the\norder they are added to the loop. For example, if you'd like\nto checkpoint a loop after every epoch and use early stopping,\nmost likely you want to add the checkpoint handler before\nthe early stopping handler:\n\n    model\n    |> Axon.Loop.trainer(loss, optim)\n    |> Axon.Loop.metric(:accuracy)\n    |> Axon.Loop.checkpoint()\n    |> Axon.Loop.early_stop(\"accuracy\")\n\nThat will ensure checkpoint is always fired, even if the loop\nexited early.","ref":"Axon.Loop.html#early_stop/3","title":"Axon.Loop.early_stop/3","type":"function"},{"doc":"Creates a supervised evaluation step from a model and model state.\n\nThis function is intended for more fine-grained control over the loop\ncreation process. It returns a tuple of `{init_fn, step_fn}` where\n`init_fn` returns an initial step state and `step_fn` performs a\nsingle evaluation step.","ref":"Axon.Loop.html#eval_step/1","title":"Axon.Loop.eval_step/1","type":"function"},{"doc":"Creates a supervised evaluator from a model.\n\nAn evaluator can be used for things such as testing and validation of models\nafter or during training. It assumes `model` is an Axon struct, container of\nstructs, or a tuple of `init` / `apply` functions. `model_state` must be a\ncontainer usable from within `model`.\n\nThe evaluator returns a step state of the form:\n\n    %{\n      y_true: labels,\n      y_pred: predictions\n    }\n\nSuch that you can attach any number of supervised metrics to the evaluation\nloop:\n\n    model\n    |> Axon.Loop.evaluator()\n    |> Axon.Loop.metric(\"Accuracy\", :accuracy)\n\nYou must pass a compatible trained model state to `Axon.Loop.run/4` when using\nsupervised evaluation loops. For example, if you've binded the result of a training\nrun to `trained_model_state`, you can run the trained model through an evaluation\nrun like this:\n\n    model\n    |> Axon.Loop.evaluator()\n    |> Axon.Loop.run(data, trained_model_state, compiler: EXLA)\n\nThis function applies an output transform which returns the map of metrics accumulated\nover the given loop.","ref":"Axon.Loop.html#evaluator/1","title":"Axon.Loop.evaluator/1","type":"function"},{"doc":"Attaches `state` to the given loop in order to resume looping\nfrom a previous state.\n\nIt's important to note that a loop's attached state takes precedence\nover defined initialization functions. Given initialization function:\n\n    defn init_state(), do: %{foo: 1, bar: 2}\n\nAnd an attached state:\n\n    state = %State{step_state: %{foo: 2, bar: 3}}\n\n`init_state/0` will never execute, and instead the initial step state\nof `%{foo: 2, bar: 3}` will be used.","ref":"Axon.Loop.html#from_state/2","title":"Axon.Loop.from_state/2","type":"function"},{"doc":"Adds a handler function to the loop which will be triggered on `event`\nwith an optional filter.\n\nEvents take place at different points during loop execution. The default\nevents are:\n\n    events = [\n      :started,             # After loop state initialization\n      :epoch_started,       # On epoch start\n      :iteration_started,   # On iteration start\n      :iteration_completed, # On iteration complete\n      :epoch_completed,     # On epoch complete\n      :epoch_halted,        # On epoch halt, if early halted\n    ]\n\nGenerally, event handlers are side-effecting operations which provide some\nsort of inspection into the loop's progress. It's important to note that\nif you define multiple handlers to be triggered on the same event, they\nwill execute in order from when they were attached to the training\nloop:\n\n    loop\n    |> Axon.Loop.handle_event(:epoch_started, &normalize_step_state/1) # executes first\n    |> Axon.Loop.handle_event(:epoch_started, &log_step_state/1) # executes second\n\nThus, if you have separate handlers which alter or depend on loop state,\nyou need to ensure they are ordered correctly, or combined into a single\nevent handler for maximum control over execution.\n\n`event` must be an atom representing the event to trigger `handler` or a\nlist of atoms indicating `handler` should be triggered on multiple events.\n`event` may be `:all` which indicates the handler should be triggered on\nevery event during loop processing.\n\n`handler` must be an arity-1 function which takes as input loop state and\nreturns `{status, state}`, where `status` is an atom with one of the following\nvalues:\n\n    :continue   # Continue epoch, continue looping\n    :halt_epoch # Halt the epoch, continue looping\n    :halt_loop  # Halt looping\n\n`filter` is an atom representing a valid filter predicate, a keyword of\npredicate-value pairs, or a function which takes loop state and returns\na `true`, indicating the handler should run, or `false`, indicating the\nhandler should not run. Valid predicates are:\n\n    :always # Always trigger event\n    :once   # Trigger on first event firing\n\nValid predicate-value pairs are:\n\n    every: N # Trigger every `N` event\n    only: N # Trigger on `N` event\n\n**Warning: If you modify the step state in an event handler, it will trigger\npotentially excessive recompilation and result in significant additional overhead\nduring loop execution.**","ref":"Axon.Loop.html#handle_event/4","title":"Axon.Loop.handle_event/4","type":"function"},{"doc":"Adds a handler function which updates a `Kino.VegaLite` plot.\n\nBy default, this will run after every iteration.\n\nYou must specify a plot to push to and a metric to track. The `:x` axis will be the iteration count, labeled `\"step\"`. The metric must match the name given to the `:y` axis in your `VegaLite` plot:\n\n    plot =\n      Vl.new()\n      |> Vl.mark(:line)\n      |> Vl.encode_field(:x, \"step\", type: :quantitative)\n      |> Vl.encode_field(:y, \"loss\", type: :quantitative)\n      |> Kino.VegaLite.new()\n      |> Kino.render()\n\n    model\n    |> Axon.Loop.trainer(loss, optim)\n    |> Axon.Loop.kino_vega_lite_plot(plot, \"loss\")","ref":"Axon.Loop.html#kino_vega_lite_plot/4","title":"Axon.Loop.kino_vega_lite_plot/4","type":"function"},{"doc":"* `:event` - event to fire handler on. Defaults to `:iteration_completed`.\n\n  * `:filter` - event filter to attach to handler. Defaults to `:always`.","ref":"Axon.Loop.html#kino_vega_lite_plot/4-options","title":"Options - Axon.Loop.kino_vega_lite_plot/4","type":"function"},{"doc":"Adds a handler function which logs the given message produced\nby `message_fn` to the given IO device every `event` satisfying\n`filter`.\n\nIn most cases, this is useful for inspecting the contents of\nthe loop state at intermediate stages. For example, the default\n`trainer` loop factory attaches IO logging of epoch, batch, loss\nand metrics.\n\nIt's also possible to log loop state to files by changing the\ngiven IO device. By default, the IO device is `:stdio`.\n\n`message_fn` should take the loop state and return a binary\nrepresenting the message to be written to the IO device.","ref":"Axon.Loop.html#log/3","title":"Axon.Loop.log/3","type":"function"},{"doc":"Creates a loop from `step_fn`, an optional `init_fn`, and an\noptional `output_transform`.\n\n`step_fn` is an arity-2 function which takes a batch and state\nand returns an updated step state:\n\n    defn batch_step(batch, step_state) do\n      step_state + 1\n    end\n\n`init_fn` by default is an identity function which forwards its\ninitial arguments as the model state. You should define a custom\ninitialization function if you require a different behavior:\n\n    defn init_step_state(state) do\n      Map.merge(%{foo: 1}, state)\n    end\n\nYou may use `state` in conjunction with initialization functions in\n`init_fn`. For example, `train_step/3` uses initial state as initial\nmodel parameters to allow initializing models from partial parameterizations.\n\n`step_batch/2` and `init_step_state/1` are typically called from\nwithin `Nx.Defn.jit/3`. While JIT-compilation will work with anonymous functions,\n`def`, and `defn`, it is recommended that you use the stricter `defn` to define\nboth functions in order to avoid bugs or cryptic errors.\n\n`output_transform/1` applies a transformation on the final accumulated loop state.\nThis is useful for extracting specific fields from a loop and piping them into\nadditional functions.","ref":"Axon.Loop.html#loop/3","title":"Axon.Loop.loop/3","type":"function"},{"doc":"Adds a metric of the given name to the loop.\n\nA metric is a function which tracks or measures some value with respect\nto values in the step state. For example, when training classification\nmodels, it's common to track the model's accuracy during training:\n\n    loop\n    |> Axon.Loop.metric(:accuracy, \"Accuracy\")\n\nBy default, metrics assume a supervised learning task and extract the fields\n`[:y_true, :y_pred]` from the step state. If you wish to work on a different\nvalue, you can use an output transform. An output transform is a list of keys\nto extract from the output state, or a function which returns a flattened list\nof values to pass to the given metric function. Values received from output\ntransforms are passed to the given metric using:\n\n    value = output_transform.(step_state)\n    apply(metric, value)\n\nThus, even if you want your metric to work on a container, your output transform\nmust return a list.\n\n`metric` must be an atom which matches the name of a metric in `Axon.Metrics`, or\nan arbitrary function which returns a tensor or container.\n\n`name` must be a string or atom used to store the computed metric in the loop\nstate. If names conflict, the last attached metric will take precedence:\n\n    loop\n    |> Axon.Loop.metric(:mean_squared_error, \"Error\") # Will be overwritten\n    |> Axon.Loop.metric(:mean_absolute_error, \"Error\") # Will be used\n\nBy default, metrics keep a running average of the metric calculation. You can\noverride this behavior by changing `accumulate`:\n\n    loop\n    |> Axon.Loop.metric(:true_negatives, \"tn\", :running_sum)\n\nAccumulation function can be one of the accumulation combinators in Axon.Metrics\nor an arity-3 function of the form: `accumulate(acc, obs, i) :: new_acc`.","ref":"Axon.Loop.html#metric/5","title":"Axon.Loop.metric/5","type":"function"},{"doc":"Adds a handler function which monitors the given metric\nand fires some action when the given metric meets some\ncriteria.\n\nThis function is a generalization of handlers such as\n`Axon.Loop.reduce_lr_on_plateau/3` and `Axon.Loop.early_stop/3`.\n\nYou must specify a metric to monitor that is present in\nthe state metrics. This handler will then monitor the value\nof the metric at the specified intervals and fire the specified\nfunction if the criteria is met.\n\nYou must also specify a name for the monitor attached to the\ngiven metric. This will be used to store metadata associated\nwith the monitor.\n\nThe common case of monitor is to track improvement of metrics\nand take action if metrics haven't improved after a certain number\nof events. However, you can also set a monitor up to trigger if\na metric hits some criteria (such as a threshold) by passing a\ncustom monitoring mode.","ref":"Axon.Loop.html#monitor/5","title":"Axon.Loop.monitor/5","type":"function"},{"doc":"* `:event` - event to fire handler on. Defaults to `:epoch_completed`.\n\n  * `:filter` - event filter to attach to handler. Defaults to `:always`.\n\n  * `:patience` - number of given events to wait for improvement. Defaults\n    to `3`.\n\n  * `:mode` - whether given metric is being minimized or maximized. One of\n    `:min`, `:max` or an arity-1 function which returns `true` or `false`.\n    Defaults to `:min`.","ref":"Axon.Loop.html#monitor/5-options","title":"Options - Axon.Loop.monitor/5","type":"function"},{"doc":"Adds a handler function which reduces the learning rate by\nthe given factor if the given metric does not improve between\nevents.\n\nBy default, this will run after each epoch and track the\nimprovement of a given metric.\n\nYou must specify a metric to monitor and the metric must\nbe present in the loop state. Typically, this will be\na validation metric:\n\n    model\n    |> Axon.Loop.trainer(loss, optim)\n    |> Axon.Loop.metric(:accuracy)\n    |> Axon.Loop.validate(model, val_data)\n    |> Axon.Loop.reduce_lr_on_plateau(\"accuracy\", mode: :max)","ref":"Axon.Loop.html#reduce_lr_on_plateau/3","title":"Axon.Loop.reduce_lr_on_plateau/3","type":"function"},{"doc":"* `:event` - event to fire handler on. Defaults to `:epoch_completed`.\n\n  * `:filter` - event filter to attach to handler. Defaults to `:always`.\n\n  * `:patience` - number of given events to wait for improvement. Defaults\n    to `3`.\n\n  * `:mode` - whether given metric is being minimized or maximized. Defaults\n    to `:min`.\n\n  * `:factor` - factor to decrease learning rate by. Defaults to `0.1`.","ref":"Axon.Loop.html#reduce_lr_on_plateau/3-options","title":"Options - Axon.Loop.reduce_lr_on_plateau/3","type":"function"},{"doc":"Runs the given loop on data with the given options.\n\n`loop` must be a valid Axon.Loop struct built from one of the\nloop factories provided in this module.\n\n`data` must be an Enumerable or Stream which yields batches of\ndata on each iteration.","ref":"Axon.Loop.html#run/4","title":"Axon.Loop.run/4","type":"function"},{"doc":"* `:epochs` - max epochs to run loop for. Must be non-negative integer.\n    Defaults to `1`.\n\n  * `:iterations` - max iterations to run each epoch. Must be non-negative\n    integer. Defaults to `-1` or no max iterations.\n\n  * `:jit_compile?` - whether or not to JIT compile initialization and step\n    functions. JIT compilation must be used for gradient computations. Defaults\n    to true.\n\n  * `:garbage_collect` - whether or not to garbage collect after\n    each loop iteration. This may prevent OOMs, but it will slow down training.\n\n  * `:strict?` - whether or not to compile step functions strictly. If this flag\n    is set, the loop will raise on any cache miss during the training loop. Defaults\n    to true.\n\n  * `:force_garbage_collect?` - whether or not to force garbage collection after each\n    iteration. This may help avoid OOMs when training large models, but it will slow\n    training down.\n\n  * `:debug` - run loop in debug mode to trace loop progress. Defaults to\n    false.\n\n  Additional options are forwarded to `Nx.Defn.jit` as JIT-options. If no JIT\n  options are set, the default options set with `Nx.Defn.default_options` are\n  used.","ref":"Axon.Loop.html#run/4-options","title":"Options - Axon.Loop.run/4","type":"function"},{"doc":"Serializes loop state to a binary for saving and loading\nloop from previous states.\n\nYou can consider the serialized state to be a checkpoint of\nall state at a given iteration and epoch.\n\nBy default, the step state is serialized using `Nx.serialize/2`;\nhowever, this behavior can be changed if step state is an application\nspecific container. For example, if you introduce your own data\nstructure into step_state, `Nx.serialize/2` will not be sufficient\nfor serialization - you must pass custom serialization as an option\nwith `:serialize_step_state`.\n\nAdditional `opts` controls serialization options such as compression.\nIt is forwarded to `:erlang.term_to_binary/2`.","ref":"Axon.Loop.html#serialize_state/2","title":"Axon.Loop.serialize_state/2","type":"function"},{"doc":"Creates a supervised train step from a model, loss function, and\noptimizer.\n\nThis function is intended for more fine-grained control over the loop\ncreation process. It returns a tuple of `{init_fn, step_fn}` where `init_fn`\nis an initialization function which returns an initial step state and\n`step_fn` is a supervised train step constructed from `model`, `loss`,\nand `optimizer`.\n\n`model` must be an Axon struct, a valid defn container\nof Axon structs, or a `{init_fn, apply_fn}`-tuple where `init_fn` is\nan arity-2 function which initializes the model state and `apply_fn` is\nan arity-2 function which applies the forward pass of the model. The forward\npass of the model must return a map with keys `:prediction` and `:state`\nrepresenting the model's prediction and updated state for layers which\naggregate state during training.\n\n`loss` must be an atom which matches a function in `Axon.Losses`, a list\nof `{loss, weight}` tuples representing a basic weighted loss function\nfor multi-output models, or an arity-2 function representing a custom loss\nfunction.\n\n`optimizer` must be an atom matching the name of a valid optimizer in `Polaris.Optimizers`,\nor a `{init_fn, update_fn}` tuple where `init_fn` is an arity-1 function which\ninitializes the optimizer state from the model parameters and `update_fn` is an\narity-3 function that receives `(gradient, optimizer_state, model_parameters)` and\nscales gradient updates with respect to input parameters, optimizer state, and gradients.\nThe `update_fn` returns `{scaled_updates, optimizer_state}`, which can then be applied to\nthe model through `model_parameters = Axon.Update.apply_updates(model_parameters, scaled_updates)`.\nSee `Polaris.Updates` for more information on building optimizers.","ref":"Axon.Loop.html#train_step/4","title":"Axon.Loop.train_step/4","type":"function"},{"doc":"* `:seed` - seed to use when constructing models. Seed controls random initialization\n    of model parameters. Defaults to no seed which constructs a random seed for you at\n    model build time.\n\n  * `:loss_scale` - type of loss-scaling to use, if any. Loss-scaling is necessary when\n    doing mixed precision training for numerical stability. Defaults to `:identity` or\n    no loss-scaling.\n\n  * `:gradient_accumulation_steps` - number of gradient accumulation steps to take during\n    training. Gradient accumulation decreases the number of updates by accumulating gradients\n    between steps, increasing the effective batch size on smaller devices. Defaults to 1.","ref":"Axon.Loop.html#train_step/4-options","title":"Options - Axon.Loop.train_step/4","type":"function"},{"doc":"Creates a supervised training loop from a model, loss function,\nand optimizer.\n\nThis function is useful for training models on most standard supervised\nlearning tasks. It assumes data consists of tuples of input-target pairs,\ne.g. `[{x0, y0}, {x1, y1}, ..., {xN, yN}]` where `x0` and `y0` are batched\ntensors or containers of batched tensors.\n\nIt defines an initialization function which first initializes model state\nusing the given model and then initializes optimizer state using the initial\nmodel state. The step function uses a differentiable objective function\ndefined with respect to the model parameters, input data, and target data\nusing the given loss function. It then updates model parameters using the\ngiven optimizer in order to minimize loss with respect to the model parameters.\n\n`model` must be an Axon struct, a valid defn container\nof Axon structs, or a `{init_fn, apply_fn}`-tuple where `init_fn` is\nan arity-2 function which initializes the model state and `apply_fn` is\nan arity-2 function which applies the forward pass of the model.\n\n`loss` must be an atom which matches a function in `Axon.Losses`, a list\nof `{loss, weight}` tuples representing a basic weighted loss function\nfor multi-output models, or an arity-2 function representing a custom loss\nfunction.\n\n`optimizer` must be an atom matching the name of a valid optimizer in `Polaris.Optimizers`,\nor a `{init_fn, update_fn}` tuple where `init_fn` is an arity-1 function which\ninitializes the optimizer state from attached parameters and `update_fn` is an\narity-3 function which scales gradient updates with respect to input parameters,\noptimizer state, and gradients. See `Polaris.Updates` for more information on building\noptimizers.\n\nThis function creates a step function which outputs a map consisting of the following\nfields for `step_state`:\n\n    %{\n      y_pred: tensor() | container(tensor()), # Model predictions for use in metrics\n      y_true: tensor() | container(tensor()), # True labels for use in metrics\n      loss: tensor(), # Running average of loss over epoch\n      model_state: container(tensor()), # Model parameters and state\n      optimizer_state: container(tensor()) # Optimizer state associated with each parameter\n    }","ref":"Axon.Loop.html#trainer/4","title":"Axon.Loop.trainer/4","type":"function"},{"doc":"#","ref":"Axon.Loop.html#trainer/4-examples","title":"Examples - Axon.Loop.trainer/4","type":"function"},{"doc":"data = Stream.zip(input, target)\n\n    model = Axon.input(\"input\", shape: {nil, 32}) |> Axon.dense(1, activation: :sigmoid)\n\n    model\n    |> Axon.Loop.trainer(:binary_cross_entropy, :adam)\n    |> Axon.Loop.run(data)\n\n#","ref":"Axon.Loop.html#trainer/4-basic-usage","title":"Basic usage - Axon.Loop.trainer/4","type":"function"},{"doc":"model\n    |> Axon.Loop.trainer(:binary_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.05))\n    |> Axon.Loop.run(data)\n\n#","ref":"Axon.Loop.html#trainer/4-customizing-optimizer","title":"Customizing Optimizer - Axon.Loop.trainer/4","type":"function"},{"doc":"loss_fn = fn y_true, y_pred -> Nx.cos(y_true, y_pred) end\n\n    model\n    |> Axon.Loop.trainer(loss_fn, Polaris.Optimizers.rmsprop(learning_rate: 0.01))\n    |> Axon.Loop.run(data)\n\n#","ref":"Axon.Loop.html#trainer/4-custom-loss","title":"Custom loss - Axon.Loop.trainer/4","type":"function"},{"doc":"model = {Axon.input(\"input_0\", shape: {nil, 1}), Axon.input(\"input_1\", shape: {nil, 2})}\n    loss_weights = [mean_squared_error: 0.5, mean_absolute_error: 0.5]\n\n    model\n    |> Axon.Loop.trainer(loss_weights, :sgd)\n    |> Axon.Loop.run(data)","ref":"Axon.Loop.html#trainer/4-multiple-objectives-with-multi-output-model","title":"Multiple objectives with multi-output model - Axon.Loop.trainer/4","type":"function"},{"doc":"* `:log` - training loss and metric log interval. Set to 0 to silence\n    training logs. Defaults to 50\n\n  * `:seed` - seed to use when constructing models. Seed controls random initialization\n    of model parameters. Defaults to no seed which constructs a random seed for you at\n    model build time.\n\n  * `:loss_scale` - type of loss-scaling to use, if any. Loss-scaling is necessary when\n    doing mixed precision training for numerical stability. Defaults to `:identity` or\n    no loss-scaling.\n\n  * `:gradient_accumulation_steps` - number of gradient accumulation steps to take during\n    training. Gradient accumulation decreases the number of updates by accumulating gradients\n    between steps, increasing the effective batch size on smaller devices. Defaults to 1.","ref":"Axon.Loop.html#trainer/4-options","title":"Options - Axon.Loop.trainer/4","type":"function"},{"doc":"Adds a handler function which tests the performance of `model`\nagainst the given validation set.\n\nThis handler assumes the loop state matches the state initialized\nin a supervised training loop. Typically, you'd call this immediately\nafter creating a supervised training loop:\n\n    model\n    |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n    |> Axon.Loop.validate(model, validation_data)\n\nPlease note that you must pass the same (or an equivalent) model\ninto this method so it can be used during the validation loop. The\nmetrics which are computed are those which are present BEFORE the\nvalidation handler was added to the loop. For the following loop:\n\n    model\n    |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n    |> Axon.Loop.metric(:mean_absolute_error)\n    |> Axon.Loop.validate(model, validation_data)\n    |> Axon.Loop.metric(:binary_cross_entropy)\n\nonly `:mean_absolute_error` will be computed at validation time.\n\nThe returned loop state is altered to contain validation\nmetrics for use in later handlers such as early stopping and model\ncheckpoints. Since the order of execution of event handlers is in\nthe same order they are declared in the training loop, you MUST call\nthis method before any other handler which expects or may use\nvalidation metrics.\n\nBy default the validation loop runs after every epoch; however, you\ncan customize it by overriding the default event and event filters:\n\n    model\n    |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n    |> Axon.Loop.metric(:mean_absolute_error)\n    |> Axon.Loop.validate(model, validation_data, event: :iteration_completed, filter: [every: 10_000])\n    |> Axon.Loop.metric(:binary_cross_entropy)","ref":"Axon.Loop.html#validate/4","title":"Axon.Loop.validate/4","type":"function"},{"doc":"Accumulated state in an Axon.Loop.\n\nLoop state is a struct:\n\n    %State{\n      epoch: integer(),\n      max_epoch: integer(),\n      iteration: integer(),\n      max_iteration: integer(),\n      metrics: map(string(), container()),\n      times: map(integer(), integer()),\n      step_state: container(),\n      handler_metadata: container()\n    }\n\n`epoch` is the current epoch, starting at 0, of the nested loop.\nDefaults to 0.\n\n`max_epoch` is the maximum number of epochs the loop should run\nfor. Defaults to 1.\n\n`iteration` is the current iteration of the inner loop. In supervised\nsettings, this will be the current batch. Defaults to 0.\n\n`max_iteration` is the maximum number of iterations the loop should\nrun a given epoch for. Defaults to -1 (no max).\n\n`metrics` is a map of `%{\"metric_name\" => value}` which accumulates metrics\nover the course of loop processing. Defaults to an empty map.\n\n`times` is a map of `%{epoch_number => value}` which maps a given epoch\nto the processing time. Defaults to an empty map.\n\n`step_state` is the step state as defined by the loop's processing\ninitialization and update functions. `step_state` is a required field.\n\n`handler_metadata` is a metadata field for storing loop handler metadata.\nFor example, loop checkpoints with specific metric criteria can store\nprevious best metrics in the handler meta for use between iterations.\n\n`event_counts` is a metadata field which stores information about the number\nof times each event has been fired. This is useful when creating custom filters.\n\n`status` refers to the loop state status after the loop has executed. You can\nuse this to determine if the loop ran to completion or if it was halted early.","ref":"Axon.Loop.State.html","title":"Axon.Loop.State","type":"module"},{"doc":"","ref":"Axon.CompileError.html","title":"Axon.CompileError","type":"exception"},{"doc":"","ref":"Axon.CompileError.html#message/1","title":"Axon.CompileError.message/1","type":"function"},{"doc":"# Axon Guides\n\nAxon is a library for creating and training neural networks in Elixir. The Axon guides are a collection of Livebooks designed to introduce Axon's APIs and design decisions from the bottom-up. After working through the guides, you will feel comfortable and confident working with Axon and using Axon for your next deep learning problem.","ref":"guides.html","title":"Axon Guides","type":"extras"},{"doc":"* [Your first Axon model](model_creation/your_first_axon_model.livemd)\n* [Sequential models](model_creation/sequential_models.livemd)\n* [Complex models](model_creation/complex_models.livemd)\n* [Multi-input / multi-output models](model_creation/multi_input_multi_output_models.livemd)\n* [Custom layers](model_creation/custom_layers.livemd)\n* [Model hooks](model_creation/model_hooks.livemd)","ref":"guides.html#model-creation","title":"Model Creation - Axon Guides","type":"extras"},{"doc":"* [Accelerating Axon](model_execution/accelerating_axon.livemd)\n* [Training and inference mode](model_execution/training_and_inference_mode.livemd)","ref":"guides.html#model-execution","title":"Model Execution - Axon Guides","type":"extras"},{"doc":"* [Your first training loop](training_and_evaluation/your_first_training_loop.livemd)\n* [Instrumenting loops with metrics](training_and_evaluation/instrumenting_loops_with_metrics.livemd)\n* [Your first evaluation loop](training_and_evaluation/your_first_evaluation_loop.livemd)\n* [Using loop event handlers](training_and_evaluation/using_loop_event_handlers.livemd)\n* [Custom models, loss functions, and optimizers](training_and_evaluation/custom_models_loss_optimizers.livemd)\n* [Writing custom metrics](training_and_evaluation/writing_custom_metrics.livemd)\n* [Writing custom event handlers](training_and_evaluation/writing_custom_event_handlers.livemd)","ref":"guides.html#training-and-evaluation","title":"Training and Evaluation - Axon Guides","type":"extras"},{"doc":"* [Converting ONNX models to Axon](serialization/onnx_to_axon.livemd)","ref":"guides.html#serialization","title":"Serialization - Axon Guides","type":"extras"},{"doc":"# Your first Axon model\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"your_first_axon_model.html","title":"Your first Axon model","type":"extras"},{"doc":"Axon is a library for creating and training neural networks in Elixir. Everything in Axon centers around the `%Axon{}` struct which represents an instance of an Axon model.\n\nModels are just graphs which represent the transformation and flow of input data to a desired output. Really, you can think of models as representing a single computation or function. An Axon model, when executed, takes data as input and returns transformed data as output.\n\nAll Axon models start with a declaration of input nodes. These are the root nodes of your computation graph, and correspond to the actual input data you want to send to Axon:\n\n```elixir\ninput = Axon.input(\"data\")\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nTechnically speaking, `input` is now a valid Axon model which you can inspect, execute, and initialize. You can visualize how data flows through the graph using `Axon.Display.as_graph/2`:\n\n```elixir\ntemplate = Nx.template({2, 8}, :f32)\nAxon.Display.as_graph(input, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n;\n```\n\nNotice the execution flow is just a single node, because your graph only consists of an input node! You pass data in and the model spits the same data back out, without any intermediate transformations.\n\nYou can see this in action by actually executing your model. You can build the `%Axon{}` struct into it's `initialization` and `forward` functions by calling `Axon.build/2`. This pattern of \"lowering\" or transforming the `%Axon{}` data structure into other functions or representations is very common in Axon. By simply traversing the data structure, you can create useful functions, execution visualizations, and more!\n\n```elixir\n{init_fn, predict_fn} = Axon.build(input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>,\n #Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>}\n```\n\nNotice that `Axon.build/2` returns a tuple of `{init_fn, predict_fn}`. `init_fn` has the signature:\n\n```\ninit_fn.(template :: map(tensor) | tensor, initial_params :: map) :: map(tensor)\n```\n\nwhile `predict_fn` has the signature:\n\n```\npredict_fn.(params :: map(tensor), input :: map(tensor) | tensor)\n```\n\n`init_fn` returns all of your model's trainable parameters and state. You need to pass a template of the expected inputs because the shape of certain model parameters often depend on the shape of model inputs. You also need to pass any initial parameters you want your model to start with. This is useful for things like transfer learning, which you can read about in another guide.\n\n`predict_fn` returns transformed inputs from your model's trainable parameters and the given inputs.\n\n```elixir\nparams = init_fn.(Nx.template({1, 8}, :f32), %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{}\n```\n\nIn this example, you use `Nx.template/2` to create a *template tensor*, which is a placeholder that does not actually consume any memory. Templates are useful for initialization because you don't actually need to know anything about your inputs other than their shape and type.\n\nNotice `init_fn` returned an empty map because your model does not have any trainable parameters. This should make sense because it's just an input layer.\n\nNow you can pass these trainable parameters to `predict_fn` along with some input to actually execute your model:\n\n```elixir\npredict_fn.(params, Nx.iota({1, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nAnd your model just returned the given input, as expected!","ref":"your_first_axon_model.html#your-first-model","title":"Your first model - Your first Axon model","type":"extras"},{"doc":"# Sequential models\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"sequential_models.html","title":"Sequential models","type":"extras"},{"doc":"In the [last guide](your_first_axon_model.livemd), you created a simple identity model which just returned the input. Of course, you would never actually use Axon for such purposes. You want to create real neural networks!\n\nIn equivalent frameworks in the Python ecosystem such as Keras and PyTorch, there is a concept of *sequential models*. Sequential models are named after the sequential nature in which data flows through them. Sequential models transform the input with sequential, successive transformations.\n\nIf you're an experienced Elixir programmer, this paradigm of sequential transformations might sound a lot like what happens when using the pipe (`|>`) operator. In Elixir, it's common to see code blocks like:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nlist\n|> Enum.map(fn x -> x + 1 end)\n|> Enum.filter(&rem(&1, 2) == 0)\n|> Enum.count()\n```\n\nThe snippet above passes `list` through a sequence of transformations. You can apply this same paradigm in Axon to create sequential models. In fact, creating sequential models is so natural with Elixir's pipe operator, that Axon does not need a distinct *sequential* construct. To create a sequential model, you just pass Axon models through successive transformations in the Axon API:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(32)\n  |> Axon.activation(:relu)\n  |> Axon.dropout(rate: 0.5)\n  |> Axon.dense(1)\n  |> Axon.activation(:softmax)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nIf you visualize this model, it's easy to see how data flows sequentially through it:\n\n```elixir\ntemplate = Nx.template({2, 16}, :f32)\nAxon.Display.as_graph(model, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 16}\"/];\n4[\"dense_0 (:dense) {2, 32}\"];\n5[\"relu_0 (:relu) {2, 32}\"];\n6[\"dropout_0 (:dropout) {2, 32}\"];\n7[\"dense_1 (:dense) {2, 1}\"];\n8[\"softmax_0 (:softmax) {2, 1}\"];\n7 --> 8;\n6 --> 7;\n5 --> 6;\n4 --> 5;\n3 --> 4;\n```\n\nYour model is more involved and as a result so is the execution graph! Now, using the same constructs from the last section, you can build and run your model:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>,\n #Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>}\n```\n\n```elixir\nparams = init_fn.(template, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nWow! Notice that this model actually has trainable parameters. You can see that the parameter map is just a regular Elixir map. Each top-level entry maps to a layer with a key corresponding to that layer's name and a value corresponding to that layer's trainable parameters. Each layer's individual trainable parameters are given layer-specific names and map directly to Nx tensors.\n\nNow you can use these `params` with your `predict_fn`:\n\n```elixir\npredict_fn.(params, Nx.iota({2, 16}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nAnd voila! You've successfully created and used a sequential model in Axon!","ref":"sequential_models.html#creating-a-sequential-model","title":"Creating a sequential model - Sequential models","type":"extras"},{"doc":"# Complex models\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"complex_models.html","title":"Complex models","type":"extras"},{"doc":"Not all models you'd want to create fit cleanly in the *sequential* paradigm. Some models require a more flexible API. Fortunately, because Axon models are just Elixir data structures, you can manipulate them and decompose architectures as you would any other Elixir program:\n\n```elixir\ninput = Axon.input(\"data\")\n\nx1 = input |> Axon.dense(32)\nx2 = input |> Axon.dense(64) |> Axon.relu() |> Axon.dense(32)\n\nout = Axon.add(x1, x2)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nIn the snippet above, your model branches `input` into `x1` and `x2`. Each branch performs a different set of transformations; however, at the end the branches are merged with an `Axon.add/3`. You might sometimes see layers like `Axon.add/3` called *combinators*. Really they're just layers that operate on multiple Axon models at once - typically to merge some branches together.\n\n`out` represents your final Axon model.\n\nIf you visualize this model, you can see the full effect of the branching in this model:\n\n```elixir\ntemplate = Nx.template({2, 8}, :f32)\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n4[\"dense_0 (:dense) {2, 32}\"];\n5[\"dense_1 (:dense) {2, 64}\"];\n6[\"relu_0 (:relu) {2, 64}\"];\n7[\"dense_2 (:dense) {2, 32}\"];\n8[\"container_0 (:container) {{2, 32}, {2, 32}}\"];\n9[\"add_0 (:add) {2, 32}\"];\n8 --> 9;\n7 --> 8;\n4 --> 8;\n6 --> 7;\n5 --> 6;\n3 --> 5;\n3 --> 4;\n```\n\nAnd you can use `Axon.build/2` on `out` as you would any other Axon model:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>,\n #Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>}\n```\n\n```elixir\nparams = init_fn.(template, %{})\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nAs your architectures grow in complexity, you might find yourself reaching for better abstractions to organize your model creation code. For example, PyTorch models are often organized into `nn.Module`. The equivalent of an `nn.Module` in Axon is a regular Elixir function. If you're translating models from PyTorch to Axon, it's natural to create one Elixir function per `nn.Module`.\n\nYou should write your models as you would write any other Elixir code - you don't need to worry about any framework specific constructs:\n\n```elixir\ndefmodule MyModel do\n  def model() do\n    Axon.input(\"data\")\n    |> conv_block()\n    |> Axon.flatten()\n    |> dense_block()\n    |> dense_block()\n    |> Axon.dense(1)\n  end\n\n  defp conv_block(input) do\n    residual = input\n\n    x = input |> Axon.conv(3, padding: :same) |> Axon.mish()\n\n    x\n    |> Axon.add(residual)\n    |> Axon.max_pool(kernel_size: {2, 2})\n  end\n\n  defp dense_block(input) do\n    input |> Axon.dense(32) |> Axon.relu()\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, MyModel, <<70, 79, 82, 49, 0, 0, 8, ...>>, {:dense_block, 1}}\n```\n\n```elixir\nmodel = MyModel.model()\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\ntemplate = Nx.template({1, 28, 28, 3}, :f32)\nAxon.Display.as_graph(model, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n10[/\"data (:input) {1, 28, 28, 3}\"/];\n11[\"conv_0 (:conv) {1, 28, 28, 3}\"];\n12[\"mish_0 (:mish) {1, 28, 28, 3}\"];\n13[\"container_0 (:container) {{1, 28, 28, 3}, {1, 28, 28, 3}}\"];\n14[\"add_0 (:add) {1, 28, 28, 3}\"];\n15[\"max_pool_0 (:max_pool) {1, 14, 14, 3}\"];\n16[\"flatten_0 (:flatten) {1, 588}\"];\n17[\"dense_0 (:dense) {1, 32}\"];\n18[\"relu_0 (:relu) {1, 32}\"];\n19[\"dense_1 (:dense) {1, 32}\"];\n20[\"relu_1 (:relu) {1, 32}\"];\n21[\"dense_2 (:dense) {1, 1}\"];\n20 --> 21;\n19 --> 20;\n18 --> 19;\n17 --> 18;\n16 --> 17;\n15 --> 16;\n14 --> 15;\n13 --> 14;\n10 --> 13;\n12 --> 13;\n11 --> 12;\n10 --> 11;\n```","ref":"complex_models.html#creating-more-complex-models","title":"Creating more complex models - Complex models","type":"extras"},{"doc":"# Multi-input / multi-output models\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"multi_input_multi_output_models.html","title":"Multi-input / multi-output models","type":"extras"},{"doc":"Sometimes your application necessitates the use of multiple inputs. To use multiple inputs in an Axon model, you just need to declare multiple inputs in your graph:\n\n```elixir\ninput_1 = Axon.input(\"input_1\")\ninput_2 = Axon.input(\"input_2\")\n\nout = Axon.add(input_1, input_2)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nNotice when you inspect the model, it tells you what your models inputs are up front. You can also get metadata about your model inputs programmatically with `Axon.get_inputs/1`:\n\n```elixir\nAxon.get_inputs(out)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\"input_1\" => nil, \"input_2\" => nil}\n```\n\nEach input is uniquely named, so you can pass inputs by-name into inspection and execution functions with a map:\n\n```elixir\ninputs = %{\n  \"input_1\" => Nx.template({2, 8}, :f32),\n  \"input_2\" => Nx.template({2, 8}, :f32)\n}\n\nAxon.Display.as_graph(out, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"input_1 (:input) {2, 8}\"/];\n4[/\"input_2 (:input) {2, 8}\"/];\n5[\"container_0 (:container) {{2, 8}, {2, 8}}\"];\n6[\"add_0 (:add) {2, 8}\"];\n5 --> 6;\n4 --> 5;\n3 --> 5;\n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(inputs, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{}\n```\n\n```elixir\ninputs = %{\n  \"input_1\" => Nx.iota({2, 8}, type: :f32),\n  \"input_2\" => Nx.iota({2, 8}, type: :f32)\n}\n\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nIf you forget a required input, Axon will raise:\n\n```elixir\npredict_fn.(params, %{\"input_1\" => Nx.iota({2, 8}, type: :f32)})\n```","ref":"multi_input_multi_output_models.html#creating-multi-input-models","title":"Creating multi-input models - Multi-input / multi-output models","type":"extras"},{"doc":"Depending on your application, you might also want your model to have multiple outputs. You can achieve this by using `Axon.container/2` to wrap multiple nodes into any supported Nx container:\n\n```elixir\ninp = Axon.input(\"data\")\n\nx1 = inp |> Axon.dense(32) |> Axon.relu()\nx2 = inp |> Axon.dense(64) |> Axon.relu()\n\nout = Axon.container({x1, x2})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\ntemplate = Nx.template({2, 8}, :f32)\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n7[/\"data (:input) {2, 8}\"/];\n8[\"dense_0 (:dense) {2, 32}\"];\n9[\"relu_0 (:relu) {2, 32}\"];\n10[\"dense_1 (:dense) {2, 64}\"];\n11[\"relu_1 (:relu) {2, 64}\"];\n12[\"container_0 (:container) {{2, 32}, {2, 64}}\"];\n11 --> 12;\n9 --> 12;\n10 --> 11;\n7 --> 10;\n8 --> 9;\n7 --> 8;\n```\n\nWhen executed, containers will return a data structure which matches their input structure:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Nx.Tensor ,\n #Nx.Tensor }\n```\n\nYou can output maps as well:\n\n```elixir\nout = Axon.container(%{x1: x1, x2: x2})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  x1: #Nx.Tensor ,\n  x2: #Nx.Tensor \n}\n```\n\nContainers even support arbitrary nesting:\n\n```elixir\nout = Axon.container({%{x1: {x1, x2}, x2: %{x1: x1, x2: {x2}}}})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{%{\n   x1: {#Nx.Tensor ,\n    #Nx.Tensor },\n   x2: %{\n     x1: #Nx.Tensor ,\n     x2: {#Nx.Tensor }\n   }\n }}\n```","ref":"multi_input_multi_output_models.html#creating-multi-output-models","title":"Creating multi-output models - Multi-input / multi-output models","type":"extras"},{"doc":"# Custom layers\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:kino, \">= 0.9.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"custom_layers.html","title":"Custom layers","type":"extras"},{"doc":"While Axon has a plethora of built-in layers, more than likely you'll run into a case where you need something not provided by the framework. In these instances, you can use *custom layers*.\n\nTo Axon, layers are really just `defn` implementations with special Axon inputs. Every layer in Axon (including the built-in layers), are implemented with the `Axon.layer/3` function. The API of `Axon.layer/3` intentionally mirrors the API of `Kernel.apply/2`. To declare a custom layer you need 2 things:\n\n1. A `defn` implementation\n2. Inputs\n\nThe `defn` implementation looks like any other `defn` you'd write; however, it must always account for additional `opts` as an argument:\n\n```elixir\ndefmodule CustomLayers0 do\n  import Nx.Defn\n\n  defn my_layer(input, opts \\\\ []) do\n    opts = keyword!(opts, mode: :train, alpha: 1.0)\n\n    input\n    |> Nx.sin()\n    |> Nx.multiply(opts[:alpha])\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomLayers0, <<70, 79, 82, 49, 0, 0, 10, ...>>, true}\n```\n\nRegardless of the options you configure your layer to accept, the `defn` implementation will always receive a `:mode` option indicating whether or not the model is running in training or inference mode. You can customize the behavior of your layer depending on the mode.\n\nWith an implementation defined, you need only to call `Axon.layer/3` to apply our custom layer to an Axon input:\n\n```elixir\ninput = Axon.input(\"data\")\n\nout = Axon.layer(&CustomLayers0.my_layer/2, [input])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nNow you can inspect and execute your model as normal:\n\n```elixir\ntemplate = Nx.template({2, 8}, :f32)\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n4[\"custom_0 (:custom) {2, 8}\"];\n3 --> 4;\n```\n\nNotice that by default custom layers render with a default operation marked as `:custom`. This can make it difficult to determine which layer is which during inspection. You can control the rendering by passing `:op_name` to `Axon.layer/3`:\n\n```elixir\nout = Axon.layer(&CustomLayers0.my_layer/2, [input], op_name: :my_layer)\n\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n5[\"my_layer_0 (:my_layer) {2, 8}\"];\n3 --> 5;\n```\n\nYou can also control the name of your layer via the `:name` option. All other options are forwarded to the layer implementation function:\n\n```elixir\nout =\n  Axon.layer(&CustomLayers0.my_layer/2, [input],\n    name: \"layer\",\n    op_name: :my_layer,\n    alpha: 2.0\n  )\n\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n6[\"layer (:my_layer) {2, 8}\"];\n3 --> 6;\n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{}\n```\n\n```elixir\npredict_fn.(params, Nx.iota({2, 8}, type: :f32))\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nNotice that this model does not have any trainable parameters because none of the layers have trainable parameters. You can introduce trainable parameters by passing inputs created with `Axon.param/3` to `Axon.layer/3`. For example, you can modify your original custom layer to take an additional trainable parameter:\n\n```elixir\ndefmodule CustomLayers1 do\n  import Nx.Defn\n\n  defn my_layer(input, alpha, _opts \\\\ []) do\n    input\n    |> Nx.sin()\n    |> Nx.multiply(alpha)\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomLayers1, <<70, 79, 82, 49, 0, 0, 10, ...>>, true}\n```\n\nAnd then construct the layer with a regular Axon input and a trainable parameter:\n\n```elixir\nalpha = Axon.param(\"alpha\", fn _ -> {} end)\n\nout = Axon.layer(&CustomLayers1.my_layer/3, [input, alpha], op_name: :my_layer)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(out)\nparams = init_fn.(template, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"my_layer_0\" => %{\n    \"alpha\" => #Nx.Tensor \n  }\n}\n```\n\nNotice how your model now initializes with a trainable parameter `\"alpha\"` for your custom layer. Each parameter requires a unique (per-layer) string name and a function which determines the parameter's shape from the layer's input shapes.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nIf you plan on re-using custom layers in many locations, it's recommended that you wrap them in an Elixir function as an interface:\n\n```elixir\ndefmodule CustomLayers2 do\n  import Nx.Defn\n\n  def my_layer(%Axon{} = input, opts \\\\ []) do\n    opts = Keyword.validate!(opts, [:name])\n    alpha = Axon.param(\"alpha\", fn _ -> {} end)\n\n    Axon.layer(&my_layer_impl/3, [input, alpha], name: opts[:name], op_name: :my_layer)\n  end\n\n  defnp my_layer_impl(input, alpha, _opts \\\\ []) do\n    input\n    |> Nx.sin()\n    |> Nx.multiply(alpha)\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomLayers2, <<70, 79, 82, 49, 0, 0, 12, ...>>, true}\n```\n\n```elixir\nout =\n  input\n  |> CustomLayers2.my_layer()\n  |> CustomLayers2.my_layer()\n  |> Axon.dense(1)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\n```elixir\nAxon.Display.as_graph(out, template)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```mermaid\ngraph TD;\n3[/\"data (:input) {2, 8}\"/];\n8[\"my_layer_0 (:my_layer) {2, 8}\"];\n9[\"my_layer_1 (:my_layer) {2, 8}\"];\n10[\"dense_0 (:dense) {2, 1}\"];\n9 --> 10;\n8 --> 9;\n3 --> 8;\n```","ref":"custom_layers.html#creating-custom-layers","title":"Creating custom layers - Custom layers","type":"extras"},{"doc":"# Model hooks\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"model_hooks.html","title":"Model hooks","type":"extras"},{"doc":"Sometimes it's useful to inspect or visualize the values of intermediate layers in your model during the forward or backward pass. For example, it's common to visualize the gradients of activation functions to ensure your model is learning in a stable manner. Axon supports this functionality via model hooks.\n\nModel hooks are a means of unidirectional communication with an executing model. Hooks are unidirectional in the sense that you can only **receive** information from your model, and not send information back.\n\nHooks are attached per-layer and can execute at 4 different points in model execution: on the pre-forward, forward, or backward pass of the model or during model initialization. You can also configure the same hook to execute on all 3 events. You can attach hooks to models using `Axon.attach_hook/3`:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :dense_forward) end, on: :forward)\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :dense_init) end, on: :initialize)\n  |> Axon.relu()\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :relu) end, on: :forward)\n\n{init_fn, predict_fn} = Axon.build(model)\n\ninput = Nx.iota({2, 4}, type: :f32)\nparams = init_fn.(input, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\ndense_init: %{\n  \"bias\" => #Nx.Tensor ,\n  \"kernel\" => #Nx.Tensor \n}\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nNotice how during initialization the `:dense_init` hook fired and inspected the layer's parameters. Now when executing, you'll see outputs for `:dense` and `:relu`:\n\n```elixir\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nrelu: #Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nIt's important to note that hooks execute in the order they were attached to a layer. If you attach 2 hooks to the same layer which execute different functions on the same event, they will run in order:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :hook1) end, on: :forward)\n  |> Axon.attach_hook(fn val -> IO.inspect(val, label: :hook2) end, on: :forward)\n  |> Axon.relu()\n\n{init_fn, predict_fn} = Axon.build(model)\nparams = init_fn.(input, %{})\n\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nhook2: #Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nNotice that `:hook1` fires before `:hook2`.\n\nYou can also specify a hook to fire on all events:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.attach_hook(&IO.inspect/1, on: :all)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\n{init_fn, predict_fn} = Axon.build(model)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>,\n #Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>}\n```\n\nOn initialization:\n\n```elixir\nparams = init_fn.(input, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"bias\" => #Nx.Tensor ,\n  \"kernel\" => #Nx.Tensor \n}\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nOn pre-forward and forward:\n\n```elixir\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n#Nx.Tensor \n#Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nAnd on backwards:\n\n```elixir\nNx.Defn.grad(fn params -> predict_fn.(params, input) end).(params)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n#Nx.Tensor \n#Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nFinally, you can specify hooks to only run when the model is built in a certain mode such as training and inference mode. You can read more about training and inference mode in [Training and inference mode](../model_execution/training_and_inference_mode.livemd):\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.attach_hook(&IO.inspect/1, on: :forward, mode: :train)\n  |> Axon.relu()\n\n{init_fn, predict_fn} = Axon.build(model, mode: :train)\nparams = init_fn.(input, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nThe model was built in training mode so the hook will run:\n\n```elixir\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  prediction: #Nx.Tensor ,\n  state: %{}\n}\n```\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model, mode: :inference)\nparams = init_fn.(input, %{})\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nThe model was built in inference mode so the hook will not run:\n\n```elixir\npredict_fn.(params, input)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```","ref":"model_hooks.html#creating-models-with-hooks","title":"Creating models with hooks - Model hooks","type":"extras"},{"doc":"# Accelerating Axon\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"},\n  {:exla, \">= 0.5.0\"},\n  {:torchx, \">= 0.5.0\"},\n  {:benchee, \"~> 1.1\"},\n  {:kino, \">= 0.9.0\", override: true}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"accelerating_axon.html","title":"Accelerating Axon","type":"extras"},{"doc":"Nx provides two mechanisms for accelerating your neural networks: backends and compilers. Before we learn how to effectively use them, first let's create a simple model for benchmarking purposes:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(32)\n  |> Axon.relu()\n  |> Axon.dense(1)\n  |> Axon.softmax()\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nBackends are where your tensors (your neural network inputs and parameters) are located. By default, Nx and Axon run all computations using the `Nx.BinaryBackend` which is a pure Elixir implementation of various numerical routines. The `Nx.BinaryBackend` is guaranteed to run wherever an Elixir installation runs; however, it is **very** slow. Due to the computational expense of neural networks, you should basically never use the `Nx.BinaryBackend` and instead opt for one of the available accelerated libraries. At the time of writing, Nx officially supports two of them:\n\n1. EXLA - Acceleration via Google's [XLA project](https://www.tensorflow.org/xla)\n2. TorchX - Bindings to [LibTorch](https://pytorch.org/cppdocs/)\n\nAxon will respect the global and process-level Nx backend configuration. Compilers are covered more in-depth in the second half of this example. You can set the default backend using the following APIs:\n\n```elixir\n# Sets the global compilation options (for all Elixir processes)\nNx.global_default_backend(Torchx.Backend)\n# OR\nNx.global_default_backend(EXLA.Backend)\n\n# Sets the process-level compilation options (current process only)\nNx.default_backend(Torchx.Backend)\n# OR\nNx.default_backend(EXLA.Backend)\n```\n\nNow all tensors and operations on them will run on the configured backend:\n\n```elixir\n{inputs, _next_key} =\n  Nx.Random.key(9999)\n  |> Nx.Random.uniform(shape: {2, 128})\n\n{init_fn, predict_fn} = Axon.build(model)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n  f32[2][1]\n  [\n    [1.0],\n    [1.0]\n  ]\n>\n```\n\nAs you swap backends above, you will get tensors allocated on different backends as results. You should be careful using multiple backends in the same project as attempting to mix tensors between backends may result in strange performance bugs or errors, as Nx will require you to explicitly convert between backends.\n\nWith most larger models, using a compiler will bring more performance benefits in addition to the backend.","ref":"accelerating_axon.html#using-nx-backends-in-axon","title":"Using Nx Backends in Axon - Accelerating Axon","type":"extras"},{"doc":"Axon is built entirely on top of Nx's numerical definitions `defn`. Functions declared with `defn` tell Nx to use *just-in-time compilation* to compile and execute the given numerical definition with an available Nx compiler. Numerical definitions enable acceleration on CPU/GPU/TPU via pluggable compilers. At the time of this writing, only EXLA supports a compiler in addition to its backend.\n\nWhen you call `Axon.build/2`, Axon can automatically mark your initialization and forward functions as JIT compiled functions. First let's make sure we are using the EXLA backend:\n\n```elixir\nNx.default_backend(EXLA.Backend)\n```\n\nAnd now let's build another model, this time passing the EXLA compiler as an option:\n\n```elixir\n{inputs, _next_key} =\n  Nx.Random.key(9999)\n  |> Nx.Random.uniform(shape: {2, 128})\n\n{init_fn, predict_fn} = Axon.build(model, compiler: EXLA)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n\n15:39:26.463 [info] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero\n\n15:39:26.473 [info] XLA service 0x7f3488329030 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:\n\n15:39:26.473 [info]   StreamExecutor device (0): NVIDIA GeForce RTX 3050 Ti Laptop GPU, Compute Capability 8.6\n\n15:39:26.473 [info] Using BFC allocator.\n\n15:39:26.473 [info] XLA backend allocating 3605004288 bytes on device 0 for BFCAllocator.\n\n15:39:28.272 [info] TensorFloat-32 will be used for the matrix multiplication. This will only be logged once.\n\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n  [\n    [1.0],\n    [1.0]\n  ]\n>\n```\n\nYou can also instead JIT compile functions explicitly via the `Nx.Defn.jit` or compiler-specific JIT APIs. This is useful when running benchmarks against various backends:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model)\n\n# These will both JIT compile with EXLA\nexla_init_fn = Nx.Defn.jit(init_fn, compiler: EXLA)\nexla_predict_fn = EXLA.jit(predict_fn)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Function<135.109794929/2 in Nx.Defn.Compiler.fun/2>\n```\n\n```elixir\nBenchee.run(\n  %{\n    \"elixir init\" => fn -> init_fn.(inputs, %{}) end,\n    \"exla init\" => fn -> exla_init_fn.(inputs, %{}) end\n  },\n  time: 10,\n  memory_time: 5,\n  warmup: 2\n)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nWarning: the benchmark elixir init is using an evaluated function.\n  Evaluated functions perform slower than compiled functions.\n  You can move the Benchee caller to a function in a module and invoke `Mod.fun()` instead.\n  Alternatively, you can move the benchmark into a benchmark.exs file and run mix run benchmark.exs\n\nWarning: the benchmark exla init is using an evaluated function.\n  Evaluated functions perform slower than compiled functions.\n  You can move the Benchee caller to a function in a module and invoke `Mod.fun()` instead.\n  Alternatively, you can move the benchmark into a benchmark.exs file and run mix run benchmark.exs\n\nOperating System: Linux\nCPU Information: Intel(R) Core(TM) i7-7600U CPU @ 2.80GHz\nNumber of Available Cores: 4\nAvailable memory: 24.95 GB\nElixir 1.13.4\nErlang 25.0.4\n\nBenchmark suite executing with the following configuration:\nwarmup: 2 s\ntime: 10 s\nmemory time: 5 s\nreduction time: 0 ns\nparallel: 1\ninputs: none specified\nEstimated total run time: 34 s\n\nBenchmarking elixir init ...\nBenchmarking exla init ...\n\nName                  ips        average  deviation         median         99th %\nexla init          3.79 K        0.26 ms   ±100.40%        0.24 ms        0.97 ms\nelixir init        0.52 K        1.91 ms    ±35.03%        1.72 ms        3.72 ms\n\nComparison:\nexla init          3.79 K\nelixir init        0.52 K - 7.25x slower +1.65 ms\n\nMemory usage statistics:\n\nName           Memory usage\nexla init           9.80 KB\nelixir init       644.63 KB - 65.80x memory usage +634.83 KB\n\n**All measurements for memory usage were the same**\n```\n\n```elixir\nBenchee.run(\n  %{\n    \"elixir predict\" => fn -> predict_fn.(params, inputs) end,\n    \"exla predict\" => fn -> exla_predict_fn.(params, inputs) end\n  },\n  time: 10,\n  memory_time: 5,\n  warmup: 2\n)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nWarning: the benchmark elixir predict is using an evaluated function.\n  Evaluated functions perform slower than compiled functions.\n  You can move the Benchee caller to a function in a module and invoke `Mod.fun()` instead.\n  Alternatively, you can move the benchmark into a benchmark.exs file and run mix run benchmark.exs\n\nWarning: the benchmark exla predict is using an evaluated function.\n  Evaluated functions perform slower than compiled functions.\n  You can move the Benchee caller to a function in a module and invoke `Mod.fun()` instead.\n  Alternatively, you can move the benchmark into a benchmark.exs file and run mix run benchmark.exs\n\nOperating System: Linux\nCPU Information: Intel(R) Core(TM) i7-7600U CPU @ 2.80GHz\nNumber of Available Cores: 4\nAvailable memory: 24.95 GB\nElixir 1.13.4\nErlang 25.0.4\n\nBenchmark suite executing with the following configuration:\nwarmup: 2 s\ntime: 10 s\nmemory time: 5 s\nreduction time: 0 ns\nparallel: 1\ninputs: none specified\nEstimated total run time: 34 s\n\nBenchmarking elixir predict ...\nBenchmarking exla predict ...\n\nName                     ips        average  deviation         median         99th %\nexla predict          2.32 K        0.43 ms   ±147.05%        0.34 ms        1.61 ms\nelixir predict        0.28 K        3.53 ms    ±42.21%        3.11 ms        7.26 ms\n\nComparison:\nexla predict          2.32 K\nelixir predict        0.28 K - 8.20x slower +3.10 ms\n\nMemory usage statistics:\n\nName              Memory usage\nexla predict          10.95 KB\nelixir predict        91.09 KB - 8.32x memory usage +80.14 KB\n\n**All measurements for memory usage were the same**\n```\n\nNotice how calls to EXLA variants are significantly faster. These speedups become more pronounced with more complex models and workflows.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nIt's important to note that in order to use a given library as an Nx compiler, it must implement the Nx compilation behaviour. For example, you cannot invoke Torchx as an Nx compiler because it does not support JIT compilation at this time.","ref":"accelerating_axon.html#using-nx-compilers-in-axon","title":"Using Nx Compilers in Axon - Accelerating Axon","type":"extras"},{"doc":"While Nx mostly tries to standardize behavior across compilers and backends, some behaviors are backend-specific. For example, the API for choosing an acceleration platform (e.g. CUDA/ROCm/TPU) is backend-specific. You should refer to your chosen compiler or backend's documentation for information on targeting various accelerators. Typically, you only need to change a few configuration options and your code will run as-is on a chosen accelerator.","ref":"accelerating_axon.html#a-note-on-cpus-gpus-tpus","title":"A Note on CPUs/GPUs/TPUs - Accelerating Axon","type":"extras"},{"doc":"# Training and inference mode\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"training_and_inference_mode.html","title":"Training and inference mode","type":"extras"},{"doc":"Some layers have different considerations and behavior when running during model training versus model inference. For example *dropout layers* are intended only to be used during training as a form of model regularization. Certain stateful layers like *batch normalization* keep a running-internal state which changes during training mode but remains fixed during inference mode. Axon supports mode-dependent execution behavior via the `:mode` option passed to all building, compilation, and execution methods. By default, all models build in inference mode. You can see this behavior by adding a dropout layer with a dropout rate of 1. In inference mode this layer will have no affect:\n\n```elixir\ninputs = Nx.iota({2, 8}, type: :f32)\n\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(4)\n  |> Axon.sigmoid()\n  |> Axon.dropout(rate: 0.99)\n  |> Axon.dense(1)\n\n{init_fn, predict_fn} = Axon.build(model)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nYou can also explicitly specify the mode:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model, mode: :inference)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Nx.Tensor \n```\n\nIt's important that you know which mode your model's were compiled for, as running a model built in `:inference` mode will behave drastically different than a model built in `:train` mode.","ref":"training_and_inference_mode.html#executing-models-in-inference-mode","title":"Executing models in inference mode - Training and inference mode","type":"extras"},{"doc":"By specifying `mode: :train`, you tell your models to execute in training mode. You can see the effects of this behavior here:\n\n```elixir\n{init_fn, predict_fn} = Axon.build(model, mode: :train)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  prediction: #Nx.Tensor ,\n  state: %{\n    \"dropout_0\" => %{\n      \"key\" => #Nx.Tensor \n    }\n  }\n}\n```\n\nFirst, notice that your model now returns a map with keys `:prediction` and `:state`. `:prediction` contains the actual model prediction, while `:state` contains the updated state for any stateful layers such as batch norm. When writing custom training loops, you should extract `:state` and use it in conjunction with the updates API to ensure your stateful layers are updated correctly. If your model has stateful layers, `:state` will look similar to your model's parameter map:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(4)\n  |> Axon.sigmoid()\n  |> Axon.batch_norm()\n  |> Axon.dense(1)\n\n{init_fn, predict_fn} = Axon.build(model, mode: :train)\nparams = init_fn.(inputs, %{})\npredict_fn.(params, inputs)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  prediction: #Nx.Tensor ,\n  state: %{\n    \"batch_norm_0\" => %{\n      \"mean\" => #Nx.Tensor ,\n      \"var\" => #Nx.Tensor \n    }\n  }\n}\n```","ref":"training_and_inference_mode.html#executing-models-in-training-mode","title":"Executing models in training mode - Training and inference mode","type":"extras"},{"doc":"# Your first training loop\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"your_first_training_loop.html","title":"Your first training loop","type":"extras"},{"doc":"Axon generalizes the concept of training, evaluation, hyperparameter optimization, and more into the `Axon.Loop` API. Axon loops are a instrumented reductions over Elixir Streams - that basically means you can accumulate some state over an Elixir `Stream` and control different points in the loop execution.\n\nWith Axon, you'll most commonly implement and work with supervised training loops. Because supervised training loops are so common in deep learning, Axon has a loop factory function which takes care of most of the boilerplate of creating a supervised training loop for you. In the beginning of your deep learning journey, you'll almost exclusively use Axon's loop factories to create and run loops.\n\nAxon's supervised training loop assumes you have an input stream of data with entries that look like:\n\n`{batch_inputs, batch_labels}`\n\nEach entry is a batch of input data with a corresponding batch of labels. You can simulate some real training data by constructing an Elixir stream:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Function<51.6935098/2 in Stream.repeatedly/1>\n```\n\nThe most basic supervised training loop in Axon requires 3 things:\n\n1. An Axon model\n2. A loss function\n3. An optimizer\n\nYou can construct an Axon model using the knowledge you've gained from going through the model creation guides:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon \n```\n\nAxon comes with built-in loss functions and optimizers which you can use directly when constructing your training loop. To construct your training loop, you use `Axon.Loop.trainer/3`:\n\n```elixir\nloop = Axon.Loop.trainer(model, :mean_squared_error, :sgd)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nYou'll notice that `Axon.Loop.trainer/3` returns an `%Axon.Loop{}` data structure. This data structure contains information which Axon uses to control the execution of the loop. In order to run the loop, you need to explicitly pass it to `Axon.Loop.run/4`:\n\n```elixir\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0563023\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\n`Axon.Loop.run/4` expects a loop to execute, some data to loop over, and any initial state you explicitly want your loop to start with. `Axon.Loop.run/4` will then iterate over your data, executing a step function on each batch, and accumulating some generic loop state. In the case of a supervised training loop, this generic loop state actually represents training state including your model's trained parameters.\n\n`Axon.Loop.run/4` also accepts options which control the loops execution. This includes `:iterations` which controls the number of iterations per epoch a loop should execute for, and `:epochs` which controls the number of epochs a loop should execute for:\n\n```elixir\nAxon.Loop.run(loop, train_data, %{}, epochs: 3, iterations: 500)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 450, loss: 0.0935063\nEpoch: 1, Batch: 450, loss: 0.0576384\nEpoch: 2, Batch: 450, loss: 0.0428323\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou may have noticed that by default `Axon.Loop.trainer/3` configures your loop to log information about training progress every 50 iterations. You can control this when constructing your supervised training loop with the `:log` option:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd, log: 100)\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 900, loss: 0.1492715\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"your_first_training_loop.html#creating-an-axon-training-loop","title":"Creating an Axon training loop - Your first training loop","type":"extras"},{"doc":"# Instrumenting loops with metrics\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"instrumenting_loops_with_metrics.html","title":"Instrumenting loops with metrics","type":"extras"},{"doc":"Often times when executing a loop you want to keep track of various metrics such as accuracy or precision. For training loops, Axon by default only tracks loss; however, you can instrument the loop with additional built-in metrics. For example, you might want to track mean-absolute error on top of a mean-squared error loss:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.metric(:mean_absolute_error)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>},\n    \"mean_absolute_error\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     :mean_absolute_error}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nWhen specifying a metric, you can specify an atom which maps to any of the metrics defined in `Axon.Metrics`. You can also define custom metrics. For more information on custom metrics, see [Writing custom metrics](writing_custom_metrics.livemd).\n\nWhen you run a loop with metrics, Axon will aggregate that metric over the course of the loop execution. For training loops, Axon will also report the aggregate metric in the training logs:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0590630 mean_absolute_error: 0.1463431\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nBy default, the metric will have a name which matches the string form of the given metric. You can give metrics semantic meaning by providing an explicit name:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.metric(:mean_absolute_error, \"model error\")\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0607362 model error: 0.1516546\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nAxon's default aggregation behavior is to aggregate metrics with a running average; however, you can customize this behavior by specifying an explicit accumulation function. Built-in accumulation functions are `:running_average` and `:running_sum`:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.metric(:mean_absolute_error, \"total error\", :running_sum)\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0688004 total error: 151.4876404\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"instrumenting_loops_with_metrics.html#adding-metrics-to-training-loops","title":"Adding metrics to training loops - Instrumenting loops with metrics","type":"extras"},{"doc":"# Your first evaluation loop\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"your_first_evaluation_loop.html","title":"Your first evaluation loop","type":"extras"},{"doc":"Once you have a trained model, it's necessary to test the trained model on some test data. Axon's loop abstraction is general enough to work for both training and evaluating models. Just as Axon implements a canned `Axon.Loop.trainer/3` factory, it also implements a canned `Axon.Loop.evaluator/1` factory.\n\n`Axon.Loop.evaluator/1` creates an evaluation loop which you can instrument with metrics to measure the performance of a trained model on test data. First, you need a trained model:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\ntrain_loop = Axon.Loop.trainer(model, :mean_squared_error, :sgd)\n\ndata =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\ntrained_model_state = Axon.Loop.run(train_loop, data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.1285532\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nRunning loops with `Axon.Loop.trainer/3` returns a trained model state which you can use to evaluate your model. To construct an evaluation loop, you just call `Axon.Loop.evaluator/1` with your pre-trained model:\n\n```elixir\ntest_loop = Axon.Loop.evaluator(model)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nNext, you'll need to instrument your test loop with the metrics you'd like to aggregate:\n\n```elixir\ntest_loop = test_loop |> Axon.Loop.metric(:mean_absolute_error)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     :mean_absolute_error}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nFinally, you can run your loop on test data. Because you want to test your trained model, you need to provide your model's initial state to the test loop:\n\n```elixir\nAxon.Loop.run(test_loop, data, trained_model_state, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nBatch: 999, mean_absolute_error: 0.0856894\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  0 => %{\n    \"mean_absolute_error\" => #Nx.Tensor \n  }\n}\n```","ref":"your_first_evaluation_loop.html#creating-an-axon-evaluation-loop","title":"Creating an Axon evaluation loop - Your first evaluation loop","type":"extras"},{"doc":"# Using loop event handlers\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"using_loop_event_handlers.html","title":"Using loop event handlers","type":"extras"},{"doc":"Often times you want more fine-grained control over things that happen during loop execution. For example, you might want to save loop state to a file every 500 iterations, or log some output to `:stdout` at the end of every epoch. Axon loops allow more fine-grained control via events and event handlers.\n\nAxon fires a number of events during loop execution which allow you to instrument various points in the loop execution cycle. You can attach event handlers to any of these events:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nevents = [\n  :started,             # After loop state initialization\n  :epoch_started,       # On epoch start\n  :iteration_started,   # On iteration start\n  :iteration_completed, # On iteration complete\n  :epoch_completed,     # On epoch complete\n  :epoch_halted,        # On epoch halt, if early halted\n  :halted,              # On loop halt, if early halted\n  :completed            # On loop completion\n]\n```\n\nAxon packages a number of common loop event handlers for you out of the box. These handlers should cover most of the common event handlers you would need to write in practice. Axon also allows for custom event handlers. See [Writing custom event handlers](writing_custom_event_handlers.livemd) for more information.\n\nAn event handler will take the current loop state at the time of the fired event, and alter or use it in someway before returning control back to the main loop execution. You can attach any of Axon's pre-packaged event handlers to a loop by using the function directly. For example, if you want to checkpoint loop state at the end of every epoch, you can use `Axon.Loop.checkpoint/2`:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.checkpoint(event: :epoch_completed)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<17.37390314/1 in Axon.Loop.checkpoint/2>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>},\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nNow when you execute your loop, it will save a checkpoint at the end of every epoch:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.5345965\nEpoch: 1, Batch: 50, loss: 0.4578816\nEpoch: 2, Batch: 50, loss: 0.4527244\nEpoch: 3, Batch: 50, loss: 0.4466343\nEpoch: 4, Batch: 50, loss: 0.4401709\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou can also use event handlers for things as simple as implementing custom logging with the pre-packaged `Axon.Loop.log/4` event handler:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.log(fn _state -> \"epoch is over\\n\" end, event: :epoch_completed, device: :stdio)\n|> Axon.Loop.run(train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.3220241\nepoch is over\nEpoch: 1, Batch: 50, loss: 0.2309804\nepoch is over\nEpoch: 2, Batch: 50, loss: 0.1759415\nepoch is over\nEpoch: 3, Batch: 50, loss: 0.1457551\nepoch is over\nEpoch: 4, Batch: 50, loss: 0.1247821\nepoch is over\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nFor even more fine-grained control over when event handlers fire, you can add filters. For example, if you only want to checkpoint loop state every 2 epochs, you can use a filter:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.checkpoint(event: :epoch_completed, filter: [every: 2])\n|> Axon.Loop.run(train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.3180207\nEpoch: 1, Batch: 50, loss: 0.1975918\nEpoch: 2, Batch: 50, loss: 0.1353940\nEpoch: 3, Batch: 50, loss: 0.1055405\nEpoch: 4, Batch: 50, loss: 0.0890203\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nAxon event handlers support both keyword and function filters. Keyword filters include keywords such as `:every`, `:once`, and `:always`. Function filters are arity-1 functions which accept the current loop state and return a boolean.","ref":"using_loop_event_handlers.html#adding-event-handlers-to-training-loops","title":"Adding event handlers to training loops - Using loop event handlers","type":"extras"},{"doc":"<!-- livebook:{\"persist_outputs\":true} -->\n\n# Custom models, loss functions, and optimizers\n\n```elixir\nMix.install([\n  {:axon, github: \"elixir-nx/axon\"},\n  {:nx, \"~> 0.3.0\", github: \"elixir-nx/nx\", sparse: \"nx\", override: true}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"custom_models_loss_optimizers.html","title":"Custom models, loss functions, and optimizers","type":"extras"},{"doc":"In the [Your first training loop](your_first_training_loop.livemd), you learned how to declare a supervised training loop using `Axon.Loop.trainer/3` with a model, loss function, and optimizer. Your overall model and loop declaration looked something like this:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop = Axon.Loop.trainer(model, :mean_squared_error, :sgd)\n```\n\nThis example uses an `%Axon{}` struct to represent your `model` to train, and atoms to represent your loss function and optimizer. Some of your problems will require a bit more flexibility than this example affords. Fortunately, `Axon.Loop.trainer/3` is designed for flexibility.\n\nFor example, if your model cannot be cleanly represented as an `%Axon{}` model, you can instead opt instead to define custom initialization and forward functions to pass to `Axon.Loop.trainer/3`. Actually, `Axon.Loop.trainer/3` is doing this for you under the hood - the ability to pass an `%Axon{}` struct directly is just a convenience:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nlowered_model = {init_fn, predict_fn} = Axon.build(model)\n\nloop = Axon.Loop.trainer(lowered_model, :mean_squared_error, :sgd)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n       #Function<5.20267452/1 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<23.20267452/1 in Axon.Loop.log/5>,\n       #Function<3.20267452/1 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  metrics: %{\n    \"loss\" => {#Function<12.6031754/3 in Axon.Metrics.running_average/1>,\n     #Function<6.20267452/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  ...\n>\n```\n\nNotice that `Axon.Loop.trainer/3` handles the \"lowered\" form of an Axon model without issue. When you pass an `%Axon{}` struct, the trainer factory converts it to a lowered representation for you. With this construct, you can build custom models entirely with Nx `defn`, or readily mix your Axon models into custom workflows without worrying about compatibility with the `Axon.Loop` API:\n\n```elixir\ndefmodule CustomModel do\n  import Nx.Defn\n\n  defn custom_predict_fn(model_predict_fn, params, input) do\n    %{prediction: preds} = out = model_predict_fn.(params, input)\n    %{out | prediction: Nx.cos(preds)}\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomModel, <<70, 79, 82, 49, 0, 0, 9, ...>>, {:custom_predict_fn, 3}}\n```\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    xs = Nx.random_normal({8, 1})\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\n{init_fn, predict_fn} = Axon.build(model, mode: :train)\ncustom_predict_fn = &CustomModel.custom_predict_fn(predict_fn, &1, &2)\n\nloop = Axon.Loop.trainer({init_fn, custom_predict_fn}, :mean_squared_error, :sgd)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 500)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 500, loss: 0.3053460\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"custom_models_loss_optimizers.html#using-custom-models-in-training-loops","title":"Using custom models in training loops - Custom models, loss functions, and optimizers","type":"extras"},{"doc":"Just as `Axon.Loop.trainer/3` allows more flexibility with models, it also supports more flexible loss functions. In most cases, you can get away with using one of Axon's built-in loss functions by specifying an atom. Atoms map directly to a loss-function defined in `Axon.Losses`. Under the hood, `Axon.Loop.trainer/3` is doing something like:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nloss_fn = &apply(Axon.Losses, loss_atom, [&1, &2])\n```\n\nRather than pass an atom, you can pass your own custom arity-2 function to `Axon.Loop.trainer/3`. This arises most often in cases where you want to control some parameters of the loss function, such as the batch-level reduction:\n\n```elixir\nloss_fn = &Axon.Losses.mean_squared_error(&1, &2, reduction: :sum)\n\nloop = Axon.Loop.trainer(model, loss_fn, :sgd)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n       #Function<5.20267452/1 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<23.20267452/1 in Axon.Loop.log/5>,\n       #Function<3.20267452/1 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  metrics: %{\n    \"loss\" => {#Function<12.6031754/3 in Axon.Metrics.running_average/1>,\n     #Function<41.3316493/2 in :erl_eval.expr/6>}\n  },\n  ...\n>\n```\n\nYou can also define your own custom loss functions, so long as they match the following spec:\n\n<!-- livebook:{\"force_markdown\":true} -->\n\n```elixir\nloss(\n  y_true :: tensor[batch, ...] | container(tensor),\n  y_preds :: tensor[batch, ...] | container(tensor)\n  ) :: scalar\n```\n\nThis is useful for constructing loss functions when dealing with multi-output scenarios. For example, it's very easy to construct a custom loss function which is a weighted average of several loss functions on multiple inputs:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    xs = Nx.random_normal({8, 1})\n    y1 = Nx.sin(xs)\n    y2 = Nx.cos(xs)\n    {xs, {y1, y2}}\n  end)\n\nshared =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n\ny1 = Axon.dense(shared, 1)\ny2 = Axon.dense(shared, 1)\n\nmodel = Axon.container({y1, y2})\n\ncustom_loss_fn = fn {y_true1, y_true2}, {y_pred1, y_pred2} ->\n  loss1 = Axon.Losses.mean_squared_error(y_true1, y_pred1, reduction: :mean)\n  loss2 = Axon.Losses.mean_squared_error(y_true2, y_pred2, reduction: :mean)\n\n  loss1\n  |> Nx.multiply(0.4)\n  |> Nx.add(Nx.multiply(loss2, 0.6))\nend\n\nmodel\n|> Axon.Loop.trainer(custom_loss_fn, :sgd)\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 1000, loss: 0.1098235\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_3\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"custom_models_loss_optimizers.html#using-custom-loss-functions-in-training-loops","title":"Using custom loss functions in training loops - Custom models, loss functions, and optimizers","type":"extras"},{"doc":"As you might expect, it's also possible to customize the optimizer passed to `Axon.Loop.trainer/3`. If you read the `Polaris.Updates` documentation, you'll learn that optimizers are actually represented as the tuple `{init_fn, update_fn}` where `init_fn` initializes optimizer state from model state and `update_fn` scales gradients from optimizer state, gradients, and model state.\n\nYou likely won't have to implement a custom optimizer; however, you should know how to construct optimizers with different hyperparameters and how to apply different modifiers to different optimizers to customize the optimization process.\n\nWhen you specify an optimizer as an atom in `Axon.Loop.trainer/3`, it maps directly to an optimizer declared in `Polaris.Optimizers`. You can instead opt to declare your optimizer directly. This is most useful for controlling things like the learning rate and various optimizer hyperparameters:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    xs = Nx.random_normal({8, 1})\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\noptimizer = {_init_optimizer_fn, _update_fn} = Polaris.Optimizers.sgd(learning_rate: 1.0e-3)\n\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, optimizer)\n|> Axon.Loop.run(train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 1000, loss: 0.0992607\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"custom_models_loss_optimizers.html#using-custom-optimizers-in-training-loops","title":"Using custom optimizers in training loops - Custom models, loss functions, and optimizers","type":"extras"},{"doc":"# Writing custom metrics\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"writing_custom_metrics.html","title":"Writing custom metrics","type":"extras"},{"doc":"When passing an atom to `Axon.Loop.metric/5`, Axon dispatches the function to a built-in function in `Axon.Metrics`. If you find you'd like to use a metric that does not exist in `Axon.Metrics`, you can define a custom function:\n\n```elixir\ndefmodule CustomMetric do\n  import Nx.Defn\n\n  defn my_weird_metric(y_true, y_pred) do\n    Nx.atan2(y_true, y_pred) |> Nx.sum()\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomMetric, <<70, 79, 82, 49, 0, 0, 8, ...>>, true}\n```\n\nThen you can pass that directly to `Axon.Loop.metric/5`. You must provide a name for your custom metric:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.metric(&CustomMetric.my_weird_metric/2, \"my weird metric\")\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>},\n    \"my weird metric\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     &CustomMetric.my_weird_metric/2}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nThen when running, Axon will invoke your custom metric function and accumulate it with the given aggregator:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, loss: 0.0681635 my weird metric: -5.2842808\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nWhile the metric defaults are designed with supervised training loops in mind, they can be used for much more flexible purposes. By default, metrics look for the fields `:y_true` and `:y_pred` in the given loop's step state. They then apply the given metric function on those inputs. You can also define metrics which work on other fields. For example you can track the running average of a given parameter with a metric just by defining a custom output transform:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\noutput_transform = fn %{model_state: model_state} ->\n  [model_state[\"dense_0\"][\"kernel\"]]\nend\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.metric(&Nx.mean/1, \"dense_0_kernel_mean\", :running_average, output_transform)\n  |> Axon.Loop.metric(&Nx.variance/1, \"dense_0_kernel_var\", :running_average, output_transform)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     &Nx.mean/1},\n    \"dense_0_kernel_var\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     &Nx.variance/1},\n    \"loss\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nAxon will apply your custom output transform to the loop's step state and forward the result to your custom metric function:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, dense_0_kernel_mean: -0.1978206 dense_0_kernel_var: 0.2699870 loss: 0.0605523\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou can also define custom accumulation functions. Axon has definitions for computing running averages and running sums; however, you might find you need something like an exponential moving average:\n\n```elixir\ndefmodule CustomAccumulator do\n  import Nx.Defn\n\n  defn running_ema(acc, obs, _i, opts \\\\ []) do\n    opts = keyword!(opts, alpha: 0.9)\n    obs * opts[:alpha] + acc * (1 - opts[:alpha])\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomAccumulator, <<70, 79, 82, 49, 0, 0, 11, ...>>, true}\n```\n\nYour accumulator must be an arity-3 function which accepts the current accumulated value, the current observation, and the current iteration and returns the aggregated metric. You can pass a function direct as an accumulator in your metric:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\noutput_transform = fn %{model_state: model_state} ->\n  [model_state[\"dense_0\"][\"kernel\"]]\nend\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.metric(\n    &Nx.mean/1,\n    \"dense_0_kernel_ema_mean\",\n    &CustomAccumulator.running_ema/3,\n    output_transform\n  )\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     &Nx.mean/1},\n    \"loss\" => {#Function<11.133813849/3 in Axon.Metrics.running_average/1>,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nThen when you run the loop, Axon will use your custom accumulator:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, iterations: 1000)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 950, dense_0_kernel_ema_mean: -0.0139760 loss: 0.0682910\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```","ref":"writing_custom_metrics.html#writing-custom-metrics","title":"Writing custom metrics - Writing custom metrics","type":"extras"},{"doc":"# Writing custom event handlers\n\n```elixir\nMix.install([\n  {:axon, \">= 0.5.0\"}\n])\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n:ok\n```","ref":"writing_custom_event_handlers.html","title":"Writing custom event handlers","type":"extras"},{"doc":"If you require functionality not offered by any of Axon's built-in event handlers, then you'll need to write a custom event handler. Custom event handlers are functions which accept loop state, perform some action, and then defer execution back to the main loop. For example, you can write custom loop handlers which visualize model outputs, communicate with an external Kino process, or simply halt the loop based on some criteria.\n\nAll event handlers must accept an `%Axon.Loop.State{}` struct and return a tuple of `{control_term, state}` where `control_term` is one of `:continue`, `:halt_epoch`, or `:halt_loop` and `state` is the updated loop state:\n\n```elixir\ndefmodule CustomEventHandler0 do\n  alias Axon.Loop.State\n\n  def my_weird_handler(%State{} = state) do\n    IO.puts(\"My weird handler: fired\")\n    {:continue, state}\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomEventHandler0, <<70, 79, 82, 49, 0, 0, 6, ...>>, {:my_weird_handler, 1}}\n```\n\nTo register event handlers, you use `Axon.Loop.handle/4`:\n\n```elixir\nmodel =\n  Axon.input(\"data\")\n  |> Axon.dense(8)\n  |> Axon.relu()\n  |> Axon.dense(4)\n  |> Axon.relu()\n  |> Axon.dense(1)\n\nloop =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :sgd)\n  |> Axon.Loop.handle_event(:epoch_completed, &CustomEventHandler0.my_weird_handler/1)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n#Axon.Loop ,\n     #Function<9.37390314/2 in Axon.Loop.build_loss_fn/1>}\n  },\n  handlers: %{\n    completed: [],\n    epoch_completed: [\n      {&CustomEventHandler0.my_weird_handler/1,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>},\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<6.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    epoch_halted: [],\n    epoch_started: [],\n    halted: [],\n    iteration_completed: [\n      {#Function<27.37390314/1 in Axon.Loop.log/3>,\n       #Function<64.37390314/2 in Axon.Loop.build_filter_fn/1>}\n    ],\n    iteration_started: [],\n    started: []\n  },\n  ...\n>\n```\n\nAxon will trigger your custom handler to run on the attached event:\n\n```elixir\ntrain_data =\n  Stream.repeatedly(fn ->\n    {xs, _next_key} =\n      :random.uniform(9999)\n      |> Nx.Random.key()\n      |> Nx.Random.normal(shape: {8, 1})\n\n    ys = Nx.sin(xs)\n    {xs, ys}\n  end)\n\nAxon.Loop.run(loop, train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.0990703\nMy weird handler: fired\nEpoch: 1, Batch: 50, loss: 0.0567622\nMy weird handler: fired\nEpoch: 2, Batch: 50, loss: 0.0492784\nMy weird handler: fired\nEpoch: 3, Batch: 50, loss: 0.0462587\nMy weird handler: fired\nEpoch: 4, Batch: 50, loss: 0.0452806\nMy weird handler: fired\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou can use event handlers to early-stop a loop or loop epoch by returning a `:halt_*` control term. Halt control terms can be one of `:halt_epoch` or `:halt_loop`. `:halt_epoch` halts the current epoch and continues to the next. `:halt_loop` halts the loop altogether.\n\n```elixir\ndefmodule CustomEventHandler1 do\n  alias Axon.Loop.State\n\n  def always_halts(%State{} = state) do\n    IO.puts(\"stopping loop\")\n    {:halt_loop, state}\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomEventHandler1, <<70, 79, 82, 49, 0, 0, 6, ...>>, {:always_halts, 1}}\n```\n\nThe loop will immediately stop executing and return the current state at the time it was halted:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.handle_event(:epoch_completed, &CustomEventHandler1.always_halts/1)\n|> Axon.Loop.run(train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 50, loss: 0.2201974\nstopping loop\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nNote that halting an epoch will fire a different event than completing an epoch. So if you implement a custom handler to halt the loop when an epoch completes, it will never fire if the epoch always halts prematurely:\n\n```elixir\ndefmodule CustomEventHandler2 do\n  alias Axon.Loop.State\n\n  def always_halts_epoch(%State{} = state) do\n    IO.puts(\"\\nstopping epoch\")\n    {:halt_epoch, state}\n  end\n\n  def always_halts_loop(%State{} = state) do\n    IO.puts(\"stopping loop\\n\")\n    {:halt_loop, state}\n  end\nend\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n{:module, CustomEventHandler2, <<70, 79, 82, 49, 0, 0, 8, ...>>, {:always_halts_loop, 1}}\n```\n\nIf you run these handlers in conjunction, the loop will not terminate prematurely:\n\n```elixir\nmodel\n|> Axon.Loop.trainer(:mean_squared_error, :sgd)\n|> Axon.Loop.handle_event(:iteration_completed, &CustomEventHandler2.always_halts_epoch/1)\n|> Axon.Loop.handle_event(:epoch_completed, &CustomEventHandler2.always_halts_loop/1)\n|> Axon.Loop.run(train_data, %{}, epochs: 5, iterations: 100)\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\nEpoch: 0, Batch: 0, loss: 0.0000000\nstopping epoch\n\nstopping epoch\n\nstopping epoch\n\nstopping epoch\n\nstopping epoch\n```\n\n<!-- livebook:{\"output\":true} -->\n\n```\n%{\n  \"dense_0\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_1\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  },\n  \"dense_2\" => %{\n    \"bias\" => #Nx.Tensor ,\n    \"kernel\" => #Nx.Tensor \n  }\n}\n```\n\nYou may access and update any portion of the loop state. Keep in mind that event handlers are **not** JIT-compiled, so you should be certain to manually JIT-compile any long-running or expensive operations.","ref":"writing_custom_event_handlers.html#writing-custom-event-handlers","title":"Writing custom event handlers - Writing custom event handlers","type":"extras"},{"doc":"# Converting ONNX models to Axon\n\n```elixir\nMix.install(\n  [\n    {:axon, \">= 0.5.0\"},\n    {:exla, \">= 0.5.0\"},\n    {:axon_onnx, \">= 0.4.0\"},\n    {:stb_image, \">= 0.6.0\"},\n    {:kino, \">= 0.9.0\"},\n    {:req, \">= 0.3.8\"}\n  ]\n  # for Nvidia GPU change to \"cuda111\" for CUDA 11.1+ or \"cuda118\" for CUDA 11.8\n  # CUDA 12.x not supported by XLA\n  # or you can put this value in ENV variables in Livebook settings\n  # XLA_TARGET=cuda111\n  # system_env: %{\"XLA_TARGET\" => xla_target}\n)\n```","ref":"onnx_to_axon.html","title":"Converting ONNX models to Axon","type":"extras"},{"doc":"Axon is a new machine learning capability, specific to Elixir. We would like to take\nadvantage of a large amount of models that have been written in other languages and\nmachine learning frameworks. Let's take a look at how we could use a model developed\nin another language.\n\nConverting models developed by data scientists into a production capable implementation is a\nchallenge for all languages and frameworks. [ONNX](https://onnx.ai/) is an interchange\nformat that allows models written in one language or framework to be converted into\nanother language and framework.\n\nThe source model must use constructs mapped into ONNX. Also, the destination framework must\nsupport the model's ONNX constructs. From an Elixir focus, we are interested in ONNX models\nthat [axon_onnx](https://github.com/elixir-nx/axon_onnx) can convert into Axon models.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n#","ref":"onnx_to_axon.html#converting-an-onnx-model-into-axon","title":"Converting an ONNX model into Axon - Converting ONNX models to Axon","type":"extras"},{"doc":"<!-- livebook:{\"break_markdown\":true} -->\n\nElixir can get access to thousands of public models and your organization may have private models\nwritten in other languages and frameworks. Axon will be hard pressed to quickly repeat the\ncountless person-hours spent on developing models in other languages like Tensorflow and PyTorch.\nHowever, if the model can be converted into ONNX and then into Axon, we can directly run the model\nin Elixir.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n#","ref":"onnx_to_axon.html#why-is-onnx-important-to-axon","title":"Why is ONNX important to Axon? - Converting ONNX models to Axon","type":"extras"},{"doc":"<!-- livebook:{\"break_markdown\":true} -->\n\nAxon runs on top of [Nx (Numerical Elixir)](https://hexdocs.pm/nx). Nx has backends for\nboth Google's XLA (via EXLA) and PyTorch (via Torchx). In this guide, we will use EXLA.\nWe'll also convert from an ONNX model into an Axon model using\n[`axon_onnx`](https://github.com/elixir-nx/axon_onnx).\n\nYou can find all dependencies in the installation cell at the top of the notebook.\nIn there, you will also find the `XLA_TARGET` environment variable which you can set\nto \"cuda111\" or \"rocm\" if you have any of those GPUs available. Let's also configure\nNx to store tensors in EXLA by default:\n\n```elixir\n#  Nx.default_backend(EXLA.Backend)\n```\n\nWe'll also need local access to ONNX files. For this notebook, the models/onnx folder\ncontains the ONNX model file. This notebook assumes the output file location will be\nin models axon. Copy your ONNX model files into the models/onnx folder.\n\nThis opinionated module presents a simple API for loading in an ONNX file and saving\nthe converted Axon model in the provided directory. This API will allow us to\nsave multiple models pretty quickly.\n\n```elixir\ndefmodule OnnxToAxon do\n  @moduledoc \"\"\"\n  Helper module from ONNX to Axon.\n  \"\"\"\n\n  @doc \"\"\"\n  Loads an ONNX model into Axon and saves the model","ref":"onnx_to_axon.html#setting-up-our-environment","title":"Setting up our environment - Converting ONNX models to Axon","type":"extras"},{"doc":"OnnxToAxon.onnx_axon(path_to_onnx_file, path_to_axon_dir)\n\n  \"\"\"\n  def onnx_axon(path_to_onnx_file, path_to_axon_dir) do\n    axon_name = axon_name_from_onnx_path(path_to_onnx_file)\n    path_to_axon = Path.join(path_to_axon_dir, axon_name)\n\n    {model, parameters} = AxonOnnx.import(path_to_onnx_file)\n    model_bytes = Axon.serialize(model, parameters)\n    File.write!(path_to_axon, model_bytes)\n  end\n\n  defp axon_name_from_onnx_path(onnx_path) do\n    model_root = onnx_path |> Path.basename() |> Path.rootname()\n    \"#{model_root}.axon\"\n  end\nend\n```","ref":"onnx_to_axon.html#examples","title":"Examples - Converting ONNX models to Axon","type":"extras"},{"doc":"For this example, we'll use a couple ONNX models that have been saved in the Huggingface Hub.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nThe ONNX models were trained in Fast.ai (PyTorch) using the following notebooks:\n\n* https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb\n* https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb\n\nTo repeat this notebook, the onnx files for this notebook can be found on huggingface hub. Download the onnx models from:\n\n* https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX\n* https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX\n\nDownload the files and place them in a directory of your choice. By default, we will assume you downloaded them to the same directory as the notebook:\n\n```elixir\nFile.cd!(__DIR__)\n```\n\nNow let's convert an ONNX model into Axon\n\n```elixir\npath_to_onnx_file = \"cats_v_dogs.onnx\"\npath_to_axon_dir = \".\"\nOnnxToAxon.onnx_axon(path_to_onnx_file, path_to_axon_dir)\n```\n\n```elixir\npath_to_onnx_file = \"cat_dog_breeds.onnx\"\npath_to_axon_dir = \".\"\nOnnxToAxon.onnx_axon(path_to_onnx_file, path_to_axon_dir)\n```","ref":"onnx_to_axon.html#onnx-model","title":"ONNX model - Converting ONNX models to Axon","type":"extras"},{"doc":"To run inference on the model, you'll need 10 images focused on cats or dogs. You can download the images used in training the model at:\n\n\"https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz\"\n\nOr you can find or use your own images. In this notebook, we are going to use the local copies of the Oxford Pets dataset that was used in training the model.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nLet's load the Axon model.\n\n```elixir\ncats_v_dogs = File.read!(\"cats_v_dogs.axon\")\n{cats_v_dogs_model, cats_v_dogs_params} = Axon.deserialize(cats_v_dogs)\n```\n\nWe need a tensor representation of an image. Let's start by looking at samples of\nour data.\n\n```elixir\nFile.read!(\"oxford-iiit-pet/images/havanese_71.jpg\")\n|> Kino.Image.new(:jpeg)\n```\n\nTo manipulate the images, we will use the `StbImage` library:\n\n```elixir\n{:ok, img} = StbImage.read_file(\"oxford-iiit-pet/images/havanese_71.jpg\")\n%StbImage{data: binary, shape: shape, type: type} = StbImage.resize(img, 224, 224)\n```\n\nNow let's work on a batch of images and convert them to tensors. Here are the images we will work with:\n\n```elixir\nfile_names = [\n  \"havanese_71.jpg\",\n  \"yorkshire_terrier_9.jpg\",\n  \"Sphynx_206.jpg\",\n  \"Siamese_95.jpg\",\n  \"Egyptian_Mau_63.jpg\",\n  \"keeshond_175.jpg\",\n  \"samoyed_88.jpg\",\n  \"British_Shorthair_122.jpg\",\n  \"Russian_Blue_20.jpg\",\n  \"boxer_99.jpg\"\n]\n```\n\nNext we resize the images:\n\n```elixir\nresized_images =\n  Enum.map(file_names, fn file_name ->\n    (\"oxford-iiit-pet/images/\" <> file_name)\n    |> IO.inspect(label: file_name)\n    |> StbImage.read_file!()\n    |> StbImage.resize(224, 224)\n  end)\n```\n\nAnd finally convert them into tensors by using `StbImage.to_nx/1`. The created tensor will have three axes, named `:height`, `:width`, and `:channel` respectively. Our goal is to stack the tensors, then normalize and transpose their axes to the order expected by the neural network:\n\n```elixir\nimg_tensors =\n  resized_images\n  |> Enum.map(&StbImage.to_nx/1)\n  |> Nx.stack(name: :index)\n  |> Nx.divide(255.0)\n  |> Nx.transpose(axes: [:index, :channels, :height, :width])\n```\n\nWith our input data, it is finally time to work on predictions. First let's define a helper module:\n\n```elixir\ndefmodule Predictions do\n  @doc \"\"\"\n  When provided a Tensor of single label predictions, returns the best vocabulary match for\n  each row in the prediction tensor.","ref":"onnx_to_axon.html#inference-on-onnx-derived-models","title":"Inference on ONNX derived models - Converting ONNX models to Axon","type":"extras"},{"doc":"# iex> Predictions.sindle_label_prediction(path_to_onnx_file, path_to_axon_dir)\n     # [\"dog\", \"cat\", \"dog\"]\n\n  \"\"\"\n  def single_label_classification(predictions_batch, vocabulary) do\n    IO.inspect(Nx.shape(predictions_batch), label: \"predictions batch shape\")\n\n    for prediction_tensor <- Nx.to_batched(predictions_batch, 1) do\n      {_prediction_value, prediction_label} =\n        prediction_tensor\n        |> Nx.to_flat_list()\n        |> Enum.zip(vocabulary)\n        |> Enum.max()\n\n      prediction_label\n    end\n  end\nend\n```\n\nNow we deserialize the model\n\n```elixir\n{cats_v_dogs_model, cats_v_dogs_params} = Axon.deserialize(cats_v_dogs)\n```\n\nrun a prediction using the `EXLA` compiler for performance\n\n```elixir\ntensor_of_predictions =\n  Axon.predict(cats_v_dogs_model, cats_v_dogs_params, img_tensors, compiler: EXLA)\n```\n\nand finally retrieve the predicted label\n\n```elixir\ndog_cat_vocabulary = [\n  \"dog\",\n  \"cat\"\n]\n\nPredictions.single_label_classification(tensor_of_predictions, dog_cat_vocabulary)\n```\n\nLet's repeat the above process for the dog and cat breed model.\n\n```elixir\ncat_dog_vocabulary = [\n  \"abyssinian\",\n  \"american_bulldog\",\n  \"american_pit_bull_terrier\",\n  \"basset_hound\",\n  \"beagle\",\n  \"bengal\",\n  \"birman\",\n  \"bombay\",\n  \"boxer\",\n  \"british_shorthair\",\n  \"chihuahua\",\n  \"egyptian_mau\",\n  \"english_cocker_spaniel\",\n  \"english_setter\",\n  \"german_shorthaired\",\n  \"great_pyrenees\",\n  \"havanese\",\n  \"japanese_chin\",\n  \"keeshond\",\n  \"leonberger\",\n  \"maine_coon\",\n  \"miniature_pinscher\",\n  \"newfoundland\",\n  \"persian\",\n  \"pomeranian\",\n  \"pug\",\n  \"ragdoll\",\n  \"russian_blue\",\n  \"saint_bernard\",\n  \"samoyed\",\n  \"scottish_terrier\",\n  \"shiba_inu\",\n  \"siamese\",\n  \"sphynx\",\n  \"staffordshire_bull_terrier\",\n  \"wheaten_terrier\",\n  \"yorkshire_terrier\"\n]\n```\n\n```elixir\ncat_dog_breeds = File.read!(\"cat_dog_breeds.axon\")\n{cat_dog_breeds_model, cat_dog_breeds_params} = Axon.deserialize(cat_dog_breeds)\n```\n\n```elixir\nAxon.predict(cat_dog_breeds_model, cat_dog_breeds_params, img_tensors)\n|> Predictions.single_label_classification(cat_dog_vocabulary)\n```\n\nFor cat and dog breeds, the model performed pretty well, but it was not perfect.","ref":"onnx_to_axon.html#examples","title":"Examples - Converting ONNX models to Axon","type":"extras"},{"doc":"# Modeling XOR with a neural network\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:kino_vega_lite, \"~> 0.1.6\"}\n])\n\nNx.Defn.default_options(compiler: EXLA)\n\nalias VegaLite, as: Vl\n```","ref":"xor.html","title":"Modeling XOR with a neural network","type":"extras"},{"doc":"In this notebook we try to create a model and learn it the **logical XOR**.\n\nEven though XOR seems like a trivial operation, it cannot be modeled using a single dense layer ([single-layer perceptron](https://en.wikipedia.org/wiki/Feedforward_neural_network#Single-layer_perceptron)). The underlying reason is that the classes in XOR are not linearly separable. We cannot draw a straight line to separate the points $(0,0)$, $(1,1)$ from the points $(0,1)$, $(1,0)$. To model this properly, we need to turn to deep learning methods. Deep learning is capable of learning non-linear relationships like XOR.","ref":"xor.html#introduction","title":"Introduction - Modeling XOR with a neural network","type":"extras"},{"doc":"Let's start with the model. We need two inputs, since XOR has two operands. We then concatenate them into a single input vector with `Axon.concatenate/3`. Then we have one hidden layer and one output layer, both of them dense.\n\nNote: the model is a sequential neural network. In Axon, we can conveniently create such a model by using the pipe operator (`|>`) to add layers one by one.\n\n```elixir\nx1_input = Axon.input(\"x1\", shape: {nil, 1})\nx2_input = Axon.input(\"x2\", shape: {nil, 1})\n\nmodel =\n  x1_input\n  |> Axon.concatenate(x2_input)\n  |> Axon.dense(8, activation: :tanh)\n  |> Axon.dense(1, activation: :sigmoid)\n```","ref":"xor.html#the-model","title":"The model - Modeling XOR with a neural network","type":"extras"},{"doc":"The next step is to prepare training data. Since we are modeling a well-defined operation, we can just generate random operands and compute the expected XOR result for them.\n\nThe training works with batches of examples, so we *repeatedly* generate a whole batch of inputs and the expected result.\n\n```elixir\nbatch_size = 32\n\ndata =\n  Stream.repeatedly(fn ->\n    x1 = Nx.random_uniform({batch_size, 1}, 0, 2)\n    x2 = Nx.random_uniform({batch_size, 1}, 0, 2)\n    y = Nx.logical_xor(x1, x2)\n\n    {%{\"x1\" => x1, \"x2\" => x2}, y}\n  end)\n```\n\nHere's how a sample batch looks:\n\n```elixir\nEnum.at(data, 0)\n```","ref":"xor.html#training-data","title":"Training data - Modeling XOR with a neural network","type":"extras"},{"doc":"It's time to train our model. In this case we use *binary cross entropy* for the loss and *stochastic gradient descent* as the optimizer. We use binary cross entropy because we can consider the task of computing XOR the same as a binary classification problem. We want our output to have a binary label `0` or `1`, and binary cross entropy is typically used in these cases. Having defined our training loop, we run it with `Axon.Loop.run/4`.\n\n```elixir\nepochs = 10\n\nparams =\n  model\n  |> Axon.Loop.trainer(:binary_cross_entropy, :sgd)\n  |> Axon.Loop.run(data, %{}, epochs: epochs, iterations: 1000)\n```","ref":"xor.html#training","title":"Training - Modeling XOR with a neural network","type":"extras"},{"doc":"Finally, we can test our model on sample data.\n\n```elixir\nAxon.predict(model, params, %{\n  \"x1\" => Nx.tensor([[0]]),\n  \"x2\" => Nx.tensor([[1]])\n})\n```\n\nTry other combinations of $x_1$ and $x_2$ and see what the output is. To improve the model performance, you can increase the number of training epochs.","ref":"xor.html#trying-the-model","title":"Trying the model - Modeling XOR with a neural network","type":"extras"},{"doc":"The original XOR we modeled only works with binary values $0$ and $1$, however our model operates in continuous space. This means that we can give it $x_1 = 0.5$, $x_2 = 0.5$ as input and we expect _some_ output. We can use this to visualize the non-linear relationship between inputs $x_1$, $x_2$ and outputs that our model has learned.\n\n```elixir\n# The number of points per axis, determines the resolution\nn = 50\n\n# We generate coordinates of inputs in the (n x n) grid\nx1 = Nx.iota({n, n}, axis: 0) |> Nx.divide(n) |> Nx.reshape({:auto, 1})\nx2 = Nx.iota({n, n}, axis: 1) |> Nx.divide(n) |> Nx.reshape({:auto, 1})\n\n# The output is also a real number, but we round it into one of the two classes\ny = Axon.predict(model, params, %{\"x1\" => x1, \"x2\" => x2}) |> Nx.round()\n\nVl.new(width: 300, height: 300)\n|> Vl.data_from_values(\n  x1: Nx.to_flat_list(x1),\n  x2: Nx.to_flat_list(x2),\n  y: Nx.to_flat_list(y)\n)\n|> Vl.mark(:circle)\n|> Vl.encode_field(:x, \"x1\", type: :quantitative)\n|> Vl.encode_field(:y, \"x2\", type: :quantitative)\n|> Vl.encode_field(:color, \"y\", type: :nominal)\n```\n\nFrom the plot we can clearly see that during training our model learnt two clean boundaries to separate $(0,0)$, $(1,1)$ from $(0,1)$, $(1,0)$.","ref":"xor.html#visualizing-the-model-predictions","title":"Visualizing the model predictions - Modeling XOR with a neural network","type":"extras"},{"doc":"# Classifying handwritten digits\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:req, \"~> 0.3.1\"}\n])\n```","ref":"mnist.html","title":"Classifying handwritten digits","type":"extras"},{"doc":"This livebook will walk you through training a basic neural network using Axon, accelerated by the EXLA compiler. We'll be working on the [MNIST](https://en.wikipedia.org/wiki/MNIST_database) dataset which is a dataset of handwritten digits with corresponding labels. The goal is to train a model that correctly classifies these handwritten digits with a single label [0-9].","ref":"mnist.html#introduction","title":"Introduction - Classifying handwritten digits","type":"extras"},{"doc":"The MNIST dataset is available for free online. Using `Req` we'll download both training images and training labels. Both `train_images` and `train_labels` are compressed binary data. Fortunately, `Req` takes care of the decompression for us.\n\nYou can read more about the format of the ubyte files [here](http://yann.lecun.com/exdb/mnist/). Each file starts with a magic number and some metadata. We can use binary pattern matching to extract the information we want. In this case we extract the raw binary images and labels.\n\n```elixir\nbase_url = \"https://storage.googleapis.com/cvdf-datasets/mnist/\"\n%{body: train_images} = Req.get!(base_url <> \"train-images-idx3-ubyte.gz\")\n%{body: train_labels} = Req.get!(base_url <> \"train-labels-idx1-ubyte.gz\")\n\n<<_::32, n_images::32, n_rows::32, n_cols::32, images::binary>> = train_images\n<<_::32, n_labels::32, labels::binary>> = train_labels\n```\n\nWe can easily read that binary data into a tensor using `Nx.from_binary/2`. `Nx.from_binary/2` expects a raw binary and a data type. In this case, both images and labels are stored as unsigned 8-bit integers. We can start by parsing our images:\n\n```elixir\nimages =\n  images\n  |> Nx.from_binary({:u, 8})\n  |> Nx.reshape({n_images, 1, n_rows, n_cols}, names: [:images, :channels, :height, :width])\n  |> Nx.divide(255)\n```\n\n`Nx.from_binary/2` returns a flat tensor. Using `Nx.reshape/3` we can manipulate this flat tensor into meaningful dimensions. Notice we also *normalized* the tensor by dividing the input data by 255. This squeezes the data between 0 and 1 which often leads to better behavior when training models. Now, let's see what these images look like:\n\n```elixir\nimages[[images: 0..4]] |> Nx.to_heatmap()\n```\n\nIn the reshape operation above, we give each dimension of the tensor a name. This makes it much easier to do things like slicing, and helps make your code easier to understand. Here we slice the `images` dimension of the images tensor to obtain the first 5 training images. Then, we convert them to a heatmap for easy visualization.\n\nIt's common to train neural networks in batches (actually correctly called minibatches, but you'll see batch and minibatch used interchangeably). We can \"batch\" our images into batches of 32 like this:\n\n```elixir\nimages = Nx.to_batched(images, 32)\n```\n\nNow, we'll need to get our labels into batches as well, but first we need to *one-hot encode* the labels. One-hot encoding converts input data from labels such as `3`, `5`, `7`, etc. into vectors of 0's and a single 1 at the correct labels index. As an example, a label of: `3` gets converted to: `[0, 0, 0, 1, 0, 0, 0, 0, 0, 0]`.\n\n```elixir\ntargets =\n  labels\n  |> Nx.from_binary({:u, 8})\n  |> Nx.new_axis(-1)\n  |> Nx.equal(Nx.tensor(Enum.to_list(0..9)))\n  |> Nx.to_batched(32)\n```","ref":"mnist.html#retrieving-and-exploring-the-dataset","title":"Retrieving and exploring the dataset - Classifying handwritten digits","type":"extras"},{"doc":"Let's start by defining a simple model:\n\n```elixir\nmodel =\n  Axon.input(\"input\", shape: {nil, 1, 28, 28})\n  |> Axon.flatten()\n  |> Axon.dense(128, activation: :relu)\n  |> Axon.dense(10, activation: :softmax)\n```\n\nAll `Axon` models start with an input layer to tell subsequent layers what shapes to expect. We then use `Axon.flatten/2` which flattens the previous layer by squeezing all dimensions but the first dimension into a single dimension. Our model consists of 2 fully connected layers with 128 and 10 units respectively. The first layer uses `:relu` activation which returns `max(0, input)` element-wise. The final layer uses `:softmax` activation to return a probability distribution over the 10 labels [0 - 9].","ref":"mnist.html#defining-the-model","title":"Defining the model - Classifying handwritten digits","type":"extras"},{"doc":"In Axon we express the task of training using a declarative loop API. First, we need to specify a loss function and optimizer, there are many built-in variants to choose from. In this example, we'll use *categorical cross-entropy* and the *Adam* optimizer. We will also keep track of the *accuracy* metric. Finally, we run training loop passing our batched images and labels. We'll train for 10 epochs using the `EXLA` compiler.\n\n```elixir\nparams =\n  model\n  |> Axon.Loop.trainer(:categorical_cross_entropy, :adam)\n  |> Axon.Loop.metric(:accuracy, \"Accuracy\")\n  |> Axon.Loop.run(Stream.zip(images, targets), %{}, epochs: 10, compiler: EXLA)\n```","ref":"mnist.html#training","title":"Training - Classifying handwritten digits","type":"extras"},{"doc":"Now that we have the parameters from the training step, we can use them for predictions.\nFor this the `Axon.predict` can be used.\n\n```elixir\nfirst_batch = Enum.at(images, 0)\n\noutput = Axon.predict(model, params, first_batch)\n```\n\nFor each image, the model outputs probability distribution. This informs us how certain the model is about its prediction. Let's see the most probable digit for each image:\n\n```elixir\nNx.argmax(output, axis: 1)\n```\n\nIf you look at the original images and you will see the predictions match the data!","ref":"mnist.html#prediction","title":"Prediction - Classifying handwritten digits","type":"extras"},{"doc":"# Classifying horses and humans\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.6.0\"},\n  {:nx, \"~> 0.6.0\"},\n  {:exla, \"~> 0.6.0\"},\n  {:stb_image, \"~> 0.6.0\"},\n  {:req, \"~> 0.4.5\"},\n  {:kino, \"~> 0.11.0\"}\n])\n\nNx.global_default_backend(EXLA.Backend)\nNx.Defn.global_default_options(compiler: EXLA)\n```","ref":"horses_or_humans.html","title":"Classifying horses and humans","type":"extras"},{"doc":"In this notebook, we want to predict whether an image presents a horse or a human. To do this efficiently, we will build a Convolutional Neural Network (CNN) and compare the learning process with and without gradient centralization.","ref":"horses_or_humans.html#introduction","title":"Introduction - Classifying horses and humans","type":"extras"},{"doc":"We will be using the [Horses or Humans Dataset](https://laurencemoroney.com/datasets.html#horses-or-humans-dataset). The dataset is available as a ZIP with image files, we will download it using `req`. Conveniently, `req` will unzip the files for us, we just need to convert the filenames from strings.\n\n```elixir\n%{body: files} =\n  Req.get!(\"https://storage.googleapis.com/learning-datasets/horse-or-human.zip\")\n\nfiles = for {name, binary} <- files, do: {List.to_string(name), binary}\n```\n\n#","ref":"horses_or_humans.html#loading-the-data","title":"Loading the data - Classifying horses and humans","type":"extras"},{"doc":"We need to know how many images to include in a batch. A batch is a group of images to load into the GPU at a time. If the batch size is too big for your GPU, it will run out of memory, in such case you can reduce the batch size. It is generally optimal to utilize almost all of the GPU memory during training. It will take more time to train with a lower batch size.\n\n```elixir\nbatch_size = 32\nbatches_per_epoch = div(length(files), batch_size)\n```","ref":"horses_or_humans.html#note-on-batching","title":"Note on batching - Classifying horses and humans","type":"extras"},{"doc":"We'll have a really quick look at our data. Let's see what we are dealing with:\n\n```elixir\n{name, binary} = Enum.random(files)\nKino.Markdown.new(name) |> Kino.render()\nKino.Image.new(binary, :png)\n```\n\nReevaluate the cell a couple times to view different images. Note that the file names are either `horse[N]-[M].png` or `human[N]-[M].png`, so we can derive the expected class from that.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nWhile we are at it, look at this beautiful animation:\n\n```elixir\nnames_to_animate = [\"horse01\", \"horse05\", \"human01\", \"human05\"]\n\nimages_to_animate =\n  for {name, binary} <- files, Enum.any?(names_to_animate, &String.contains?(name, &1)) do\n    Kino.Image.new(binary, :png)\n  end\n\nKino.animate(50, images_to_animate, fn\n  _i, [image | images] -> {:cont, image, images}\n  _i, [] -> :halt\nend)\n```\n\nHow many images are there?\n\n```elixir\nlength(files)\n```\n\nHow many images will not be used for training? The remainder of the integer division will be ignored.\n\n```elixir\nfiles\n|> length()\n|> rem(batch_size)\n```","ref":"horses_or_humans.html#a-look-at-the-data","title":"A look at the data - Classifying horses and humans","type":"extras"},{"doc":"First, we need to preprocess the data for our CNN. At the beginning of the process, we chunk images into batches. Then, we use the `parse_file/1` function to load images and label them accurately. Finally, we \"augment\" the input, which means that we normalize data and flip the images along one of the axes. The last procedure helps a neural network to make predictions regardless of the orientation of the image.\n\n```elixir\ndefmodule HorsesHumans.DataProcessing do\n  import Nx.Defn\n\n  def data_stream(files, batch_size) do\n    files\n    |> Enum.shuffle()\n    |> Stream.chunk_every(batch_size, batch_size, :discard)\n    |> Task.async_stream(\n      fn batch ->\n        {images, labels} = batch |> Enum.map(&parse_file/1) |> Enum.unzip()\n        {Nx.stack(images), Nx.stack(labels)}\n      end,\n      timeout: :infinity\n    )\n    |> Stream.map(fn {:ok, {images, labels}} -> {augment(images), labels} end)\n    |> Stream.cycle()\n  end\n\n  defp parse_file({filename, binary}) do\n    label =\n      if String.starts_with?(filename, \"horses/\"),\n        do: Nx.tensor([1, 0], type: {:u, 8}),\n        else: Nx.tensor([0, 1], type: {:u, 8})\n\n    image = binary |> StbImage.read_binary!() |> StbImage.to_nx()\n\n    {image, label}\n  end\n\n  defnp augment(images) do\n    # Normalize\n    images = images / 255.0\n\n    # Optional vertical/horizontal flip\n    { u, _new_key } = Nx.Random.key(1987) |> Nx.Random.uniform()\n\n    cond do\n      u < 0.25 -> images\n      u < 0.5 -> Nx.reverse(images, axes: [2])\n      u < 0.75 -> Nx.reverse(images, axes: [3])\n      true -> Nx.reverse(images, axes: [2, 3])\n    end\n  end\nend\n```","ref":"horses_or_humans.html#data-processing","title":"Data processing - Classifying horses and humans","type":"extras"},{"doc":"The next step is creating our model. In this notebook, we choose the classic Convolutional Neural Network architecture. Let's dive in to the core components of a CNN.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n`Axon.conv/3` adds a convolutional layer, which is at the core of a CNN. A convolutional layer applies a filter function throughout the image, sliding a window with shape `:kernel_size`. As opposed to dense layers, a convolutional layer exploits weight sharing to better model data where locality matters. This feature is a natural fit for images.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n|            ![](https://miroslawmamczur.pl/wp-content/uploads/2021/03/06.gif)            |\n| :-------------------------------------------------------------------------------------: |\n| Figure 1: A step-by-step visualization of a convolution layer for `kernel_size: {3, 3}` |\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n`Axon.max_pool/2` adds a downscaling operation that takes the maximum value from a subtensor according to `:kernel_size`.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n| ![](https://production-media.paperswithcode.com/methods/MaxpoolSample2.png) |\n| :-------------------------------------------------------------------------: |\n|          Figure 2: Max pooling operation for `kernel_size: {2, 2}`          |\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n`Axon.dropout/2` and `Axon.spatial_dropout/2` add dropout layers which prevent a neural network from overfitting. Standard dropout drops a given rate of randomly chosen neurons during the training process. On the other hand, spatial dropout gets rid of whole feature maps. The graphical difference between dropout and spatial dropout is presented in a picture below.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n|  ![](https://miro.medium.com/max/1400/1*KkqxjvXTIV_b365B41ltfg.png)   |\n| :-------------------------------------------------------------------: |\n| Figure 3: The difference between standard dropout and spatial dropout |\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nKnowing the relevant building blocks, let's build our network! It will have a convolutional part, composed of convolutional and pooling layers, this part should capture the spatial features of an image. Then at the end, we will add a dense layer with 512 neurons fed with all the spatial features, and a final two-neuron layer for as our classification output.\n\n```elixir\nmodel =\n  Axon.input(\"input\", shape: {nil, 300, 300, 4})\n  |> Axon.conv(16, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.conv(32, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.spatial_dropout(rate: 0.5)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.conv(64, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.spatial_dropout(rate: 0.5)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.conv(64, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.conv(64, kernel_size: {3, 3}, activation: :relu)\n  |> Axon.max_pool(kernel_size: {2, 2})\n  |> Axon.flatten()\n  |> Axon.dropout(rate: 0.5)\n  |> Axon.dense(512, activation: :relu)\n  |> Axon.dense(2, activation: :softmax)\n```","ref":"horses_or_humans.html#building-the-model","title":"Building the model - Classifying horses and humans","type":"extras"},{"doc":"It's time to train our model. We specify the loss, optimizer and choose accuracy as our metric. We also set `log: 1` to frequently update the training progress. We manually specify the number of iterations, such that each epoch goes through all of the baches once.\n\n```elixir\ndata = HorsesHumans.DataProcessing.data_stream(files, batch_size)\n\noptimizer = Polaris.Optimizers.adam(learning_rate: 1.0e-4)\n\nparams =\n  model\n  |> Axon.Loop.trainer(:categorical_cross_entropy, optimizer, log: 1)\n  |> Axon.Loop.metric(:accuracy)\n  |> Axon.Loop.run(data, %{}, epochs: 10, iterations: batches_per_epoch)\n```\n\n<!-- livebook:{\"branch_parent_index\":5} -->","ref":"horses_or_humans.html#training-the-model","title":"Training the model - Classifying horses and humans","type":"extras"},{"doc":"We can improve the training by applying gradient centralization. It is a technique with a similar purpose to batch normalization. For each loss gradient, we subtract a mean value to have a gradient with mean equal to zero. This process prevents gradients from exploding.\n\n```elixir\ncentralized_optimizer = Polaris.Updates.compose(Polaris.Updates.centralize(), optimizer)\n\nmodel\n|> Axon.Loop.trainer(:categorical_cross_entropy, centralized_optimizer, log: 1)\n|> Axon.Loop.metric(:accuracy)\n|> Axon.Loop.run(data, %{}, epochs: 10, iterations: batches_per_epoch)\n```","ref":"horses_or_humans.html#extra-gradient-centralization","title":"Extra: gradient centralization - Classifying horses and humans","type":"extras"},{"doc":"We can now use our trained model, let's try a couple examples.\n\n```elixir\n{name, binary} = Enum.random(files)\nKino.Markdown.new(name) |> Kino.render()\nKino.Image.new(binary, :png) |> Kino.render()\n\ninput =\n  binary\n  |> StbImage.read_binary!()\n  |> StbImage.to_nx()\n  |> Nx.new_axis(0)\n  |> Nx.divide(255.0)\n\nAxon.predict(model, params, input)\n```\n\n_Note: the model output refers to the probability that the image presents a horse and a human respectively._\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nYou can find a validation set [here](https://storage.googleapis.com/learning-datasets/validation-horse-or-human.zip), in case you want to experiment further!","ref":"horses_or_humans.html#inference","title":"Inference - Classifying horses and humans","type":"extras"},{"doc":"# Generating text with LSTM\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:req, \"~> 0.3.1\"}\n])\n\nNx.Defn.default_options(compiler: EXLA)\nNx.global_default_backend(EXLA.Backend)\n```","ref":"lstm_generation.html","title":"Generating text with LSTM","type":"extras"},{"doc":"Recurrent Neural Networks (RNNs) can be used as generative models. This means that in addition to being used for predictive models (making predictions) they can learn the sequences of a problem and then generate entirely new plausible sequences for the problem domain.\n\nGenerative models like this are useful not only to study how well a model has learned a problem, but to learn more about the problem domain itself.\n\nIn this example, we will discover how to create a generative model for text, character-by-character using Long Short-Term Memory (LSTM) recurrent neural networks in Elixir with Axon.","ref":"lstm_generation.html#introduction","title":"Introduction - Generating text with LSTM","type":"extras"},{"doc":"Using [Project Gutenburg](https://www.gutenberg.org/) we can download a text books that are no longer protected under copywrite, so we can experiment with them.\n\nThe one that we will use for this experiment is [Alice's Adventures in Wonderland by Lewis Carroll](https://www.gutenberg.org/ebooks/11). You can choose any other text or book that you like for this experiment.\n\n```elixir\n# Change the URL if you'd like to experiment with other books\ndownload_url = \"https://www.gutenberg.org/files/11/11-0.txt\"\n\nbook_text = Req.get!(download_url).body\n```\n\nFirst of all, we need to normalize the content of the book. We are only interested in the sequence of English characters, periods and new lines. Also currently we don't care about the capitalization and things like apostrophe so we can remove all other unknown characters and downcase everything. We can use a regular expression for that.\n\nWe can also convert the string into a list of characters so we can handle them easier. You will understand exactly why a bit further.\n\n```elixir\nnormalized_book_text =\n  book_text\n  |> String.downcase()\n  |> String.replace(~r/[^a-z \\.\\n]/, \"\")\n  |> String.to_charlist()\n```\n\nWe converted the text to a list of characters, where each character is a number (specifically, a Unicode code point). Lowercase English characters are represented with numbers between `97 = a` and `122 = z`, a space is `32 = [ ]`, a new line is `10 = \\n` and the period is `46 = .`.\n\nSo we should have 26 + 3 (= 29) characters in total. Let's see if that's true.\n\n```elixir\nnormalized_book_text |> Enum.uniq() |> Enum.count()\n```\n\nSince we want to use this 29 characters as possible values for each input in our neural network, we can re-map them to values between 0 and 28. So each specific neuron will indicate a specific character.\n\n```elixir\n# Extract all then unique characters we have and sort them for clarity\ncharacters = normalized_book_text |> Enum.uniq() |> Enum.sort()\ncharacters_count = Enum.count(characters)\n\n# Create a mapping for every character\nchar_to_idx = characters |> Enum.with_index() |> Map.new()\n# And a reverse mapping to convert back to characters\nidx_to_char = characters |> Enum.with_index(&{&2, &1}) |> Map.new()\n\nIO.puts(\"Total book characters: #{Enum.count(normalized_book_text)}\")\nIO.puts(\"Total unique characters: #{characters_count}\")\n```\n\nNow we need to create our training and testing data sets. But how?\n\nOur goal is to teach the machine what comes after a sequence of characters (usually). For example given the following sequence **\"Hello, My name i\"** the computer should be able to guess that the next character is probably **\"s\"**.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n<!-- Learn more at https://mermaid-js.github.io/mermaid -->\n\n```mermaid\ngraph LR;\n  A[Input: Hello my name i]-->NN[Neural Network]-->B[Output: s];\n```\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nLet's choose an arbitrary sequence length and create a data set from the book text. All we need to do is read X amount of characters from the book as the input and then read 1 more as the designated output.\n\nAfter doing all that, we also want to convert every character to it's index using the `char_to_idx` mapping that we have created before.\n\nNeural networks work best if you scale your inputs and outputs. In this case we are going to scale everything between 0 and 1 by dividing them by the number of unique characters that we have.\n\nAnd for the final step we will reshape it so we can use the data in our LSTM model.\n\n```elixir\nsequence_length = 100\n\ntrain_data =\n  normalized_book_text\n  |> Enum.map(&Map.fetch!(char_to_idx, &1))\n  |> Enum.chunk_every(sequence_length, 1, :discard)\n  # We don't want the last chunk since we don't have a prediction for it.\n  |> Enum.drop(-1)\n  |> Nx.tensor()\n  |> Nx.divide(characters_count)\n  |> Nx.reshape({:auto, sequence_length, 1})\n```\n\nFor our train results, We will do the same. Drop the first `sequence_length` characters and then convert them to the mapping. Additionally, we will do **one-hot encoding**.\n\nThe reason we want to use one-hot encoding is that in our model we don't want to only return a character as the output. We want it to return the probability of each character for the output. This way we can decide if certain probability is good or not or even we can decide between multiple possible outputs or even discard everything if the network is not confident enough.\n\nIn Nx, you can achieve this encoding by using this snippet\n\n```elixir\nNx.tensor([\n  [0],\n  [1],\n  [2]\n])\n|> Nx.equal(Nx.iota({1, 3}))\n```\n\nTo sum it up, Here is how we generate the train results.\n\n```elixir\ntrain_results =\n  normalized_book_text\n  |> Enum.drop(sequence_length)\n  |> Enum.map(&Map.fetch!(char_to_idx, &1))\n  |> Nx.tensor()\n  |> Nx.reshape({:auto, 1})\n  |> Nx.equal(Nx.iota({1, characters_count}))\n```","ref":"lstm_generation.html#preparation","title":"Preparation - Generating text with LSTM","type":"extras"},{"doc":"```elixir\n# As the input, we expect the sequence_length characters\n\nmodel =\n  Axon.input(\"input_chars\", shape: {nil, sequence_length, 1})\n  # The LSTM layer of our network\n  |> Axon.lstm(256)\n  # Selecting only the output from the LSTM Layer\n  |> then(fn {out, _} -> out end)\n  # Since we only want the last sequence in LSTM we will slice it and\n  # select the last one\n  |> Axon.nx(fn t -> t[[0..-1//1, -1]] end)\n  # 20% dropout so we will not become too dependent on specific neurons\n  |> Axon.dropout(rate: 0.2)\n  # The output layer. One neuron for each character and using softmax,\n  # as activation so every node represents a probability\n  |> Axon.dense(characters_count, activation: :softmax)\n```","ref":"lstm_generation.html#defining-the-model","title":"Defining the Model - Generating text with LSTM","type":"extras"},{"doc":"To train the network, we will use Axon's Loop API. It is pretty straightforward.\n\nFor the loss function we can use _categorical cross-entropy_ since we are dealing with categories (each character) in our output. For the optimizer we can use _Adam_.\n\nWe will train our network for 20 epochs. Note that we are working with a fair amount data, so it may take a long time unless you run it on a GPU.\n\n```elixir\nbatch_size = 128\ntrain_batches = Nx.to_batched(train_data, batch_size)\nresult_batches = Nx.to_batched(train_results, batch_size)\n\nIO.puts(\"Total batches: #{Enum.count(train_batches)}\")\n\nparams =\n  model\n  |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.001))\n  |> Axon.Loop.run(Stream.zip(train_batches, result_batches), %{}, epochs: 20, compiler: EXLA)\n\n:ok\n```","ref":"lstm_generation.html#training-the-network","title":"Training the network - Generating text with LSTM","type":"extras"},{"doc":"Now we have a trained neural network, so we can start generating text with it! We just need to pass the initial sequence as the input to the network and select the most probable output. `Axon.predict/3` will give us the output layer and then using `Nx.argmax/1` we get the most confident neuron index, then simply convert that index back to its Unicode representation.\n\n```elixir\ngenerate_fn = fn model, params, init_seq ->\n  # The initial sequence that we want the network to complete for us.\n  init_seq =\n    init_seq\n    |> String.trim()\n    |> String.downcase()\n    |> String.to_charlist()\n    |> Enum.map(&Map.fetch!(char_to_idx, &1))\n\n  Enum.reduce(1..100, init_seq, fn _, seq ->\n    init_seq =\n      seq\n      |> Enum.take(-sequence_length)\n      |> Nx.tensor()\n      |> Nx.divide(characters_count)\n      |> Nx.reshape({1, sequence_length, 1})\n\n    char =\n      Axon.predict(model, params, init_seq)\n      |> Nx.argmax()\n      |> Nx.to_number()\n\n    seq ++ [char]\n  end)\n  |> Enum.map(&Map.fetch!(idx_to_char, &1))\nend\n\n# The initial sequence that we want the network to complete for us.\ninit_seq = \"\"\"\nnot like to drop the jar for fear\nof killing somebody underneath so managed to put it into one of the\ncupboards as she fell past it.\n\"\"\"\n\ngenerate_fn.(model, params, init_seq) |> IO.puts()\n```","ref":"lstm_generation.html#generating-text","title":"Generating text - Generating text with LSTM","type":"extras"},{"doc":"We can improve our network by stacking multiple LSTM layers together. We just need to change our model and re-train our network.\n\n```elixir\nnew_model =\n  Axon.input(\"input_chars\", shape: {nil, sequence_length, 1})\n  |> Axon.lstm(256)\n  |> then(fn {out, _} -> out end)\n  |> Axon.dropout(rate: 0.2)\n  # This time we will pass all of the `out` to the next lstm layer.\n  # We just need to slice the last one.\n  |> Axon.lstm(256)\n  |> then(fn {out, _} -> out end)\n  |> Axon.nx(fn x -> x[[0..-1//1, -1]] end)\n  |> Axon.dropout(rate: 0.2)\n  |> Axon.dense(characters_count, activation: :softmax)\n```\n\nThen we can train the network using the exact same code as before\n\n```elixir\n# Using a smaller batch size in this case will give the network more opportunity to learn\nbatch_size = 64\ntrain_batches = Nx.to_batched(train_data, batch_size)\nresult_batches = Nx.to_batched(train_results, batch_size)\n\nIO.puts(\"Total batches: #{Enum.count(train_batches)}\")\n\nnew_params =\n  new_model\n  |> Axon.Loop.trainer(:categorical_cross_entropy, Polaris.Optimizers.adam(learning_rate: 0.001))\n  |> Axon.Loop.run(Stream.zip(train_batches, result_batches), %{}, epochs: 50, compiler: EXLA)\n\n:ok\n```","ref":"lstm_generation.html#multi-lstm-layers","title":"Multi LSTM layers - Generating text with LSTM","type":"extras"},{"doc":"```elixir\ngenerate_fn.(new_model, new_params, init_seq) |> IO.puts()\n```\n\nAs you may see, it improved a lot with this new model and the extensive training. This time it knows about rules like adding a space after period.","ref":"lstm_generation.html#generate-text-with-the-new-network","title":"Generate text with the new network - Generating text with LSTM","type":"extras"},{"doc":"The above example was written heavily inspired by [this article](https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/) by Jason Brownlee.","ref":"lstm_generation.html#references","title":"References - Generating text with LSTM","type":"extras"},{"doc":"# Classifying fraudulent transactions\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:explorer, \"~> 0.3.1\"},\n  {:kino, \"~> 0.7.0\"}\n])\n\nNx.Defn.default_options(compiler: EXLA)\nNx.global_default_backend(EXLA.Backend)\n\nalias Explorer.{DataFrame, Series}\n```","ref":"credit_card_fraud.html","title":"Classifying fraudulent transactions","type":"extras"},{"doc":"This time we will examine the Credit Card Fraud Dataset. Due to confidentiality, the original data were preprocessed by principal component analysis (PCA), and then 31 principal components were selected for the final data set. The dataset is highly imbalanced. The positive class (frauds) account for 0.172% of all transactions. Eventually, we will create a classifier which has not only great accuracy but, what is even more important, a high _recall_ and _precision_ - two metrics that are much more indicative of performance with imbalanced classification problems.","ref":"credit_card_fraud.html#introduction","title":"Introduction - Classifying fraudulent transactions","type":"extras"},{"doc":"The first step is to prepare the data for training and evaluation. Please download the dataset in the CSV format from https://www.kaggle.com/mlg-ulb/creditcardfraud (this requires a Kaggla account). Once done, put the file path in the input below.\n\n```elixir\ndata_path_input = Kino.Input.text(\"Data path (CSV)\")\n```\n\nNow, let's read the data into an `Explorer.Dataframe`:\n\n```elixir\ndata_path = Kino.Input.read(data_path_input)\n\ndf = DataFrame.from_csv!(data_path, dtypes: [{\"Time\", :float}])\n```\n\nFor further processing, we will need a couple helper functions. We will group them in a module for convenience.\n\n```elixir\ndefmodule CredidCard.Data do\n  import Nx.Defn\n\n  def split_train_test(df, portion) do\n    num_examples = DataFrame.n_rows(df)\n    num_train = ceil(portion * num_examples)\n    num_test = num_examples - num_train\n\n    train = DataFrame.slice(df, 0, num_train)\n    test = DataFrame.slice(df, num_train, num_test)\n    {train, test}\n  end\n\n  def split_features_targets(df) do\n    features = DataFrame.select(df, &(&1 == \"Class\"), :drop)\n    targets = DataFrame.select(df, &(&1 == \"Class\"), :keep)\n    {features, targets}\n  end\n\n  def df_to_tensor(df) do\n    df\n    |> DataFrame.names()\n    |> Enum.map(&Series.to_tensor(df[&1]))\n    |> Nx.stack(axis: 1)\n  end\n\n  defn normalize_features(tensor) do\n    max =\n      tensor\n      |> Nx.abs()\n      |> Nx.reduce_max(axes: [0], keep_axes: true)\n\n    tensor / max\n  end\nend\n```\n\nWith that, we can start converting the data into the desired format. First, we split the data into training and test data (in proportion 80% into a training set and 20% into a test set).\n\n```elixir\n{train_df, test_df} = CredidCard.Data.split_train_test(df, 0.8)\n{DataFrame.n_rows(train_df), DataFrame.n_rows(test_df)}\n```\n\nNext, we separate features from labels and convert both to tensors. In case of features we additionally normalize each of them, dividing by the maximum absolute value of that feature.\n\n```elixir\n{train_features, train_targets} = CredidCard.Data.split_features_targets(train_df)\n{test_features, test_targets} = CredidCard.Data.split_features_targets(test_df)\n\ntrain_inputs =\n  train_features\n  |> CredidCard.Data.df_to_tensor()\n  |> CredidCard.Data.normalize_features()\n\ntest_inputs =\n  test_features\n  |> CredidCard.Data.df_to_tensor()\n  |> CredidCard.Data.normalize_features()\n\ntrain_targets = CredidCard.Data.df_to_tensor(train_targets)\ntest_targets = CredidCard.Data.df_to_tensor(test_targets)\n\n:ok\n```","ref":"credit_card_fraud.html#data-processing","title":"Data processing - Classifying fraudulent transactions","type":"extras"},{"doc":"Our model for predicting whether a transaction was fraudulent or not is a dense neural network. It consists of two dense layers with 256 neurons, ReLU activation functions, one dropout layer, and a dense layer with one neuron (since the problem is a binary prediction) followed by a sigmoid activation function.\n\n```elixir\nmodel =\n  Axon.input(\"input\")\n  |> Axon.dense(256)\n  |> Axon.relu()\n  |> Axon.dense(256)\n  |> Axon.relu()\n  |> Axon.dropout(rate: 0.3)\n  |> Axon.dense(1)\n  |> Axon.sigmoid()\n```","ref":"credit_card_fraud.html#building-the-model","title":"Building the model - Classifying fraudulent transactions","type":"extras"},{"doc":"Now we have both data and model architecture prepared, it's time to train!\n\nNote the disproportion in the data samples:\n\n```elixir\nfraud = Nx.sum(train_targets) |> Nx.to_number()\nlegit = Nx.size(train_targets) - fraud\n\nbatched_train_inputs = Nx.to_batched(train_inputs, 2048)\nbatched_train_targets = Nx.to_batched(train_targets, 2048)\nbatched_train = Stream.zip(batched_train_inputs, batched_train_targets)\n\nIO.puts(\"# of legit transactions (train): #{legit}\")\nIO.puts(\"# of fraudulent transactions (train): #{fraud}\")\nIO.puts(\"% fraudlent transactions (train): #{100 * (fraud / (legit + fraud))}%\")\n```\n\nAs always, we define our train loop. We are using _binary cross-entropy_ as our loss function and Adam as the optimizer with a learning rate of 0.01. Then we immediately start the training passing our train portion of the dataset.\n\n```elixir\nloss =\n  &Axon.Losses.binary_cross_entropy(\n    &1,\n    &2,\n    negative_weight: 1 / legit,\n    positive_weight: 1 / fraud,\n    reduction: :mean\n  )\n\noptimizer = Polaris.Optimizers.adam(learning_rate: 1.0e-2)\n\nparams =\n  model\n  |> Axon.Loop.trainer(loss, optimizer)\n  |> Axon.Loop.run(batched_train, %{}, epochs: 30, compiler: EXLA)\n\n:ok\n```","ref":"credit_card_fraud.html#training-our-model","title":"Training our model - Classifying fraudulent transactions","type":"extras"},{"doc":"After the training, there is only one thing left: testing. Here, we will focus on the number of true positive, true negative, false positive, and false negative values, but also on the likelihood of denying legit and fraudulent transactions.\n\n```elixir\nbatched_test_inputs = Nx.to_batched(test_inputs, 2048)\nbatched_test_targets = Nx.to_batched(test_targets, 2048)\nbatched_test = Stream.zip(batched_test_inputs, batched_test_targets)\n\nsummarize = fn %Axon.Loop.State{metrics: metrics} = state ->\n  legit_transactions_declined = Nx.to_number(metrics[\"fp\"])\n  legit_transactions_accepted = Nx.to_number(metrics[\"tn\"])\n  fraud_transactions_accepted = Nx.to_number(metrics[\"fn\"])\n  fraud_transactions_declined = Nx.to_number(metrics[\"tp\"])\n  total_fraud = fraud_transactions_declined + fraud_transactions_accepted\n  total_legit = legit_transactions_declined + legit_transactions_accepted\n\n  fraud_denial_percent = 100 * (fraud_transactions_declined / total_fraud)\n  legit_denial_percent = 100 * (legit_transactions_declined / total_legit)\n\n  IO.write(\"\\n\")\n  IO.puts(\"Legit Transactions Declined: #{legit_transactions_declined}\")\n  IO.puts(\"Fraudulent Transactions Caught: #{fraud_transactions_declined}\")\n  IO.puts(\"Fraudulent Transactions Missed: #{fraud_transactions_accepted}\")\n  IO.puts(\"Likelihood of catching fraud: #{fraud_denial_percent}%\")\n  IO.puts(\"Likelihood of denying legit transaction: #{legit_denial_percent}%\")\n\n  {:continue, state}\nend\n\nmodel\n|> Axon.Loop.evaluator()\n|> Axon.Loop.metric(:true_positives, \"tp\", :running_sum)\n|> Axon.Loop.metric(:true_negatives, \"tn\", :running_sum)\n|> Axon.Loop.metric(:false_positives, \"fp\", :running_sum)\n|> Axon.Loop.metric(:false_negatives, \"fn\", :running_sum)\n|> Axon.Loop.handle(:epoch_completed, summarize)\n|> Axon.Loop.run(batched_test, params, compiler: EXLA)\n\n:ok\n```","ref":"credit_card_fraud.html#model-evaluation","title":"Model evaluation - Classifying fraudulent transactions","type":"extras"},{"doc":"# MNIST Denoising Autoencoder using Kino for visualization\n\n```elixir\nMix.install([\n  {:exla, \"~> 0.4.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:axon, \"~> 0.3.0\"},\n  {:req, \"~> 0.3.1\"},\n  {:kino, \"~> 0.7.0\"},\n  {:scidata, \"~> 0.1.9\"},\n  {:stb_image, \"~> 0.5.2\"},\n  {:table_rex, \"~> 3.1.1\"}\n])\n```","ref":"mnist_autoencoder_using_kino.html","title":"MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"The goal of this notebook is to build a Denoising Autoencoder from scratch using Livebook. This notebook is based on [Training an Autoencoder on Fashion MNIST](fashionmnist_autoencoder.livemd), but includes some tips on using Livebook to train the model and using [Kino](https://hexdocs.pm/kino/Kino.html) (Livebook's interactive widget library) to play with and visualize our results.","ref":"mnist_autoencoder_using_kino.html#introduction","title":"Introduction - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"An autoencoder learns to recreate data it's seen in the dataset. For this notebook, we're going to try something simple: generating images of digits using the MNIST digit recognition dataset.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nFollowing along with the [Fashion MNIST Autoencoder example](fashionmnist_autoencoder.livemd), we'll use [Scidata](https://github.com/elixir-nx/scidata) to download the MNIST dataset and then preprocess the data.\n\n```elixir\n# We're not going to use the labels so we'll ignore them\n{train_images, _train_labels} = Scidata.MNIST.download()\n{train_images_binary, type, shape} = train_images\n```\n\nThe `shape` tells us we have 60,000 images with a single channel of size 28x28.\n\nAccording to [the MNIST website](http://yann.lecun.com/exdb/mnist/):\n\n> Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).\n\nLet's preprocess and normalize the data accordingly.\n\n```elixir\ntrain_images =\n  train_images_binary\n  |> Nx.from_binary(type)\n  # Since pixels are organized row-wise, reshape into rows x columns\n  |> Nx.reshape(shape, names: [:images, :channels, :height, :width])\n  # Normalize the pixel values to be between 0 and 1\n  |> Nx.divide(255)\n```\n\n```elixir\n# Make sure they look like numbers\ntrain_images[[images: 0..2]] |> Nx.to_heatmap()\n```\n\nThat looks right! Let's repeat the process for the test set.\n\n```elixir\n{test_images, _train_labels} = Scidata.MNIST.download_test()\n{test_images_binary, type, shape} = test_images\n\ntest_images =\n  test_images_binary\n  |> Nx.from_binary(type)\n  # Since pixels are organized row-wise, reshape into rows x columns\n  |> Nx.reshape(shape, names: [:images, :channels, :height, :width])\n  # Normalize the pixel values to be between 0 and 1\n  |> Nx.divide(255)\n\ntest_images[[images: 0..2]] |> Nx.to_heatmap()\n```","ref":"mnist_autoencoder_using_kino.html#data-loading","title":"Data loading - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"An autoencoder is a a network that has the same sized input as output, with a \"bottleneck\" layer in the middle with far fewer parameters than the input. Its goal is to force the output to reconstruct the input. The bottleneck layer forces the network to learn a compressed representation of the input space.\n\nA _denoising_ autoencoder is a small tweak on an autoencoder that takes a corrupted input (often corrupted by adding noise or zeroing out pixels) and reconstructs the original input, removing the noise in the process.\n\nThe part of the autoencoder that takes the input and compresses it into the bottleneck layer is called the _encoder_ and the part that takes the compressed representation and reconstructs the input is called the _decoder_. Usually the decoder mirrors the encoder.\n\nMNIST is a pretty easy dataset, so we're going to try a fairly small autoencoder.\n\nThe input image has size 784 (28 rows _ 28 cols _ 1 pixel). We'll set up the encoder to turn that into 256 features, then 128, 64, and then 10 features for the bottleneck layer. The decoder will do the reverse, take the 10 features and go to 64, 128, 256 and 784. I'll use fully-connected (dense) layers.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\n#","ref":"mnist_autoencoder_using_kino.html#building-the-model","title":"Building the model - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"```elixir\nmodel =\n  Axon.input(\"image\", shape: {nil, 1, 28, 28})\n  # This is now 28*28*1 = 784\n  |> Axon.flatten()\n  # The encoder\n  |> Axon.dense(256, activation: :relu)\n  |> Axon.dense(128, activation: :relu)\n  |> Axon.dense(64, activation: :relu)\n  # Bottleneck layer\n  |> Axon.dense(10, activation: :relu)\n  # The decoder\n  |> Axon.dense(64, activation: :relu)\n  |> Axon.dense(128, activation: :relu)\n  |> Axon.dense(256, activation: :relu)\n  |> Axon.dense(784, activation: :sigmoid)\n  # Turn it back into a 28x28 single channel image\n  |> Axon.reshape({:auto, 1, 28, 28})\n\n# We can use Axon.Display to show us what each of the layers would look like\n# assuming we send in a batch of 4 images\nAxon.Display.as_table(model, Nx.template({4, 1, 28, 28}, :f32)) |> IO.puts()\n```\n\nChecking our understanding, since the layers are all dense layers, the number of parameters should be `input_features * output_features` parameters for the weights + `output_features` parameters for the biases for each layer.\n\nThis should match the `Total Parameters` output from Axon.Display (486298 parameters)\n\n```elixir\n# encoder\nencoder_parameters = 784 * 256 + 256 + (256 * 128 + 128) + (128 * 64 + 64) + (64 * 10 + 10)\ndecoder_parameters = 10 * 64 + 64 + (64 * 128 + 128) + (128 * 256 + 256) + (256 * 784 + 784)\ntotal_parameters = encoder_parameters + decoder_parameters\n```\n\n#","ref":"mnist_autoencoder_using_kino.html#the-model","title":"The model - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"With the model set up, we can now try to train the model. We'll use MSE loss to compare our reconstruction with the original\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nWe'll create the training input by turning our image list into batches of size 128 and then using the same image as both the input and the target. However, the input image will have noise added to it that the autoencoder will have to remove.\n\nFor validation data, we'll use the test set and look at how the autoencoder does at reconstructing the test set to make sure we're not overfitting\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nThe function below adds some noise to the image by adding the image with gaussian noise scaled by a noise factor. We then have to make sure the pixel values are still within the 0..1.0 range.\n\nWe have to define this function using `defn` so that `Nx` can optimize it. If we don't do this, adding noise will take a really long time, making our training loop very slow. See [Nx.defn](https://hexdocs.pm/nx/Nx.Defn.html) for more details. `defn` can only be used in a module so we'll define a little module to contain it.\n\n```elixir\ndefmodule Noiser do\n  import Nx.Defn\n\n  @noise_factor 0.4\n\n  defn add_noise(images) do\n    @noise_factor\n    |> Nx.multiply(Nx.random_normal(images))\n    |> Nx.add(images)\n    |> Nx.clip(0.0, 1.0)\n  end\nend\n\nadd_noise = Nx.Defn.jit(&Noiser.add_noise/1, compiler: EXLA)\n```\n\n```elixir\nbatch_size = 128\n\n# The original image which is the target the network will trying to match\nbatched_train_images =\n  train_images\n  |> Nx.to_batched(batch_size)\n\nbatched_noisy_train_images =\n  train_images\n  |> Nx.to_batched(batch_size)\n  # goes after to_batched so the noise is different every time\n  |> Stream.map(add_noise)\n\n# The noisy image is the input to the network\n# and the original image is the target it's trying to match\ntrain_data = Stream.zip(batched_noisy_train_images, batched_train_images)\n\nbatched_test_images =\n  test_images\n  |> Nx.to_batched(batch_size)\n\nbatched_noisy_test_images =\n  test_images\n  |> Nx.to_batched(batch_size)\n  |> Stream.map(add_noise)\n\ntest_data = Stream.zip(batched_noisy_test_images, batched_test_images)\n```\n\nLet's see what an element of the input and target look like\n\n```elixir\n{input_batch, target_batch} = Enum.at(train_data, 0)\n{Nx.to_heatmap(input_batch[images: 0]), Nx.to_heatmap(target_batch[images: 0])}\n```\n\nLooks right (and tricky). Let's see how the model does.\n\n```elixir\nparams =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, Polaris.Optimizers.adamw(learning_rate: 0.001))\n  |> Axon.Loop.validate(model, test_data)\n  |> Axon.Loop.run(train_data, %{}, epochs: 20, compiler: EXLA)\n\n:ok\n```\n\nNow that we have a model that theoretically has learned _something_, we'll see what it's learned by running it on some images from the test set. We'll use Kino to allow us to select the image from the test set to run the model against. To avoid losing the params that took a while to train, we'll create another branch so we can experiment with the params and stop execution when needed without having to retrain.\n\n<!-- livebook:{\"branch_parent_index\":2} -->","ref":"mnist_autoencoder_using_kino.html#training","title":"Training - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"**A note on branching**\n\nBy default, everything in Livebook runs sequentially in a single process. Stopping a running cell aborts that process and consequently all its state is lost. A **branching section** copies everything from its parent and runs in a separate process. Thanks to this **isolation**, when we stop a cell in a branching section, only the state within that section is gone.\n\nSince we just spent a bunch of time training the model and don't want to lose that memory state as we continue to experiment, we create a branching section. This does add some memory overhead, but it's worth it so we can experiment without fear!\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nTo use `Kino` to give us an interactive tool to evaluate the model, we'll create a `Kino.Frame` that we can dynamically update. We'll also create a form using `Kino.Control` to allow the user to select which image from the test set they'd like to evaluate the model on. Finally `Kino.Control.stream` enables us to respond to changes in the user's selection when the user clicks the \"Render\" button.\n\nWe can use `Nx.concatenate` to stack the images side by side for a prettier output.\n\n```elixir\nform =\n  Kino.Control.form(\n    [\n      test_image_index: Kino.Input.number(\"Test Image Index\", default: 0)\n    ],\n    submit: \"Render\"\n  )\n\nKino.render(form)\n\nform\n|> Kino.Control.stream()\n|> Kino.animate(fn %{data: %{test_image_index: image_index}} ->\n  test_image = test_images[[images: image_index]] |> add_noise.()\n\n  reconstructed_image =\n    model\n    |> Axon.predict(params, test_image)\n    # Get rid of the batch dimension\n    |> Nx.squeeze(axes: [0])\n\n  combined_image = Nx.concatenate([test_image, reconstructed_image], axis: :width)\n  Nx.to_heatmap(combined_image)\nend)\n```\n\nThat looks pretty good!\n\nNote we used `Kino.animate/2` which runs asynchronously so we don't block execution of the rest of the notebook.\n\n<!-- livebook:{\"branch_parent_index\":2} -->","ref":"mnist_autoencoder_using_kino.html#evaluation","title":"Evaluation - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"_Note that we branch from the \"Building a model\" section since we only need the model definition for this section and not the previously trained model._\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nIt'd be nice to see how the model improves as it trains. In this section (also a branch since I plan to experiment and don't want to lose the execution state) we'll improve the training loop to use `Kino` to show us how it's doing.\n\n[Axon.Loop.handle](https://hexdocs.pm/axon/Axon.Loop.html#handle/4) gives us a hook into various points of the training loop. We'll can use it with the `:iteration_completed` event to get a copy of the state of the params after some number of completed iterations of the training loop. By using those params to render an image in the test set, we can get a live view of the autoencoder learning to reconstruct its inputs.\n\n```elixir\n# A helper function to display the input and output side by side\ncombined_input_output = fn params, image_index ->\n  test_image = test_images[[images: image_index]] |> add_noise.()\n  reconstructed_image = Axon.predict(model, params, test_image) |> Nx.squeeze(axes: [0])\n  Nx.concatenate([test_image, reconstructed_image], axis: :width)\nend\n\nNx.to_heatmap(combined_input_output.(params, 0))\n```\n\nIt'd also be nice to have a prettier version of the output. Let's convert the heatmap to a png to make that happen.\n\n```elixir\nimage_to_kino = fn image ->\n  image\n  |> Nx.multiply(255)\n  |> Nx.as_type(:u8)\n  |> Nx.transpose(axes: [:height, :width, :channels])\n  |> StbImage.from_nx()\n  |> StbImage.resize(200, 400)\n  |> StbImage.to_binary(:png)\n  |> Kino.Image.new(:png)\nend\n\nimage_to_kino.(combined_input_output.(params, 0))\n```\n\nMuch nicer!\n\nOnce again we'll use `Kino.Frame` for dynamically updating output:\n\n```elixir\nframe = Kino.Frame.new() |> Kino.render()\n\nrender_example_handler = fn state ->\n  Kino.Frame.append(frame, \"Epoch: #{state.epoch}, Iteration: #{state.iteration}\")\n  # state.step_state[:model_state] contains the model params when this event is fired\n  params = state.step_state[:model_state]\n  image_index = Enum.random(0..(Nx.axis_size(test_images, :images) - 1))\n  image = combined_input_output.(params, image_index) |> image_to_kino.()\n  Kino.Frame.append(frame, image)\n  {:continue, state}\nend\n\nparams =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, Polaris.Optimizers.adamw(learning_rate: 0.001))\n  |> Axon.Loop.handle(:iteration_completed, render_example_handler, every: 450)\n  |> Axon.Loop.validate(model, test_data)\n  |> Axon.Loop.run(train_data, %{}, epochs: 20, compiler: EXLA)\n\n:ok\n```\n\nAwesome! We have a working denoising autoencoder that we can visualize getting better in 20 epochs!","ref":"mnist_autoencoder_using_kino.html#a-better-training-loop","title":"A better training loop - MNIST Denoising Autoencoder using Kino for visualization","type":"extras"},{"doc":"# Training an Autoencoder on Fashion MNIST\n\n```elixir\nMix.install([\n  {:axon, \"~> 0.3.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:exla, \"~> 0.4.0\"},\n  {:scidata, \"~> 0.1.9\"}\n])\n\nNx.Defn.default_options(compiler: EXLA)\n```","ref":"fashionmnist_autoencoder.html","title":"Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"An autoencoder is a deep learning model which consists of two parts: encoder and decoder. The encoder compresses high dimensional data into a low dimensional representation and feeds it to the decoder. The decoder tries to recreate the original data from the low dimensional representation.\nAutoencoders can be used in the following problems:\n\n* Dimensionality reduction\n* Noise reduction\n* Generative models\n* Data augmentation\n\nLet's walk through a basic autoencoder implementation in Axon to get a better understanding of how they work in practice.","ref":"fashionmnist_autoencoder.html#introduction","title":"Introduction - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"To train and test how our model works, we use one of the most popular data sets: [Fashion MNIST](https://github.com/zalandoresearch/fashion-mnist). It consists of small black and white images of clothes. Loading this data set is very simple with the help of `Scidata`.\n\n```elixir\n{image_data, _label_data} = Scidata.FashionMNIST.download()\n{bin, type, shape} = image_data\n```\n\nWe get the data in a raw format, but this is exactly the information we need to build an Nx tensor.\n\n```elixir\ntrain_images =\n  bin\n  |> Nx.from_binary(type)\n  |> Nx.reshape(shape)\n  |> Nx.divide(255.0)\n```\n\nWe also normalize pixel values into the range $[0, 1]$.\n\n<!-- livebook:{\"break_markdown\":true} -->\n\nWe can visualize one of the images by looking at the tensor heatmap:\n\n```elixir\nNx.to_heatmap(train_images[1])\n```","ref":"fashionmnist_autoencoder.html#downloading-the-data","title":"Downloading the data - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"First we need to define the encoder and decoder. Both are one-layer neural networks.\n\nIn the encoder, we start by flattening the input, so we get from shape `{batch_size, 1, 28, 28}` to `{batch_size, 784}` and we pass the input into a dense layer. Our dense layer has only `latent_dim` number of neurons. The `latent_dim` (or the latent space) is a compressed representation of data. Remember, we want our encoder to compress the input data into a lower-dimensional representation, so we choose a `latent_dim` which is less than the dimensionality of the input.\n\n```elixir\nencoder = fn x, latent_dim ->\n  x\n  |> Axon.flatten()\n  |> Axon.dense(latent_dim, activation: :relu)\nend\n```\n\nNext, we pass the output of the encoder to the decoder and try to reconstruct the compressed data into its original form. Since our original input had a dimensionality of 784, we use a dense layer with 784 neurons. Because our original data was normalized to have pixel values between 0 and 1, we use a `:sigmoid` activation in our dense layer to squeeze output values between 0 and 1. Our original input shape was 28x28, so we use `Axon.reshape` to convert the flattened representation of the outputs into an image with correct the width and height.\n\n```elixir\ndecoder = fn x ->\n  x\n  |> Axon.dense(784, activation: :sigmoid)\n  |> Axon.reshape({:batch, 1, 28, 28})\nend\n```\n\nIf we just bind the encoder and decoder sequentially, we'll get the desired model. This was pretty smooth, wasn't it?\n\n```elixir\nmodel =\n  Axon.input(\"input\", shape: {nil, 1, 28, 28})\n  |> encoder.(64)\n  |> decoder.()\n```","ref":"fashionmnist_autoencoder.html#encoder-and-decoder","title":"Encoder and decoder - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"Finally, we can train the model. We'll use the `:adam` and `:mean_squared_error` loss with `Axon.Loop.trainer`. Our loss function will measure the aggregate error between pixels of original images and the model's reconstructed images. We'll also `:mean_absolute_error` using `Axon.Loop.metric`. `Axon.Loop.run` trains the model with the given training data.\n\n```elixir\nbatch_size = 32\nepochs = 5\n\nbatched_images = Nx.to_batched(train_images, batch_size)\ntrain_batches = Stream.zip(batched_images, batched_images)\n\nparams =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, :adam)\n  |> Axon.Loop.metric(:mean_absolute_error, \"Error\")\n  |> Axon.Loop.run(train_batches, %{}, epochs: epochs, compiler: EXLA)\n```","ref":"fashionmnist_autoencoder.html#training-the-model","title":"Training the model - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"To better understand what is mean absolute error (MAE) and mean square error (MSE) let's go through an example.\n\n```elixir\n# Error definitions for a single sample\n\nmean_square_error = fn y_pred, y ->\n  y_pred\n  |> Nx.subtract(y)\n  |> Nx.power(2)\n  |> Nx.mean()\nend\n\nmean_absolute_error = fn y_pred, y ->\n  y_pred\n  |> Nx.subtract(y)\n  |> Nx.abs()\n  |> Nx.mean()\nend\n```\n\nWe will work with a sample image of a shoe, a slightly noised version of that image, and also an entirely different image from the dataset.\n\n```elixir\nshoe_image = train_images[0]\nnoised_shoe_image = Nx.add(shoe_image, Nx.random_normal(shoe_image, 0.0, 0.05))\nother_image = train_images[1]\n:ok\n```\n\nFor the same image both errors should be 0, because when we have two exact copies, there is no pixel difference.\n\n```elixir\n{\n  mean_square_error.(shoe_image, shoe_image),\n  mean_absolute_error.(shoe_image, shoe_image)\n}\n```\n\nNow the noised image:\n\n```elixir\n{\n  mean_square_error.(shoe_image, noised_shoe_image),\n  mean_absolute_error.(shoe_image, noised_shoe_image)\n}\n```\n\nAnd a different image:\n\n```elixir\n{\n  mean_square_error.(shoe_image, other_image),\n  mean_absolute_error.(shoe_image, other_image)\n}\n```\n\nAs we can see, the noised image has a non-zero MSE and MAE but is much smaller than the error of two completely different pictures. In other words, both of these error types measure the level of similarity between images. A small error implies decent prediction values. On the other hand, a large error value suggests poor quality of predictions.\n\nIf you look at our implementation of MAE and MSE, you will notice that they are very similar. MAE and MSE can also be called the $L_1$ and $L_2$ loss respectively for the $L_1$ and $L_2$ norm. The $L_2$ loss (MSE) is typically preferred because it's a smoother function whereas $L_1$ is often difficult to optimize with stochastic gradient descent (SGD).","ref":"fashionmnist_autoencoder.html#extra-losses","title":"Extra: losses - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"Now, let's see how our model is doing! We will compare a sample image before and after compression.\n\n```elixir\nsample_image = train_images[0..0//1]\ncompressed_image = Axon.predict(model, params, sample_image, compiler: EXLA)\n\nsample_image\n|> Nx.to_heatmap()\n|> IO.inspect(label: \"Original\")\n\ncompressed_image\n|> Nx.to_heatmap()\n|> IO.inspect(label: \"Compressed\")\n\n:ok\n```\n\nAs we can see, the generated image is similar to the input image. The only difference between them is the absence of a sign in the middle of the second shoe. The model treated the sign as noise and bled this into the plain shoe.","ref":"fashionmnist_autoencoder.html#inference","title":"Inference - Training an Autoencoder on Fashion MNIST","type":"extras"},{"doc":"# A Variational Autoencoder for MNIST\n\n```elixir\nMix.install([\n  {:exla, \"~> 0.4.0\"},\n  {:nx, \"~> 0.4.0\", override: true},\n  {:axon, \"~> 0.3.0\"},\n  {:req, \"~> 0.3.1\"},\n  {:kino, \"~> 0.7.0\"},\n  {:scidata, \"~> 0.1.9\"},\n  {:stb_image, \"~> 0.5.2\"},\n  {:kino_vega_lite, \"~> 0.1.6\"},\n  {:vega_lite, \"~> 0.1.6\"},\n  {:table_rex, \"~> 3.1.1\"}\n])\n\nalias VegaLite, as: Vl\n\n# This speeds up all our `Nx` operations without having to use `defn`\nNx.global_default_backend(EXLA.Backend)\n\n:ok\n```","ref":"fashionmnist_vae.html","title":"A Variational Autoencoder for MNIST","type":"extras"},{"doc":"In this notebook, we'll be building a variational autoencoder (VAE). This will help demonstrate splitting up models, defining custom layers and loss functions, using multiple outputs, and a few additional Kino tricks for training models.\n\nThis notebook builds on the [denoising autoencoder example](mnist_autoencoder_using_kino.livemd) and turns the simple autoencoder into a variational one for the same dataset.","ref":"fashionmnist_vae.html#introduction","title":"Introduction - A Variational Autoencoder for MNIST","type":"extras"},{"doc":"This section will proceed without much explanation as most of it is extracted from [denoising autoencoder example](mnist_autoencoder_using_kino.livemd). If anything here doesn't make sense, take a look at that notebook for an explanation.\n\n```elixir\ndefmodule Data do\n  @moduledoc \"\"\"\n  A module to hold useful data processing utilities,\n  mostly extracted from the previous notebook\n  \"\"\"\n\n  @doc \"\"\"\n  Converts the given image into a `Kino.Image`.\n\n  `image` must be a single channel `Nx` tensor with pixel values between 0 and 1.\n  `height` and `width` are the output size in pixels\n  \"\"\"\n  def image_to_kino(image, height \\\\ 200, width \\\\ 200) do\n    image\n    |> Nx.multiply(255)\n    |> Nx.as_type(:u8)\n    |> Nx.transpose(axes: [:height, :width, :channels])\n    |> StbImage.from_nx()\n    |> StbImage.resize(height, width)\n    |> StbImage.to_binary(:png)\n    |> Kino.Image.new(:png)\n  end\n\n  @doc \"\"\"\n  Converts image data from `Scidata.MNIST` into an `Nx` tensor and normalizes it.\n  \"\"\"\n  def preprocess_data(data) do\n    {image_data, _labels} = data\n    {images_binary, type, shape} = image_data\n\n    images_binary\n    |> Nx.from_binary(type)\n    # Since pixels are organized row-wise, reshape into rows x columns\n    |> Nx.reshape(shape, names: [:images, :channels, :height, :width])\n    # Normalize the pixel values to be between 0 and 1\n    |> Nx.divide(255)\n  end\n\n  @doc \"\"\"\n  Converts a tensor of images into random batches of paired images for model training\n  \"\"\"\n  def prepare_training_data(images, batch_size) do\n    Stream.flat_map([nil], fn nil ->\n      images |> Nx.shuffle(axis: :images) |> Nx.to_batched(batch_size)\n    end)\n    |> Stream.map(fn batch -> {batch, batch} end)\n  end\nend\n```\n\n```elixir\ntrain_images = Data.preprocess_data(Scidata.FashionMNIST.download())\ntest_images = Data.preprocess_data(Scidata.FashionMNIST.download_test())\n\nKino.render(train_images[[images: 0]] |> Data.image_to_kino())\nKino.render(test_images[[images: 0]] |> Data.image_to_kino())\n\n:ok\n```\n\nNow for our simple autoencoder model. We won't be using a denoising autoencoder here.\n\nNote that we're giving each of the layers a name - the reason for this will be apparent later.\n\nI'm also using a small custom layer to shift and scale the output of the sigmoid layer slightly so it can hit the 0 and 1 targets. I noticed the gradients tend to explode without this.\n\n```elixir\ndefmodule CustomLayer do\n  import Nx.Defn\n\n  def scaling_layer(%Axon{} = input, _opts \\\\ []) do\n    Axon.layer(&scaling_layer_impl/2, [input])\n  end\n\n  defnp scaling_layer_impl(x, _opts \\\\ []) do\n    x\n    |> Nx.subtract(0.05)\n    |> Nx.multiply(1.2)\n  end\nend\n```\n\n```elixir\nmodel =\n  Axon.input(\"image\", shape: {nil, 1, 28, 28})\n  # This is now 28*28*1 = 784\n  |> Axon.flatten()\n  # The encoder\n  |> Axon.dense(256, activation: :relu, name: \"encoder_layer_1\")\n  |> Axon.dense(128, activation: :relu, name: \"encoder_layer_2\")\n  |> Axon.dense(64, activation: :relu, name: \"encoder_layer_3\")\n  # Bottleneck layer\n  |> Axon.dense(10, activation: :relu, name: \"bottleneck_layer\")\n  # The decoder\n  |> Axon.dense(64, activation: :relu, name: \"decoder_layer_1\")\n  |> Axon.dense(128, activation: :relu, name: \"decoder_layer_2\")\n  |> Axon.dense(256, activation: :relu, name: \"decoder_layer_3\")\n  |> Axon.dense(784, activation: :sigmoid, name: \"decoder_layer_4\")\n  |> CustomLayer.scaling_layer()\n  # Turn it back into a 28x28 single channel image\n  |> Axon.reshape({:auto, 1, 28, 28})\n\n# We can use Axon.Display to show us what each of the layers would look like\n# assuming we send in a batch of 4 images\nAxon.Display.as_table(model, Nx.template({4, 1, 28, 28}, :f32)) |> IO.puts()\n```\n\n```elixir\nbatch_size = 128\n\ntrain_data = Data.prepare_training_data(train_images, 128)\ntest_data = Data.prepare_training_data(test_images, 128)\n\n{input_batch, target_batch} = Enum.at(train_data, 0)\nKino.render(input_batch[[images: 0]] |> Data.image_to_kino())\nKino.render(target_batch[[images: 0]] |> Data.image_to_kino())\n\n:ok\n```\n\nWhen training, it can be useful to stop execution early - either when you see it's failing and you don't want to waste time waiting for the remaining epochs to finish, or if it's good enough and you want to start experimenting with it.\n\nThe `kino_early_stop/1` function below is a handy handler to give us a `Kino.Control.button` that will stop the training loop when clicked.\n\nWe also have `plot_losses/1` function to visualize our train and validation losses using `VegaLite`.\n\n```elixir\ndefmodule KinoAxon do\n  @doc \"\"\"\n  Adds handler function which adds a frame with a \"stop\" button\n  to the cell with the training loop.\n\n  Clicking \"stop\" will halt the training loop.\n  \"\"\"\n  def kino_early_stop(loop) do\n    frame = Kino.Frame.new() |> Kino.render()\n    stop_button = Kino.Control.button(\"stop\")\n    Kino.Frame.render(frame, stop_button)\n\n    {:ok, button_agent} = Agent.start_link(fn -> nil end)\n\n    stop_button\n    |> Kino.Control.stream()\n    |> Kino.listen(fn _event ->\n      Agent.update(button_agent, fn _ -> :stop end)\n    end)\n\n    handler = fn state ->\n      stop_state = Agent.get(button_agent, & &1)\n\n      if stop_state == :stop do\n        Agent.stop(button_agent)\n        Kino.Frame.render(frame, \"stopped\")\n        {:halt_loop, state}\n      else\n        {:continue, state}\n      end\n    end\n\n    Axon.Loop.handle(loop, :iteration_completed, handler)\n  end\n\n  @doc \"\"\"\n  Plots the training and validation losses using Kino and VegaLite.\n\n  This *must* come after `Axon.Loop.validate`.\n  \"\"\"\n  def plot_losses(loop) do\n    vl_widget =\n      Vl.new(width: 600, height: 400)\n      |> Vl.mark(:point, tooltip: true)\n      |> Vl.encode_field(:x, \"epoch\", type: :ordinal)\n      |> Vl.encode_field(:y, \"loss\", type: :quantitative)\n      |> Vl.encode_field(:color, \"dataset\", type: :nominal)\n      |> Kino.VegaLite.new()\n      |> Kino.render()\n\n    handler = fn state ->\n      %Axon.Loop.State{metrics: metrics, epoch: epoch} = state\n      loss = metrics[\"loss\"] |> Nx.to_number()\n      val_loss = metrics[\"validation_loss\"] |> Nx.to_number()\n\n      points = [\n        %{epoch: epoch, loss: loss, dataset: \"train\"},\n        %{epoch: epoch, loss: val_loss, dataset: \"validation\"}\n      ]\n\n      Kino.VegaLite.push_many(vl_widget, points)\n      {:continue, state}\n    end\n\n    Axon.Loop.handle(loop, :epoch_completed, handler)\n  end\nend\n```\n\n```elixir\n# A helper function to display the input and output side by side\ncombined_input_output = fn params, image_index ->\n  test_image = test_images[[images: image_index]]\n  reconstructed_image = Axon.predict(model, params, test_image) |> Nx.squeeze(axes: [0])\n  Nx.concatenate([test_image, reconstructed_image], axis: :width)\nend\n\nframe = Kino.Frame.new() |> Kino.render()\n\nrender_example_handler = fn state ->\n  # state.step_state[:model_state] contains the model params when this event is fired\n  params = state.step_state[:model_state]\n  image_index = Enum.random(0..(Nx.axis_size(test_images, :images) - 1))\n  image = combined_input_output.(params, image_index) |> Data.image_to_kino(200, 400)\n  Kino.Frame.render(frame, image)\n  Kino.Frame.append(frame, \"Epoch: #{state.epoch}, Iteration: #{state.iteration}\")\n  {:continue, state}\nend\n\nparams =\n  model\n  |> Axon.Loop.trainer(:mean_squared_error, Polaris.Optimizers.adamw(learning_rate: 0.001))\n  |> KinoAxon.kino_early_stop()\n  |> Axon.Loop.handle(:iteration_completed, render_example_handler, every: 450)\n  |> Axon.Loop.validate(model, test_data)\n  |> KinoAxon.plot_losses()\n  |> Axon.Loop.run(train_data, %{}, epochs: 40, compiler: EXLA)\n\n:ok\n```\n\n<!-- livebook:{\"branch_parent_index\":1} -->","ref":"fashionmnist_vae.html#training-a-simple-autoencoder","title":"Training a simple autoencoder - A Variational Autoencoder for MNIST","type":"extras"},{"doc":"Cool! We now have the parameters for a trained, simple autoencoder. Our next step is to split up the model so we can use the encoder and decoder separately. By doing that, we'll be able to take an image and _encode_ it to get the model's compressed image representation (the latent vector). We can then manipulate the latent vector and run the manipulated latent vector through the _decoder_ to get a new image.\n\nLet's start by defining the encoder and decoder separately as two different models.\n\n```elixir\nencoder =\n  Axon.input(\"image\", shape: {nil, 1, 28, 28})\n  # This is now 28*28*1 = 784\n  |> Axon.flatten()\n  # The encoder\n  |> Axon.dense(256, activation: :relu, name: \"encoder_layer_1\")\n  |> Axon.dense(128, activation: :relu, name: \"encoder_layer_2\")\n  |> Axon.dense(64, activation: :relu, name: \"encoder_layer_3\")\n  # Bottleneck layer\n  |> Axon.dense(10, activation: :relu, name: \"bottleneck_layer\")\n\n# The output from the encoder\ndecoder =\n  Axon.input(\"latent\", shape: {nil, 10})\n  # The decoder\n  |> Axon.dense(64, activation: :relu, name: \"decoder_layer_1\")\n  |> Axon.dense(128, activation: :relu, name: \"decoder_layer_2\")\n  |> Axon.dense(256, activation: :relu, name: \"decoder_layer_3\")\n  |> Axon.dense(784, activation: :sigmoid, name: \"decoder_layer_4\")\n  |> CustomLayer.scaling_layer()\n  # Turn it back into a 28x28 single channel image\n  |> Axon.reshape({:auto, 1, 28, 28})\n\nAxon.Display.as_table(encoder, Nx.template({4, 1, 28, 28}, :f32)) |> IO.puts()\nAxon.Display.as_table(decoder, Nx.template({4, 10}, :f32)) |> IO.puts()\n```\n\nWe have the two models, but the problem is these are untrained models so we don't have the corresponding set of parameters. We'd like to use the parameters from the autoencoder we just trained and apply them to our split up models.\n\nLet's first take a look at what params actually are:\n\n```elixir\nparams\n```\n\nParams are just a `Map` with the layer name as the key identifying which parameters to use. We can easily match up the layer names with the output from the `Axon.Display.as_table/2` call for the autoencoder model.\n\nSo all we need to do is create a new Map that plucks out the right layers from our autoencoder `params` for each model and use that to run inference on our split up models.\n\nFortunately, since we gave each of the layers names, this requires no work at all - we can use the Map as it is since the layer names match up! Axon will ignore any extra keys so those won't be a problem.\n\nNote that naming the layers wasn't _required_, if the layers didn't have names we would have some renaming to do to get the names to match between the models. But giving them names made it very convenient :)\n\nLet's try encoding an image, printing the latent and then decoding the latent using our split up model to make sure it's working.\n\n```elixir\nimage = test_images[[images: 0]]\n\n# Encode the image\nlatent = Axon.predict(encoder, params, image)\nIO.inspect(latent, label: \"Latent\")\n# Decode the image\nreconstructed_image = Axon.predict(decoder, params, latent) |> Nx.squeeze(axes: [0])\n\ncombined_image = Nx.concatenate([image, reconstructed_image], axis: :width)\nData.image_to_kino(combined_image, 200, 400)\n```\n\nPerfect! Seems like the split up models are working as expected. Now let's try to generate some new images using our autoencoder. To do this, we'll manipulate the latent so it's slightly different from what the encoder gave us. Specifically, we'll try to interpolate between two images, showing 100 steps from our starting image to our final image.\n\n```elixir\nnum_steps = 100\n\n# Get our latents, image at index 0 is our starting point\n# index 1 is where we'll end\nlatents = Axon.predict(encoder, params, test_images[[images: 0..1]])\n# Latents is a {2, 10} tensor\n# The step we'll add to our latent to move it towards image[1]\nstep = Nx.subtract(latents[1], latents[0]) |> Nx.divide(num_steps)\n# We can make a batch of all our new latents\nnew_latents = Nx.multiply(Nx.iota({num_steps + 1, 1}), step) |> Nx.add(latents[0])\n\nreconstructed_images = Axon.predict(decoder, params, new_latents)\n\nreconstructed_images =\n  Nx.reshape(\n    reconstructed_images,\n    Nx.shape(reconstructed_images),\n    names: [:images, :channels, :height, :width]\n  )\n\nStream.interval(div(5000, num_steps))\n|> Stream.take(num_steps + 1)\n|> Kino.animate(fn i ->\n  Data.image_to_kino(reconstructed_images[i])\nend)\n```\n\nCool! We have interpolation! But did you notice that some of the intermediate frames don't look fashionable at all? Autoencoders don't generally return good results for random vectors in their latent space. That's where a VAE can help.\n\n<!-- livebook:{\"branch_parent_index\":1} -->","ref":"fashionmnist_vae.html#splitting-up-the-model","title":"Splitting up the model - A Variational Autoencoder for MNIST","type":"extras"},{"doc":"In a VAE, instead of outputting a latent vector, our encoder will output a distribution. Essentially this means instead of 10 outputs we'll have 20. 10 of them will represent the mean and 10 will represent the log of the variance of the latent. We'll have to sample from this distribution to get our latent vector. Finally, we'll have to modify our loss function to also compute the KL Divergence between the latent distribution and a standard normal distribution (this acts as a regularizer of the latent space).\n\nWe'll start by defining our model:\n\n```elixir\ndefmodule Vae do\n  import Nx.Defn\n\n  @latent_features 10\n\n  defp sampling_layer(%Axon{} = input, _opts \\\\ []) do\n    Axon.layer(&sampling_layer_impl/2, [input], name: \"sampling_layer\", op_name: :sample)\n  end\n\n  defnp sampling_layer_impl(x, _opts \\\\ []) do\n    mu = x[[0..-1//1, 0, 0..-1//1]]\n    log_var = x[[0..-1//1, 1, 0..-1//1]]\n    std_dev = Nx.exp(0.5 * log_var)\n    eps = Nx.random_normal(std_dev)\n    sample = mu + std_dev * eps\n    Nx.stack([sample, mu, std_dev], axis: 1)\n  end\n\n  defp encoder_partial() do\n    Axon.input(\"image\", shape: {nil, 1, 28, 28})\n    # This is now 28*28*1 = 784\n    |> Axon.flatten()\n    # The encoder\n    |> Axon.dense(256, activation: :relu, name: \"encoder_layer_1\")\n    |> Axon.dense(128, activation: :relu, name: \"encoder_layer_2\")\n    |> Axon.dense(64, activation: :relu, name: \"encoder_layer_3\")\n    # Bottleneck layer\n    |> Axon.dense(@latent_features * 2, name: \"bottleneck_layer\")\n    # Split up the mu and logvar\n    |> Axon.reshape({:auto, 2, @latent_features})\n    |> sampling_layer()\n  end\n\n  def encoder() do\n    encoder_partial()\n    # Grab only the sample (ie. the sampled latent)\n    |> Axon.nx(fn x -> x[[0..-1//1, 0]] end)\n  end\n\n  def decoder(input_latent) do\n    input_latent\n    |> Axon.dense(64, activation: :relu, name: \"decoder_layer_1\")\n    |> Axon.dense(128, activation: :relu, name: \"decoder_layer_2\")\n    |> Axon.dense(256, activation: :relu, name: \"decoder_layer_3\")\n    |> Axon.dense(784, activation: :sigmoid, name: \"decoder_layer_4\")\n    |> CustomLayer.scaling_layer()\n    # Turn it back into a 28x28 single channel image\n    |> Axon.reshape({:auto, 1, 28, 28})\n  end\n\n  def autoencoder() do\n    encoder_partial = encoder_partial()\n    encoder = encoder()\n    autoencoder = decoder(encoder)\n    Axon.container(%{mu_sigma: encoder_partial, reconstruction: autoencoder})\n  end\nend\n```\n\nThere's a few interesting things going on here. First, since our model has become more complex, we've used a module to keep it organized. We also built a custom layer to do the sampling and output the sampled latent vector as well as the distribution parameters (mu and sigma).\n\nFinally, we need the distribution itself so we can calculate the KL Divergence in our loss function. To make the model output the distribution parameters (mu and sigma), we use `Axon.container/1` to produce two outputs from our model instead of one. Now, instead of getting a tensor as an output, we'll get a map with the two tensors we need for our loss function.\n\nOur loss function also has to be modified so be the sum of the KL divergence and MSE. Here's our custom loss function:\n\n```elixir\ndefmodule CustomLoss do\n  import Nx.Defn\n\n  defn loss(y_true, %{reconstruction: reconstruction, mu_sigma: mu_sigma}) do\n    mu = mu_sigma[[0..-1//1, 1, 0..-1//1]]\n    sigma = mu_sigma[[0..-1//1, 2, 0..-1//1]]\n    kld = Nx.sum(-Nx.log(sigma) - 0.5 + Nx.multiply(sigma, sigma) + Nx.multiply(mu, mu))\n    kld * 0.1 + Axon.Losses.mean_squared_error(y_true, reconstruction, reduction: :sum)\n  end\nend\n```\n\nWith all our pieces ready, we can pretty much use the same training loop as we did earlier. The only modifications needed are to account for the fact that the model outputs a map with two values instead of a single tensor and telling the trainer to use our custom loss.\n\n```elixir\nmodel = Vae.autoencoder()\n\n# A helper function to display the input and output side by side\ncombined_input_output = fn params, image_index ->\n  test_image = test_images[[images: image_index]]\n  %{reconstruction: reconstructed_image} = Axon.predict(model, params, test_image)\n  reconstructed_image = reconstructed_image |> Nx.squeeze(axes: [0])\n  Nx.concatenate([test_image, reconstructed_image], axis: :width)\nend\n\nframe = Kino.Frame.new() |> Kino.render()\n\nrender_example_handler = fn state ->\n  # state.step_state[:model_state] contains the model params when this event is fired\n  params = state.step_state[:model_state]\n  image_index = Enum.random(0..(Nx.axis_size(test_images, :images) - 1))\n  image = combined_input_output.(params, image_index) |> Data.image_to_kino(200, 400)\n  Kino.Frame.render(frame, image)\n  Kino.Frame.append(frame, \"Epoch: #{state.epoch}, Iteration: #{state.iteration}\")\n  {:continue, state}\nend\n\nparams =\n  model\n  |> Axon.Loop.trainer(&CustomLoss.loss/2, Polaris.Optimizers.adam(learning_rate: 0.001))\n  |> KinoAxon.kino_early_stop()\n  |> Axon.Loop.handle(:epoch_completed, render_example_handler)\n  |> Axon.Loop.validate(model, test_data)\n  |> KinoAxon.plot_losses()\n  |> Axon.Loop.run(train_data, %{}, epochs: 40, compiler: EXLA)\n\n:ok\n```\n\nFinally, we can try our interpolation again:\n\n```elixir\nnum_steps = 100\n\n# Get our latents, image at index 0 is our starting point\n# index 1 is where we'll end\nlatents = Axon.predict(Vae.encoder(), params, test_images[[images: 0..1]])\n# Latents is a {2, 10} tensor\n# The step we'll add to our latent to move it towards image[1]\nstep = Nx.subtract(latents[1], latents[0]) |> Nx.divide(num_steps)\n# We can make a batch of all our new latents\nnew_latents = Nx.multiply(Nx.iota({num_steps + 1, 1}), step) |> Nx.add(latents[0])\n\ndecoder = Axon.input(\"latent\", shape: {nil, 10}) |> Vae.decoder()\n\nreconstructed_images = Axon.predict(decoder, params, new_latents)\n\nreconstructed_images =\n  Nx.reshape(\n    reconstructed_images,\n    Nx.shape(reconstructed_images),\n    names: [:images, :channels, :height, :width]\n  )\n\nStream.interval(div(5000, num_steps))\n|> Stream.take(num_steps + 1)\n|> Kino.animate(fn i ->\n  Data.image_to_kino(reconstructed_images[i])\nend)\n```\n\nDid you notice the difference? Every step in our interpolation looks similar to items in our dataset! This is the benefit of the VAE: we can generate new items by using random latents. In contrast, in the simple autoencoder, for the most part only latents we got from our encoder were likely to produce sensible outputs.","ref":"fashionmnist_vae.html#making-it-variational","title":"Making it variational - A Variational Autoencoder for MNIST","type":"extras"}]}
\ No newline at end of file
diff --git a/dist/sidebar_items-B66D7C0E.js b/dist/sidebar_items-B66D7C0E.js
deleted file mode 100644
index b287669c..00000000
--- a/dist/sidebar_items-B66D7C0E.js
+++ /dev/null
@@ -1 +0,0 @@
-sidebarNodes={"extras":[{"group":"","headers":[{"anchor":"modules","id":"Modules"}],"id":"api-reference","title":"API Reference"},{"group":"","headers":[{"anchor":"model-creation","id":"Model Creation"},{"anchor":"model-execution","id":"Model Execution"},{"anchor":"training-and-evaluation","id":"Training and Evaluation"},{"anchor":"serialization","id":"Serialization"}],"id":"guides","title":"Axon Guides"},{"group":"Guides: Model Creation","headers":[{"anchor":"your-first-model","id":"Your first model"}],"id":"your_first_axon_model","title":"Your first Axon model"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-a-sequential-model","id":"Creating a sequential model"}],"id":"sequential_models","title":"Sequential models"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-more-complex-models","id":"Creating more complex models"}],"id":"complex_models","title":"Complex models"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-multi-input-models","id":"Creating multi-input models"},{"anchor":"creating-multi-output-models","id":"Creating multi-output models"}],"id":"multi_input_multi_output_models","title":"Multi-input / multi-output models"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-custom-layers","id":"Creating custom layers"}],"id":"custom_layers","title":"Custom layers"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-models-with-hooks","id":"Creating models with hooks"}],"id":"model_hooks","title":"Model hooks"},{"group":"Guides: Model Execution","headers":[{"anchor":"using-nx-backends-in-axon","id":"Using Nx Backends in Axon"},{"anchor":"using-nx-compilers-in-axon","id":"Using Nx Compilers in Axon"},{"anchor":"a-note-on-cpus-gpus-tpus","id":"A Note on CPUs/GPUs/TPUs"}],"id":"accelerating_axon","title":"Accelerating Axon"},{"group":"Guides: Model Execution","headers":[{"anchor":"executing-models-in-inference-mode","id":"Executing models in inference mode"},{"anchor":"executing-models-in-training-mode","id":"Executing models in training mode"}],"id":"training_and_inference_mode","title":"Training and inference mode"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"creating-an-axon-training-loop","id":"Creating an Axon training loop"}],"id":"your_first_training_loop","title":"Your first training loop"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"adding-metrics-to-training-loops","id":"Adding metrics to training loops"}],"id":"instrumenting_loops_with_metrics","title":"Instrumenting loops with metrics"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"creating-an-axon-evaluation-loop","id":"Creating an Axon evaluation loop"}],"id":"your_first_evaluation_loop","title":"Your first evaluation loop"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"adding-event-handlers-to-training-loops","id":"Adding event handlers to training loops"}],"id":"using_loop_event_handlers","title":"Using loop event handlers"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"using-custom-models-in-training-loops","id":"Using custom models in training loops"},{"anchor":"using-custom-loss-functions-in-training-loops","id":"Using custom loss functions in training loops"},{"anchor":"using-custom-optimizers-in-training-loops","id":"Using custom optimizers in training loops"}],"id":"custom_models_loss_optimizers","title":"Custom models, loss functions, and optimizers"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"writing-custom-metrics","id":"Writing custom metrics"}],"id":"writing_custom_metrics","title":"Writing custom metrics"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"writing-custom-event-handlers","id":"Writing custom event handlers"}],"id":"writing_custom_event_handlers","title":"Writing custom event handlers"},{"group":"Guides: Serialization","headers":[{"anchor":"converting-an-onnx-model-into-axon","id":"Converting an ONNX model into Axon"},{"anchor":"onnx-model","id":"ONNX model"},{"anchor":"inference-on-onnx-derived-models","id":"Inference on ONNX derived models"}],"id":"onnx_to_axon","title":"Converting ONNX models to Axon"},{"group":"Examples: Basics","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"the-model","id":"The model"},{"anchor":"training-data","id":"Training data"},{"anchor":"training","id":"Training"},{"anchor":"trying-the-model","id":"Trying the model"},{"anchor":"visualizing-the-model-predictions","id":"Visualizing the model predictions"}],"id":"xor","title":"Modeling XOR with a neural network"},{"group":"Examples: Vision","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"retrieving-and-exploring-the-dataset","id":"Retrieving and exploring the dataset"},{"anchor":"defining-the-model","id":"Defining the model"},{"anchor":"training","id":"Training"},{"anchor":"prediction","id":"Prediction"}],"id":"mnist","title":"Classifying handwritten digits"},{"group":"Examples: Vision","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"loading-the-data","id":"Loading the data"},{"anchor":"a-look-at-the-data","id":"A look at the data"},{"anchor":"data-processing","id":"Data processing"},{"anchor":"building-the-model","id":"Building the model"},{"anchor":"training-the-model","id":"Training the model"},{"anchor":"extra-gradient-centralization","id":"Extra: gradient centralization"},{"anchor":"inference","id":"Inference"}],"id":"horses_or_humans","title":"Classifying horses and humans"},{"group":"Examples: Text","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"preparation","id":"Preparation"},{"anchor":"defining-the-model","id":"Defining the Model"},{"anchor":"training-the-network","id":"Training the network"},{"anchor":"generating-text","id":"Generating text"},{"anchor":"multi-lstm-layers","id":"Multi LSTM layers"},{"anchor":"generate-text-with-the-new-network","id":"Generate text with the new network"},{"anchor":"references","id":"References"}],"id":"lstm_generation","title":"Generating text with LSTM"},{"group":"Examples: Structured","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"data-processing","id":"Data processing"},{"anchor":"building-the-model","id":"Building the model"},{"anchor":"training-our-model","id":"Training our model"},{"anchor":"model-evaluation","id":"Model evaluation"}],"id":"credit_card_fraud","title":"Classifying fraudulent transactions"},{"group":"Examples: Generative","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"data-loading","id":"Data loading"},{"anchor":"building-the-model","id":"Building the model"},{"anchor":"evaluation","id":"Evaluation"},{"anchor":"a-better-training-loop","id":"A better training loop"}],"id":"mnist_autoencoder_using_kino","title":"MNIST Denoising Autoencoder using Kino for visualization"},{"group":"Examples: Generative","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"downloading-the-data","id":"Downloading the data"},{"anchor":"encoder-and-decoder","id":"Encoder and decoder"},{"anchor":"training-the-model","id":"Training the model"},{"anchor":"extra-losses","id":"Extra: losses"},{"anchor":"inference","id":"Inference"}],"id":"fashionmnist_autoencoder","title":"Training an Autoencoder on Fashion MNIST"},{"group":"Examples: Generative","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"training-a-simple-autoencoder","id":"Training a simple autoencoder"},{"anchor":"splitting-up-the-model","id":"Splitting up the model"},{"anchor":"making-it-variational","id":"Making it variational"}],"id":"fashionmnist_vae","title":"A Variational Autoencoder for MNIST"}],"modules":[{"deprecated":false,"group":"Model","id":"Axon","nodeGroups":[{"key":"layers-special","name":"Layers: Special","nodes":[{"anchor":"block/2","deprecated":false,"id":"block/2","title":"block(fun, opts \\\\ [])"},{"anchor":"constant/2","deprecated":false,"id":"constant/2","title":"constant(tensor, opts \\\\ [])"},{"anchor":"container/2","deprecated":false,"id":"container/2","title":"container(container, opts \\\\ [])"},{"anchor":"input/2","deprecated":false,"id":"input/2","title":"input(name, opts \\\\ [])"},{"anchor":"layer/3","deprecated":false,"id":"layer/3","title":"layer(op, inputs, opts \\\\ [])"},{"anchor":"namespace/2","deprecated":false,"id":"namespace/2","title":"namespace(axon, name)"},{"anchor":"nx/3","deprecated":false,"id":"nx/3","title":"nx(input, fun, opts \\\\ [])"},{"anchor":"optional/2","deprecated":false,"id":"optional/2","title":"optional(x, opts \\\\ [])"},{"anchor":"param/3","deprecated":false,"id":"param/3","title":"param(name, shape, opts \\\\ [])"},{"anchor":"stack_columns/2","deprecated":false,"id":"stack_columns/2","title":"stack_columns(x, opts \\\\ [])"}]},{"key":"layers-activation","name":"Layers: Activation","nodes":[{"anchor":"activation/3","deprecated":false,"id":"activation/3","title":"activation(x, activation, opts \\\\ [])"},{"anchor":"celu/2","deprecated":false,"id":"celu/2","title":"celu(x, opts \\\\ [])"},{"anchor":"elu/2","deprecated":false,"id":"elu/2","title":"elu(x, opts \\\\ [])"},{"anchor":"exp/2","deprecated":false,"id":"exp/2","title":"exp(x, opts \\\\ [])"},{"anchor":"gelu/2","deprecated":false,"id":"gelu/2","title":"gelu(x, opts \\\\ [])"},{"anchor":"hard_sigmoid/2","deprecated":false,"id":"hard_sigmoid/2","title":"hard_sigmoid(x, opts \\\\ [])"},{"anchor":"hard_silu/2","deprecated":false,"id":"hard_silu/2","title":"hard_silu(x, opts \\\\ [])"},{"anchor":"hard_tanh/2","deprecated":false,"id":"hard_tanh/2","title":"hard_tanh(x, opts \\\\ [])"},{"anchor":"leaky_relu/2","deprecated":false,"id":"leaky_relu/2","title":"leaky_relu(x, opts \\\\ [])"},{"anchor":"linear/2","deprecated":false,"id":"linear/2","title":"linear(x, opts \\\\ [])"},{"anchor":"log_sigmoid/2","deprecated":false,"id":"log_sigmoid/2","title":"log_sigmoid(x, opts \\\\ [])"},{"anchor":"log_softmax/2","deprecated":false,"id":"log_softmax/2","title":"log_softmax(x, opts \\\\ [])"},{"anchor":"log_sumexp/2","deprecated":false,"id":"log_sumexp/2","title":"log_sumexp(x, opts \\\\ [])"},{"anchor":"mish/2","deprecated":false,"id":"mish/2","title":"mish(x, opts \\\\ [])"},{"anchor":"relu6/2","deprecated":false,"id":"relu6/2","title":"relu6(x, opts \\\\ [])"},{"anchor":"relu/2","deprecated":false,"id":"relu/2","title":"relu(x, opts \\\\ [])"},{"anchor":"selu/2","deprecated":false,"id":"selu/2","title":"selu(x, opts \\\\ [])"},{"anchor":"sigmoid/2","deprecated":false,"id":"sigmoid/2","title":"sigmoid(x, opts \\\\ [])"},{"anchor":"silu/2","deprecated":false,"id":"silu/2","title":"silu(x, opts \\\\ [])"},{"anchor":"softmax/2","deprecated":false,"id":"softmax/2","title":"softmax(x, opts \\\\ [])"},{"anchor":"softplus/2","deprecated":false,"id":"softplus/2","title":"softplus(x, opts \\\\ [])"},{"anchor":"softsign/2","deprecated":false,"id":"softsign/2","title":"softsign(x, opts \\\\ [])"},{"anchor":"tanh/2","deprecated":false,"id":"tanh/2","title":"tanh(x, opts \\\\ [])"}]},{"key":"layers-linear","name":"Layers: Linear","nodes":[{"anchor":"bias/2","deprecated":false,"id":"bias/2","title":"bias(x, opts \\\\ [])"},{"anchor":"bilinear/4","deprecated":false,"id":"bilinear/4","title":"bilinear(input1, input2, units, opts \\\\ [])"},{"anchor":"dense/3","deprecated":false,"id":"dense/3","title":"dense(x, units, opts \\\\ [])"},{"anchor":"embedding/4","deprecated":false,"id":"embedding/4","title":"embedding(x, vocab_size, embedding_size, opts \\\\ [])"}]},{"key":"layers-convolution","name":"Layers: Convolution","nodes":[{"anchor":"conv/3","deprecated":false,"id":"conv/3","title":"conv(x, units, opts \\\\ [])"},{"anchor":"conv_transpose/3","deprecated":false,"id":"conv_transpose/3","title":"conv_transpose(x, units, opts \\\\ [])"},{"anchor":"depthwise_conv/3","deprecated":false,"id":"depthwise_conv/3","title":"depthwise_conv(x, channel_multiplier, opts \\\\ [])"},{"anchor":"separable_conv2d/3","deprecated":false,"id":"separable_conv2d/3","title":"separable_conv2d(x, channel_multiplier, opts \\\\ [])"},{"anchor":"separable_conv3d/3","deprecated":false,"id":"separable_conv3d/3","title":"separable_conv3d(x, channel_multiplier, opts \\\\ [])"}]},{"key":"layers-dropout","name":"Layers: Dropout","nodes":[{"anchor":"alpha_dropout/2","deprecated":false,"id":"alpha_dropout/2","title":"alpha_dropout(x, opts \\\\ [])"},{"anchor":"dropout/2","deprecated":false,"id":"dropout/2","title":"dropout(x, opts \\\\ [])"},{"anchor":"feature_alpha_dropout/2","deprecated":false,"id":"feature_alpha_dropout/2","title":"feature_alpha_dropout(x, opts \\\\ [])"},{"anchor":"spatial_dropout/2","deprecated":false,"id":"spatial_dropout/2","title":"spatial_dropout(x, opts \\\\ [])"}]},{"key":"layers-pooling","name":"Layers: Pooling","nodes":[{"anchor":"adaptive_avg_pool/2","deprecated":false,"id":"adaptive_avg_pool/2","title":"adaptive_avg_pool(x, opts \\\\ [])"},{"anchor":"adaptive_lp_pool/2","deprecated":false,"id":"adaptive_lp_pool/2","title":"adaptive_lp_pool(x, opts \\\\ [])"},{"anchor":"adaptive_max_pool/2","deprecated":false,"id":"adaptive_max_pool/2","title":"adaptive_max_pool(x, opts \\\\ [])"},{"anchor":"avg_pool/2","deprecated":false,"id":"avg_pool/2","title":"avg_pool(x, opts \\\\ [])"},{"anchor":"global_avg_pool/2","deprecated":false,"id":"global_avg_pool/2","title":"global_avg_pool(x, opts \\\\ [])"},{"anchor":"global_lp_pool/2","deprecated":false,"id":"global_lp_pool/2","title":"global_lp_pool(x, opts \\\\ [])"},{"anchor":"global_max_pool/2","deprecated":false,"id":"global_max_pool/2","title":"global_max_pool(x, opts \\\\ [])"},{"anchor":"lp_pool/2","deprecated":false,"id":"lp_pool/2","title":"lp_pool(x, opts \\\\ [])"},{"anchor":"max_pool/2","deprecated":false,"id":"max_pool/2","title":"max_pool(x, opts \\\\ [])"}]},{"key":"layers-normalization","name":"Layers: Normalization","nodes":[{"anchor":"batch_norm/2","deprecated":false,"id":"batch_norm/2","title":"batch_norm(x, opts \\\\ [])"},{"anchor":"group_norm/3","deprecated":false,"id":"group_norm/3","title":"group_norm(x, num_groups, opts \\\\ [])"},{"anchor":"instance_norm/2","deprecated":false,"id":"instance_norm/2","title":"instance_norm(x, opts \\\\ [])"},{"anchor":"layer_norm/2","deprecated":false,"id":"layer_norm/2","title":"layer_norm(x, opts \\\\ [])"}]},{"key":"layers-recurrent","name":"Layers: Recurrent","nodes":[{"anchor":"conv_lstm/2","deprecated":false,"id":"conv_lstm/2","title":"conv_lstm(x, units)"},{"anchor":"conv_lstm/3","deprecated":false,"id":"conv_lstm/3","title":"conv_lstm(x, units, opts)"},{"anchor":"conv_lstm/4","deprecated":false,"id":"conv_lstm/4","title":"conv_lstm(x, hidden_state, units, opts)"},{"anchor":"gru/2","deprecated":false,"id":"gru/2","title":"gru(x, units)"},{"anchor":"gru/3","deprecated":false,"id":"gru/3","title":"gru(x, units, opts)"},{"anchor":"gru/4","deprecated":false,"id":"gru/4","title":"gru(x, hidden_state, units, opts)"},{"anchor":"lstm/2","deprecated":false,"id":"lstm/2","title":"lstm(x, units)"},{"anchor":"lstm/3","deprecated":false,"id":"lstm/3","title":"lstm(x, units, opts)"},{"anchor":"lstm/4","deprecated":false,"id":"lstm/4","title":"lstm(x, hidden_state, units, opts \\\\ [])"},{"anchor":"mask/3","deprecated":false,"id":"mask/3","title":"mask(input, eos_token, opts \\\\ [])"}]},{"key":"layers-combinators","name":"Layers: Combinators","nodes":[{"anchor":"add/3","deprecated":false,"id":"add/3","title":"add(x, y, opts)"},{"anchor":"concatenate/3","deprecated":false,"id":"concatenate/3","title":"concatenate(x, y, opts)"},{"anchor":"cond/5","deprecated":false,"id":"cond/5","title":"cond(parent, cond_fn, true_graph, false_graph, opts \\\\ [])"},{"anchor":"multiply/3","deprecated":false,"id":"multiply/3","title":"multiply(x, y, opts)"},{"anchor":"split/3","deprecated":false,"id":"split/3","title":"split(parent, splits, opts \\\\ [])"},{"anchor":"subtract/3","deprecated":false,"id":"subtract/3","title":"subtract(x, y, opts)"}]},{"key":"layers-shape","name":"Layers: Shape","nodes":[{"anchor":"flatten/2","deprecated":false,"id":"flatten/2","title":"flatten(x, opts \\\\ [])"},{"anchor":"pad/4","deprecated":false,"id":"pad/4","title":"pad(x, config, value \\\\ 0.0, opts \\\\ [])"},{"anchor":"reshape/3","deprecated":false,"id":"reshape/3","title":"reshape(x, new_shape, opts \\\\ [])"},{"anchor":"resize/3","deprecated":false,"id":"resize/3","title":"resize(x, resize_shape, opts \\\\ [])"},{"anchor":"transpose/3","deprecated":false,"id":"transpose/3","title":"transpose(x, permutation \\\\ nil, opts \\\\ [])"}]},{"key":"model","name":"Model","nodes":[{"anchor":"build/2","deprecated":false,"id":"build/2","title":"build(model, opts \\\\ [])"},{"anchor":"compile/4","deprecated":false,"id":"compile/4","title":"compile(model, template, init_params \\\\ %{}, opts \\\\ [])"},{"anchor":"deserialize/2","deprecated":false,"id":"deserialize/2","title":"deserialize(serialized, opts \\\\ [])"},{"anchor":"freeze/2","deprecated":false,"id":"freeze/2","title":"freeze(model, fun_or_predicate \\\\ :all)"},{"anchor":"predict/4","deprecated":false,"id":"predict/4","title":"predict(model, params, input, opts \\\\ [])"},{"anchor":"serialize/3","deprecated":false,"id":"serialize/3","title":"serialize(axon, params, opts \\\\ [])"},{"anchor":"unfreeze/2","deprecated":false,"id":"unfreeze/2","title":"unfreeze(model, fun_or_predicate \\\\ :all)"}]},{"key":"model-manipulation","name":"Model: Manipulation","nodes":[{"anchor":"get_inputs/1","deprecated":false,"id":"get_inputs/1","title":"get_inputs(axon)"},{"anchor":"get_op_counts/1","deprecated":false,"id":"get_op_counts/1","title":"get_op_counts(axon)"},{"anchor":"get_options/1","deprecated":false,"id":"get_options/1","title":"get_options(axon)"},{"anchor":"get_output_shape/3","deprecated":false,"id":"get_output_shape/3","title":"get_output_shape(axon, inputs, opts \\\\ [])"},{"anchor":"get_parameters/1","deprecated":false,"id":"get_parameters/1","title":"get_parameters(axon)"},{"anchor":"map_nodes/2","deprecated":false,"id":"map_nodes/2","title":"map_nodes(axon, fun)"},{"anchor":"pop_node/1","deprecated":false,"id":"pop_node/1","title":"pop_node(axon)"},{"anchor":"reduce_nodes/3","deprecated":false,"id":"reduce_nodes/3","title":"reduce_nodes(axon, acc, fun)"},{"anchor":"set_options/2","deprecated":false,"id":"set_options/2","title":"set_options(axon, new_opts)"},{"anchor":"set_parameters/2","deprecated":false,"id":"set_parameters/2","title":"set_parameters(axon, new_params)"}]},{"key":"model-debugging","name":"Model: Debugging","nodes":[{"anchor":"attach_hook/3","deprecated":false,"id":"attach_hook/3","title":"attach_hook(x, fun, opts \\\\ [])"},{"anchor":"trace_backward/5","deprecated":false,"id":"trace_backward/5","title":"trace_backward(model, inputs, params, loss, opts \\\\ [])"},{"anchor":"trace_forward/4","deprecated":false,"id":"trace_forward/4","title":"trace_forward(model, inputs, params, opts \\\\ [])"},{"anchor":"trace_init/4","deprecated":false,"id":"trace_init/4","title":"trace_init(model, template, params \\\\ %{}, opts \\\\ [])"}]},{"key":"types","name":"Types","nodes":[{"anchor":"t:t/0","deprecated":false,"id":"t/0","title":"t()"}]},{"key":"functions","name":"Functions","nodes":[{"anchor":"bidirectional/4","deprecated":false,"id":"bidirectional/4","title":"bidirectional(input, forward_fun, merge_fun, opts \\\\ [])"},{"anchor":"blur_pool/2","deprecated":false,"id":"blur_pool/2","title":"blur_pool(x, opts \\\\ [])"}]}],"sections":[{"anchor":"module-model-creation","id":"Model Creation"},{"anchor":"module-model-execution","id":"Model Execution"},{"anchor":"module-model-training","id":"Model Training"},{"anchor":"module-using-with-nx-serving","id":"Using with Nx.Serving"}],"title":"Axon"},{"deprecated":false,"group":"Model","id":"Axon.Initializers","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"full/1","deprecated":false,"id":"full/1","title":"full(value)"},{"anchor":"glorot_normal/1","deprecated":false,"id":"glorot_normal/1","title":"glorot_normal(opts \\\\ [])"},{"anchor":"glorot_uniform/1","deprecated":false,"id":"glorot_uniform/1","title":"glorot_uniform(opts \\\\ [])"},{"anchor":"he_normal/1","deprecated":false,"id":"he_normal/1","title":"he_normal(opts \\\\ [])"},{"anchor":"he_uniform/1","deprecated":false,"id":"he_uniform/1","title":"he_uniform(opts \\\\ [])"},{"anchor":"identity/0","deprecated":false,"id":"identity/0","title":"identity()"},{"anchor":"lecun_normal/1","deprecated":false,"id":"lecun_normal/1","title":"lecun_normal(opts \\\\ [])"},{"anchor":"lecun_uniform/1","deprecated":false,"id":"lecun_uniform/1","title":"lecun_uniform(opts \\\\ [])"},{"anchor":"normal/1","deprecated":false,"id":"normal/1","title":"normal(opts \\\\ [])"},{"anchor":"ones/0","deprecated":false,"id":"ones/0","title":"ones()"},{"anchor":"orthogonal/1","deprecated":false,"id":"orthogonal/1","title":"orthogonal(opts \\\\ [])"},{"anchor":"uniform/1","deprecated":false,"id":"uniform/1","title":"uniform(opts \\\\ [])"},{"anchor":"variance_scaling/1","deprecated":false,"id":"variance_scaling/1","title":"variance_scaling(opts \\\\ [])"},{"anchor":"zeros/0","deprecated":false,"id":"zeros/0","title":"zeros()"}]}],"sections":[],"title":"Axon.Initializers"},{"deprecated":false,"group":"Model","id":"Axon.MixedPrecision","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"cast/3","deprecated":false,"id":"cast/3","title":"cast(policy, tensor_or_container, variable_type)"},{"anchor":"create_policy/1","deprecated":false,"id":"create_policy/1","title":"create_policy(opts \\\\ [])"}]}],"sections":[],"title":"Axon.MixedPrecision"},{"deprecated":false,"group":"Model","id":"Axon.None","sections":[],"title":"Axon.None"},{"deprecated":false,"group":"Model","id":"Axon.StatefulOutput","sections":[],"title":"Axon.StatefulOutput"},{"deprecated":false,"group":"Summary","id":"Axon.Display","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"as_graph/3","deprecated":false,"id":"as_graph/3","title":"as_graph(axon, input_templates, opts \\\\ [])"},{"anchor":"as_table/2","deprecated":false,"id":"as_table/2","title":"as_table(axon, input_templates)"}]}],"sections":[],"title":"Axon.Display"},{"deprecated":false,"group":"Functional","id":"Axon.Activations","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"celu/2","deprecated":false,"id":"celu/2","title":"celu(x, opts \\\\ [])"},{"anchor":"elu/2","deprecated":false,"id":"elu/2","title":"elu(x, opts \\\\ [])"},{"anchor":"exp/1","deprecated":false,"id":"exp/1","title":"exp(x)"},{"anchor":"gelu/1","deprecated":false,"id":"gelu/1","title":"gelu(x)"},{"anchor":"hard_sigmoid/2","deprecated":false,"id":"hard_sigmoid/2","title":"hard_sigmoid(x, opts \\\\ [])"},{"anchor":"hard_silu/2","deprecated":false,"id":"hard_silu/2","title":"hard_silu(x, opts \\\\ [])"},{"anchor":"hard_tanh/1","deprecated":false,"id":"hard_tanh/1","title":"hard_tanh(x)"},{"anchor":"leaky_relu/2","deprecated":false,"id":"leaky_relu/2","title":"leaky_relu(x, opts \\\\ [])"},{"anchor":"linear/1","deprecated":false,"id":"linear/1","title":"linear(x)"},{"anchor":"log_sigmoid/1","deprecated":false,"id":"log_sigmoid/1","title":"log_sigmoid(x)"},{"anchor":"log_softmax/2","deprecated":false,"id":"log_softmax/2","title":"log_softmax(x, opts \\\\ [])"},{"anchor":"log_sumexp/2","deprecated":false,"id":"log_sumexp/2","title":"log_sumexp(x, opts \\\\ [])"},{"anchor":"mish/1","deprecated":false,"id":"mish/1","title":"mish(x)"},{"anchor":"relu6/1","deprecated":false,"id":"relu6/1","title":"relu6(x)"},{"anchor":"relu/1","deprecated":false,"id":"relu/1","title":"relu(x)"},{"anchor":"selu/2","deprecated":false,"id":"selu/2","title":"selu(x, opts \\\\ [])"},{"anchor":"sigmoid/1","deprecated":false,"id":"sigmoid/1","title":"sigmoid(x)"},{"anchor":"silu/1","deprecated":false,"id":"silu/1","title":"silu(x)"},{"anchor":"softmax/2","deprecated":false,"id":"softmax/2","title":"softmax(x, opts \\\\ [])"},{"anchor":"softplus/1","deprecated":false,"id":"softplus/1","title":"softplus(x)"},{"anchor":"softsign/1","deprecated":false,"id":"softsign/1","title":"softsign(x)"},{"anchor":"tanh/1","deprecated":false,"id":"tanh/1","title":"tanh(x)"}]}],"sections":[],"title":"Axon.Activations"},{"deprecated":false,"group":"Functional","id":"Axon.Layers","nodeGroups":[{"key":"layers-linear","name":"Layers: Linear","nodes":[{"anchor":"bilinear/5","deprecated":false,"id":"bilinear/5","title":"bilinear(input1, input2, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"dense/4","deprecated":false,"id":"dense/4","title":"dense(input, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"embedding/3","deprecated":false,"id":"embedding/3","title":"embedding(input, kernel, arg3 \\\\ [])"}]},{"key":"layers-dropout","name":"Layers: Dropout","nodes":[{"anchor":"alpha_dropout/3","deprecated":false,"id":"alpha_dropout/3","title":"alpha_dropout(input, key, opts \\\\ [])"},{"anchor":"dropout/3","deprecated":false,"id":"dropout/3","title":"dropout(input, key, opts \\\\ [])"},{"anchor":"feature_alpha_dropout/3","deprecated":false,"id":"feature_alpha_dropout/3","title":"feature_alpha_dropout(input, key, opts \\\\ [])"},{"anchor":"spatial_dropout/3","deprecated":false,"id":"spatial_dropout/3","title":"spatial_dropout(input, key, opts \\\\ [])"}]},{"key":"layers-pooling","name":"Layers: Pooling","nodes":[{"anchor":"adaptive_avg_pool/2","deprecated":false,"id":"adaptive_avg_pool/2","title":"adaptive_avg_pool(input, opts \\\\ [])"},{"anchor":"adaptive_lp_pool/2","deprecated":false,"id":"adaptive_lp_pool/2","title":"adaptive_lp_pool(input, opts \\\\ [])"},{"anchor":"adaptive_max_pool/2","deprecated":false,"id":"adaptive_max_pool/2","title":"adaptive_max_pool(input, opts \\\\ [])"},{"anchor":"avg_pool/2","deprecated":false,"id":"avg_pool/2","title":"avg_pool(input, opts \\\\ [])"},{"anchor":"blur_pool/2","deprecated":false,"id":"blur_pool/2","title":"blur_pool(input, opts \\\\ [])"},{"anchor":"global_avg_pool/2","deprecated":false,"id":"global_avg_pool/2","title":"global_avg_pool(input, opts \\\\ [])"},{"anchor":"global_lp_pool/2","deprecated":false,"id":"global_lp_pool/2","title":"global_lp_pool(input, opts \\\\ [])"},{"anchor":"global_max_pool/2","deprecated":false,"id":"global_max_pool/2","title":"global_max_pool(input, opts \\\\ [])"},{"anchor":"lp_pool/2","deprecated":false,"id":"lp_pool/2","title":"lp_pool(input, opts \\\\ [])"},{"anchor":"max_pool/2","deprecated":false,"id":"max_pool/2","title":"max_pool(input, opts \\\\ [])"}]},{"key":"layers-normalization","name":"Layers: Normalization","nodes":[{"anchor":"batch_norm/6","deprecated":false,"id":"batch_norm/6","title":"batch_norm(input, gamma, beta, ra_mean, ra_var, opts \\\\ [])"},{"anchor":"group_norm/4","deprecated":false,"id":"group_norm/4","title":"group_norm(input, gamma, beta, opts \\\\ [])"},{"anchor":"instance_norm/6","deprecated":false,"id":"instance_norm/6","title":"instance_norm(input, gamma, beta, ra_mean, ra_var, opts \\\\ [])"},{"anchor":"layer_norm/4","deprecated":false,"id":"layer_norm/4","title":"layer_norm(input, gamma, beta, opts \\\\ [])"}]},{"key":"layers-shape","name":"Layers: Shape","nodes":[{"anchor":"flatten/2","deprecated":false,"id":"flatten/2","title":"flatten(input, opts \\\\ [])"},{"anchor":"resize/2","deprecated":false,"id":"resize/2","title":"resize(input, opts \\\\ [])"}]},{"key":"functions-convolutional","name":"Functions: Convolutional","nodes":[{"anchor":"conv/4","deprecated":false,"id":"conv/4","title":"conv(input, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"conv_transpose/4","deprecated":false,"id":"conv_transpose/4","title":"conv_transpose(input, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"depthwise_conv/4","deprecated":false,"id":"depthwise_conv/4","title":"depthwise_conv(inputs, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"separable_conv2d/6","deprecated":false,"id":"separable_conv2d/6","title":"separable_conv2d(input, k1, b1, k2, b2, opts \\\\ [])"},{"anchor":"separable_conv3d/8","deprecated":false,"id":"separable_conv3d/8","title":"separable_conv3d(input, k1, b1, k2, b2, k3, b3, opts \\\\ [])"}]},{"key":"functions","name":"Functions","nodes":[{"anchor":"celu/2","deprecated":false,"id":"celu/2","title":"celu(input, opts \\\\ [])"},{"anchor":"conv_lstm/7","deprecated":false,"id":"conv_lstm/7","title":"conv_lstm(input, hidden_state, mask, input_kernel, hidden_kernel, bias \\\\ [], opts \\\\ [])"},{"anchor":"conv_lstm_cell/7","deprecated":false,"id":"conv_lstm_cell/7","title":"conv_lstm_cell(input, carry, arg3, ih, hh, bi, opts \\\\ [])"},{"anchor":"dynamic_unroll/7","deprecated":false,"id":"dynamic_unroll/7","title":"dynamic_unroll(cell_fn, input_sequence, carry, mask, input_kernel, recurrent_kernel, bias)"},{"anchor":"elu/2","deprecated":false,"id":"elu/2","title":"elu(input, opts \\\\ [])"},{"anchor":"gru/7","deprecated":false,"id":"gru/7","title":"gru(input, hidden_state, mask, input_kernel, hidden_kernel, bias \\\\ [], opts \\\\ [])"},{"anchor":"gru_cell/8","deprecated":false,"id":"gru_cell/8","title":"gru_cell(input, carry, mask, arg4, arg5, arg6, gate_fn \\\\ &Axon.Activations.sigmoid/1, activation_fn \\\\ &Axon.Activations.tanh/1)"},{"anchor":"hard_sigmoid/2","deprecated":false,"id":"hard_sigmoid/2","title":"hard_sigmoid(input, opts \\\\ [])"},{"anchor":"hard_silu/2","deprecated":false,"id":"hard_silu/2","title":"hard_silu(input, opts \\\\ [])"},{"anchor":"leaky_relu/2","deprecated":false,"id":"leaky_relu/2","title":"leaky_relu(input, opts \\\\ [])"},{"anchor":"log_softmax/2","deprecated":false,"id":"log_softmax/2","title":"log_softmax(input, opts \\\\ [])"},{"anchor":"log_sumexp/2","deprecated":false,"id":"log_sumexp/2","title":"log_sumexp(input, opts \\\\ [])"},{"anchor":"lstm/7","deprecated":false,"id":"lstm/7","title":"lstm(input, hidden_state, mask, input_kernel, hidden_kernel, bias \\\\ [], opts \\\\ [])"},{"anchor":"lstm_cell/8","deprecated":false,"id":"lstm_cell/8","title":"lstm_cell(input, carry, mask, arg4, arg5, arg6, gate_fn \\\\ &Axon.Activations.sigmoid/1, activation_fn \\\\ &Axon.Activations.tanh/1)"},{"anchor":"multiply/2","deprecated":false,"id":"multiply/2","title":"multiply(inputs, opts \\\\ [])"},{"anchor":"padding_config_transform/2","deprecated":false,"id":"padding_config_transform/2","title":"padding_config_transform(config, channels)"},{"anchor":"selu/2","deprecated":false,"id":"selu/2","title":"selu(input, opts \\\\ [])"},{"anchor":"softmax/2","deprecated":false,"id":"softmax/2","title":"softmax(input, opts \\\\ [])"},{"anchor":"static_unroll/7","deprecated":false,"id":"static_unroll/7","title":"static_unroll(cell_fn, input_sequence, carry, mask, input_kernel, recurrent_kernel, bias)"},{"anchor":"subtract/2","deprecated":false,"id":"subtract/2","title":"subtract(inputs, opts \\\\ [])"}]}],"sections":[],"title":"Axon.Layers"},{"deprecated":false,"group":"Functional","id":"Axon.LossScale","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"dynamic/1","deprecated":false,"id":"dynamic/1","title":"dynamic(opts \\\\ [])"},{"anchor":"identity/1","deprecated":false,"id":"identity/1","title":"identity(opts \\\\ [])"},{"anchor":"static/1","deprecated":false,"id":"static/1","title":"static(opts \\\\ [])"}]}],"sections":[],"title":"Axon.LossScale"},{"deprecated":false,"group":"Functional","id":"Axon.Losses","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"apply_label_smoothing/3","deprecated":false,"id":"apply_label_smoothing/3","title":"apply_label_smoothing(y_true, y_pred, opts \\\\ [])"},{"anchor":"binary_cross_entropy/3","deprecated":false,"id":"binary_cross_entropy/3","title":"binary_cross_entropy(y_true, y_pred, opts \\\\ [])"},{"anchor":"categorical_cross_entropy/3","deprecated":false,"id":"categorical_cross_entropy/3","title":"categorical_cross_entropy(y_true, y_pred, opts \\\\ [])"},{"anchor":"categorical_hinge/3","deprecated":false,"id":"categorical_hinge/3","title":"categorical_hinge(y_true, y_pred, opts \\\\ [])"},{"anchor":"connectionist_temporal_classification/3","deprecated":false,"id":"connectionist_temporal_classification/3","title":"connectionist_temporal_classification(arg1, y_pred, opts \\\\ [])"},{"anchor":"cosine_similarity/3","deprecated":false,"id":"cosine_similarity/3","title":"cosine_similarity(y_true, y_pred, opts \\\\ [])"},{"anchor":"hinge/3","deprecated":false,"id":"hinge/3","title":"hinge(y_true, y_pred, opts \\\\ [])"},{"anchor":"huber/3","deprecated":false,"id":"huber/3","title":"huber(y_true, y_pred, opts \\\\ [])"},{"anchor":"kl_divergence/3","deprecated":false,"id":"kl_divergence/3","title":"kl_divergence(y_true, y_pred, opts \\\\ [])"},{"anchor":"label_smoothing/2","deprecated":false,"id":"label_smoothing/2","title":"label_smoothing(loss_fun, opts \\\\ [])"},{"anchor":"log_cosh/3","deprecated":false,"id":"log_cosh/3","title":"log_cosh(y_true, y_pred, opts \\\\ [])"},{"anchor":"margin_ranking/3","deprecated":false,"id":"margin_ranking/3","title":"margin_ranking(y_true, arg2, opts \\\\ [])"},{"anchor":"mean_absolute_error/3","deprecated":false,"id":"mean_absolute_error/3","title":"mean_absolute_error(y_true, y_pred, opts \\\\ [])"},{"anchor":"mean_squared_error/3","deprecated":false,"id":"mean_squared_error/3","title":"mean_squared_error(y_true, y_pred, opts \\\\ [])"},{"anchor":"poisson/3","deprecated":false,"id":"poisson/3","title":"poisson(y_true, y_pred, opts \\\\ [])"},{"anchor":"soft_margin/3","deprecated":false,"id":"soft_margin/3","title":"soft_margin(y_true, y_pred, opts \\\\ [])"}]}],"sections":[],"title":"Axon.Losses"},{"deprecated":false,"group":"Functional","id":"Axon.Metrics","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"accuracy/3","deprecated":false,"id":"accuracy/3","title":"accuracy(y_true, y_pred, opts \\\\ [])"},{"anchor":"accuracy_transform/4","deprecated":false,"id":"accuracy_transform/4","title":"accuracy_transform(y_true, y_pred, from_logits, sparse)"},{"anchor":"false_negatives/3","deprecated":false,"id":"false_negatives/3","title":"false_negatives(y_true, y_pred, opts \\\\ [])"},{"anchor":"false_positives/3","deprecated":false,"id":"false_positives/3","title":"false_positives(y_true, y_pred, opts \\\\ [])"},{"anchor":"mean_absolute_error/2","deprecated":false,"id":"mean_absolute_error/2","title":"mean_absolute_error(y_true, y_pred)"},{"anchor":"precision/3","deprecated":false,"id":"precision/3","title":"precision(y_true, y_pred, opts \\\\ [])"},{"anchor":"recall/3","deprecated":false,"id":"recall/3","title":"recall(y_true, y_pred, opts \\\\ [])"},{"anchor":"running_average/1","deprecated":false,"id":"running_average/1","title":"running_average(metric)"},{"anchor":"running_sum/1","deprecated":false,"id":"running_sum/1","title":"running_sum(metric)"},{"anchor":"sensitivity/3","deprecated":false,"id":"sensitivity/3","title":"sensitivity(y_true, y_pred, opts \\\\ [])"},{"anchor":"specificity/3","deprecated":false,"id":"specificity/3","title":"specificity(y_true, y_pred, opts \\\\ [])"},{"anchor":"top_k_categorical_accuracy/3","deprecated":false,"id":"top_k_categorical_accuracy/3","title":"top_k_categorical_accuracy(y_true, y_pred, opts \\\\ [])"},{"anchor":"true_negatives/3","deprecated":false,"id":"true_negatives/3","title":"true_negatives(y_true, y_pred, opts \\\\ [])"},{"anchor":"true_positives/3","deprecated":false,"id":"true_positives/3","title":"true_positives(y_true, y_pred, opts \\\\ [])"}]}],"sections":[],"title":"Axon.Metrics"},{"deprecated":false,"group":"Loop","id":"Axon.Loop","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"checkpoint/2","deprecated":false,"id":"checkpoint/2","title":"checkpoint(loop, opts \\\\ [])"},{"anchor":"deserialize_state/2","deprecated":false,"id":"deserialize_state/2","title":"deserialize_state(serialized, opts \\\\ [])"},{"anchor":"early_stop/3","deprecated":false,"id":"early_stop/3","title":"early_stop(loop, monitor, opts \\\\ [])"},{"anchor":"eval_step/1","deprecated":false,"id":"eval_step/1","title":"eval_step(model)"},{"anchor":"evaluator/1","deprecated":false,"id":"evaluator/1","title":"evaluator(model)"},{"anchor":"from_state/2","deprecated":false,"id":"from_state/2","title":"from_state(loop, state)"},{"anchor":"handle_event/4","deprecated":false,"id":"handle_event/4","title":"handle_event(loop, event, handler, filter \\\\ :always)"},{"anchor":"kino_vega_lite_plot/4","deprecated":false,"id":"kino_vega_lite_plot/4","title":"kino_vega_lite_plot(loop, plot, metric, opts \\\\ [])"},{"anchor":"log/3","deprecated":false,"id":"log/3","title":"log(loop, message_fn, opts \\\\ [])"},{"anchor":"loop/3","deprecated":false,"id":"loop/3","title":"loop(step_fn, init_fn \\\\ &default_init/2, output_transform \\\\ & &1)"},{"anchor":"metric/5","deprecated":false,"id":"metric/5","title":"metric(loop, metric, name \\\\ nil, accumulate \\\\ :running_average, transform_or_fields \\\\ [:y_true, :y_pred])"},{"anchor":"monitor/5","deprecated":false,"id":"monitor/5","title":"monitor(loop, metric, fun, name, opts \\\\ [])"},{"anchor":"reduce_lr_on_plateau/3","deprecated":false,"id":"reduce_lr_on_plateau/3","title":"reduce_lr_on_plateau(loop, monitor, opts \\\\ [])"},{"anchor":"run/4","deprecated":false,"id":"run/4","title":"run(loop, data, init_state \\\\ %{}, opts \\\\ [])"},{"anchor":"serialize_state/2","deprecated":false,"id":"serialize_state/2","title":"serialize_state(state, opts \\\\ [])"},{"anchor":"train_step/4","deprecated":false,"id":"train_step/4","title":"train_step(model, loss, optimizer, opts \\\\ [])"},{"anchor":"trainer/4","deprecated":false,"id":"trainer/4","title":"trainer(model, loss, optimizer, opts \\\\ [])"},{"anchor":"validate/4","deprecated":false,"id":"validate/4","title":"validate(loop, model, validation_data, opts \\\\ [])"}]}],"sections":[{"anchor":"module-initialize-and-step","id":"Initialize and Step"},{"anchor":"module-metrics","id":"Metrics"},{"anchor":"module-events-and-handlers","id":"Events and Handlers"},{"anchor":"module-factories","id":"Factories"},{"anchor":"module-running-loops","id":"Running loops"},{"anchor":"module-resuming-loops","id":"Resuming loops"}],"title":"Axon.Loop"},{"deprecated":false,"group":"Loop","id":"Axon.Loop.State","sections":[],"title":"Axon.Loop.State"},{"deprecated":false,"group":"Exceptions","id":"Axon.CompileError","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"message/1","deprecated":false,"id":"message/1","title":"message(exception)"}]}],"sections":[],"title":"Axon.CompileError"}],"tasks":[]}
\ No newline at end of file
diff --git a/dist/sidebar_items-D4AB84D3.js b/dist/sidebar_items-D4AB84D3.js
new file mode 100644
index 00000000..7d122b53
--- /dev/null
+++ b/dist/sidebar_items-D4AB84D3.js
@@ -0,0 +1 @@
+sidebarNodes={"extras":[{"group":"","headers":[{"anchor":"modules","id":"Modules"}],"id":"api-reference","title":"API Reference"},{"group":"","headers":[{"anchor":"model-creation","id":"Model Creation"},{"anchor":"model-execution","id":"Model Execution"},{"anchor":"training-and-evaluation","id":"Training and Evaluation"},{"anchor":"serialization","id":"Serialization"}],"id":"guides","title":"Axon Guides"},{"group":"Guides: Model Creation","headers":[{"anchor":"your-first-model","id":"Your first model"}],"id":"your_first_axon_model","title":"Your first Axon model"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-a-sequential-model","id":"Creating a sequential model"}],"id":"sequential_models","title":"Sequential models"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-more-complex-models","id":"Creating more complex models"}],"id":"complex_models","title":"Complex models"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-multi-input-models","id":"Creating multi-input models"},{"anchor":"creating-multi-output-models","id":"Creating multi-output models"}],"id":"multi_input_multi_output_models","title":"Multi-input / multi-output models"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-custom-layers","id":"Creating custom layers"}],"id":"custom_layers","title":"Custom layers"},{"group":"Guides: Model Creation","headers":[{"anchor":"creating-models-with-hooks","id":"Creating models with hooks"}],"id":"model_hooks","title":"Model hooks"},{"group":"Guides: Model Execution","headers":[{"anchor":"using-nx-backends-in-axon","id":"Using Nx Backends in Axon"},{"anchor":"using-nx-compilers-in-axon","id":"Using Nx Compilers in Axon"},{"anchor":"a-note-on-cpus-gpus-tpus","id":"A Note on CPUs/GPUs/TPUs"}],"id":"accelerating_axon","title":"Accelerating Axon"},{"group":"Guides: Model Execution","headers":[{"anchor":"executing-models-in-inference-mode","id":"Executing models in inference mode"},{"anchor":"executing-models-in-training-mode","id":"Executing models in training mode"}],"id":"training_and_inference_mode","title":"Training and inference mode"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"creating-an-axon-training-loop","id":"Creating an Axon training loop"}],"id":"your_first_training_loop","title":"Your first training loop"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"adding-metrics-to-training-loops","id":"Adding metrics to training loops"}],"id":"instrumenting_loops_with_metrics","title":"Instrumenting loops with metrics"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"creating-an-axon-evaluation-loop","id":"Creating an Axon evaluation loop"}],"id":"your_first_evaluation_loop","title":"Your first evaluation loop"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"adding-event-handlers-to-training-loops","id":"Adding event handlers to training loops"}],"id":"using_loop_event_handlers","title":"Using loop event handlers"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"using-custom-models-in-training-loops","id":"Using custom models in training loops"},{"anchor":"using-custom-loss-functions-in-training-loops","id":"Using custom loss functions in training loops"},{"anchor":"using-custom-optimizers-in-training-loops","id":"Using custom optimizers in training loops"}],"id":"custom_models_loss_optimizers","title":"Custom models, loss functions, and optimizers"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"writing-custom-metrics","id":"Writing custom metrics"}],"id":"writing_custom_metrics","title":"Writing custom metrics"},{"group":"Guides: Training and Evaluation","headers":[{"anchor":"writing-custom-event-handlers","id":"Writing custom event handlers"}],"id":"writing_custom_event_handlers","title":"Writing custom event handlers"},{"group":"Guides: Serialization","headers":[{"anchor":"converting-an-onnx-model-into-axon","id":"Converting an ONNX model into Axon"},{"anchor":"onnx-model","id":"ONNX model"},{"anchor":"inference-on-onnx-derived-models","id":"Inference on ONNX derived models"}],"id":"onnx_to_axon","title":"Converting ONNX models to Axon"},{"group":"Examples: Basics","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"the-model","id":"The model"},{"anchor":"training-data","id":"Training data"},{"anchor":"training","id":"Training"},{"anchor":"trying-the-model","id":"Trying the model"},{"anchor":"visualizing-the-model-predictions","id":"Visualizing the model predictions"}],"id":"xor","title":"Modeling XOR with a neural network"},{"group":"Examples: Vision","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"retrieving-and-exploring-the-dataset","id":"Retrieving and exploring the dataset"},{"anchor":"defining-the-model","id":"Defining the model"},{"anchor":"training","id":"Training"},{"anchor":"prediction","id":"Prediction"}],"id":"mnist","title":"Classifying handwritten digits"},{"group":"Examples: Vision","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"loading-the-data","id":"Loading the data"},{"anchor":"a-look-at-the-data","id":"A look at the data"},{"anchor":"data-processing","id":"Data processing"},{"anchor":"building-the-model","id":"Building the model"},{"anchor":"training-the-model","id":"Training the model"},{"anchor":"extra-gradient-centralization","id":"Extra: gradient centralization"},{"anchor":"inference","id":"Inference"}],"id":"horses_or_humans","title":"Classifying horses and humans"},{"group":"Examples: Text","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"preparation","id":"Preparation"},{"anchor":"defining-the-model","id":"Defining the Model"},{"anchor":"training-the-network","id":"Training the network"},{"anchor":"generating-text","id":"Generating text"},{"anchor":"multi-lstm-layers","id":"Multi LSTM layers"},{"anchor":"generate-text-with-the-new-network","id":"Generate text with the new network"},{"anchor":"references","id":"References"}],"id":"lstm_generation","title":"Generating text with LSTM"},{"group":"Examples: Structured","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"data-processing","id":"Data processing"},{"anchor":"building-the-model","id":"Building the model"},{"anchor":"training-our-model","id":"Training our model"},{"anchor":"model-evaluation","id":"Model evaluation"}],"id":"credit_card_fraud","title":"Classifying fraudulent transactions"},{"group":"Examples: Generative","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"data-loading","id":"Data loading"},{"anchor":"building-the-model","id":"Building the model"},{"anchor":"evaluation","id":"Evaluation"},{"anchor":"a-better-training-loop","id":"A better training loop"}],"id":"mnist_autoencoder_using_kino","title":"MNIST Denoising Autoencoder using Kino for visualization"},{"group":"Examples: Generative","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"downloading-the-data","id":"Downloading the data"},{"anchor":"encoder-and-decoder","id":"Encoder and decoder"},{"anchor":"training-the-model","id":"Training the model"},{"anchor":"extra-losses","id":"Extra: losses"},{"anchor":"inference","id":"Inference"}],"id":"fashionmnist_autoencoder","title":"Training an Autoencoder on Fashion MNIST"},{"group":"Examples: Generative","headers":[{"anchor":"introduction","id":"Introduction"},{"anchor":"training-a-simple-autoencoder","id":"Training a simple autoencoder"},{"anchor":"splitting-up-the-model","id":"Splitting up the model"},{"anchor":"making-it-variational","id":"Making it variational"}],"id":"fashionmnist_vae","title":"A Variational Autoencoder for MNIST"}],"modules":[{"deprecated":false,"group":"","id":"Axon.ModelState","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"empty/0","deprecated":false,"id":"empty/0","title":"empty()"},{"anchor":"freeze/2","deprecated":false,"id":"freeze/2","title":"freeze(model_state, mask \\\\ fn _ -> true end)"},{"anchor":"frozen_parameters/1","deprecated":false,"id":"frozen_parameters/1","title":"frozen_parameters(model_state)"},{"anchor":"frozen_state/1","deprecated":false,"id":"frozen_state/1","title":"frozen_state(model_state)"},{"anchor":"new/1","deprecated":false,"id":"new/1","title":"new(data)"},{"anchor":"trainable_parameters/1","deprecated":false,"id":"trainable_parameters/1","title":"trainable_parameters(model_state)"},{"anchor":"trainable_state/1","deprecated":false,"id":"trainable_state/1","title":"trainable_state(model_state)"},{"anchor":"unfreeze/2","deprecated":false,"id":"unfreeze/2","title":"unfreeze(model_state, mask \\\\ fn _ -> true end)"},{"anchor":"update/3","deprecated":false,"id":"update/3","title":"update(model_state, updated_parameters, updated_state \\\\ %{})"}]}],"sections":[],"title":"Axon.ModelState"},{"deprecated":false,"group":"Model","id":"Axon","nodeGroups":[{"key":"layers-special","name":"Layers: Special","nodes":[{"anchor":"block/2","deprecated":false,"id":"block/2","title":"block(fun, opts \\\\ [])"},{"anchor":"constant/2","deprecated":false,"id":"constant/2","title":"constant(tensor, opts \\\\ [])"},{"anchor":"container/2","deprecated":false,"id":"container/2","title":"container(container, opts \\\\ [])"},{"anchor":"input/2","deprecated":false,"id":"input/2","title":"input(name, opts \\\\ [])"},{"anchor":"layer/3","deprecated":false,"id":"layer/3","title":"layer(op, inputs, opts \\\\ [])"},{"anchor":"nx/3","deprecated":false,"id":"nx/3","title":"nx(input, fun, opts \\\\ [])"},{"anchor":"optional/2","deprecated":false,"id":"optional/2","title":"optional(x, opts \\\\ [])"},{"anchor":"param/3","deprecated":false,"id":"param/3","title":"param(name, shape, opts \\\\ [])"},{"anchor":"stack_columns/2","deprecated":false,"id":"stack_columns/2","title":"stack_columns(x, opts \\\\ [])"}]},{"key":"layers-activation","name":"Layers: Activation","nodes":[{"anchor":"activation/3","deprecated":false,"id":"activation/3","title":"activation(x, activation, opts \\\\ [])"},{"anchor":"celu/2","deprecated":false,"id":"celu/2","title":"celu(x, opts \\\\ [])"},{"anchor":"elu/2","deprecated":false,"id":"elu/2","title":"elu(x, opts \\\\ [])"},{"anchor":"exp/2","deprecated":false,"id":"exp/2","title":"exp(x, opts \\\\ [])"},{"anchor":"gelu/2","deprecated":false,"id":"gelu/2","title":"gelu(x, opts \\\\ [])"},{"anchor":"hard_sigmoid/2","deprecated":false,"id":"hard_sigmoid/2","title":"hard_sigmoid(x, opts \\\\ [])"},{"anchor":"hard_silu/2","deprecated":false,"id":"hard_silu/2","title":"hard_silu(x, opts \\\\ [])"},{"anchor":"hard_tanh/2","deprecated":false,"id":"hard_tanh/2","title":"hard_tanh(x, opts \\\\ [])"},{"anchor":"leaky_relu/2","deprecated":false,"id":"leaky_relu/2","title":"leaky_relu(x, opts \\\\ [])"},{"anchor":"linear/2","deprecated":false,"id":"linear/2","title":"linear(x, opts \\\\ [])"},{"anchor":"log_sigmoid/2","deprecated":false,"id":"log_sigmoid/2","title":"log_sigmoid(x, opts \\\\ [])"},{"anchor":"log_softmax/2","deprecated":false,"id":"log_softmax/2","title":"log_softmax(x, opts \\\\ [])"},{"anchor":"log_sumexp/2","deprecated":false,"id":"log_sumexp/2","title":"log_sumexp(x, opts \\\\ [])"},{"anchor":"mish/2","deprecated":false,"id":"mish/2","title":"mish(x, opts \\\\ [])"},{"anchor":"relu6/2","deprecated":false,"id":"relu6/2","title":"relu6(x, opts \\\\ [])"},{"anchor":"relu/2","deprecated":false,"id":"relu/2","title":"relu(x, opts \\\\ [])"},{"anchor":"selu/2","deprecated":false,"id":"selu/2","title":"selu(x, opts \\\\ [])"},{"anchor":"sigmoid/2","deprecated":false,"id":"sigmoid/2","title":"sigmoid(x, opts \\\\ [])"},{"anchor":"silu/2","deprecated":false,"id":"silu/2","title":"silu(x, opts \\\\ [])"},{"anchor":"softmax/2","deprecated":false,"id":"softmax/2","title":"softmax(x, opts \\\\ [])"},{"anchor":"softplus/2","deprecated":false,"id":"softplus/2","title":"softplus(x, opts \\\\ [])"},{"anchor":"softsign/2","deprecated":false,"id":"softsign/2","title":"softsign(x, opts \\\\ [])"},{"anchor":"tanh/2","deprecated":false,"id":"tanh/2","title":"tanh(x, opts \\\\ [])"}]},{"key":"layers-linear","name":"Layers: Linear","nodes":[{"anchor":"bias/2","deprecated":false,"id":"bias/2","title":"bias(x, opts \\\\ [])"},{"anchor":"bilinear/4","deprecated":false,"id":"bilinear/4","title":"bilinear(input1, input2, units, opts \\\\ [])"},{"anchor":"dense/3","deprecated":false,"id":"dense/3","title":"dense(x, units, opts \\\\ [])"},{"anchor":"embedding/4","deprecated":false,"id":"embedding/4","title":"embedding(x, vocab_size, embedding_size, opts \\\\ [])"}]},{"key":"layers-convolution","name":"Layers: Convolution","nodes":[{"anchor":"conv/3","deprecated":false,"id":"conv/3","title":"conv(x, units, opts \\\\ [])"},{"anchor":"conv_transpose/3","deprecated":false,"id":"conv_transpose/3","title":"conv_transpose(x, units, opts \\\\ [])"},{"anchor":"depthwise_conv/3","deprecated":false,"id":"depthwise_conv/3","title":"depthwise_conv(x, channel_multiplier, opts \\\\ [])"},{"anchor":"separable_conv2d/3","deprecated":false,"id":"separable_conv2d/3","title":"separable_conv2d(x, channel_multiplier, opts \\\\ [])"},{"anchor":"separable_conv3d/3","deprecated":false,"id":"separable_conv3d/3","title":"separable_conv3d(x, channel_multiplier, opts \\\\ [])"}]},{"key":"layers-dropout","name":"Layers: Dropout","nodes":[{"anchor":"alpha_dropout/2","deprecated":false,"id":"alpha_dropout/2","title":"alpha_dropout(x, opts \\\\ [])"},{"anchor":"dropout/2","deprecated":false,"id":"dropout/2","title":"dropout(x, opts \\\\ [])"},{"anchor":"feature_alpha_dropout/2","deprecated":false,"id":"feature_alpha_dropout/2","title":"feature_alpha_dropout(x, opts \\\\ [])"},{"anchor":"spatial_dropout/2","deprecated":false,"id":"spatial_dropout/2","title":"spatial_dropout(x, opts \\\\ [])"}]},{"key":"layers-pooling","name":"Layers: Pooling","nodes":[{"anchor":"adaptive_avg_pool/2","deprecated":false,"id":"adaptive_avg_pool/2","title":"adaptive_avg_pool(x, opts \\\\ [])"},{"anchor":"adaptive_lp_pool/2","deprecated":false,"id":"adaptive_lp_pool/2","title":"adaptive_lp_pool(x, opts \\\\ [])"},{"anchor":"adaptive_max_pool/2","deprecated":false,"id":"adaptive_max_pool/2","title":"adaptive_max_pool(x, opts \\\\ [])"},{"anchor":"avg_pool/2","deprecated":false,"id":"avg_pool/2","title":"avg_pool(x, opts \\\\ [])"},{"anchor":"global_avg_pool/2","deprecated":false,"id":"global_avg_pool/2","title":"global_avg_pool(x, opts \\\\ [])"},{"anchor":"global_lp_pool/2","deprecated":false,"id":"global_lp_pool/2","title":"global_lp_pool(x, opts \\\\ [])"},{"anchor":"global_max_pool/2","deprecated":false,"id":"global_max_pool/2","title":"global_max_pool(x, opts \\\\ [])"},{"anchor":"lp_pool/2","deprecated":false,"id":"lp_pool/2","title":"lp_pool(x, opts \\\\ [])"},{"anchor":"max_pool/2","deprecated":false,"id":"max_pool/2","title":"max_pool(x, opts \\\\ [])"}]},{"key":"layers-normalization","name":"Layers: Normalization","nodes":[{"anchor":"batch_norm/2","deprecated":false,"id":"batch_norm/2","title":"batch_norm(x, opts \\\\ [])"},{"anchor":"group_norm/3","deprecated":false,"id":"group_norm/3","title":"group_norm(x, num_groups, opts \\\\ [])"},{"anchor":"instance_norm/2","deprecated":false,"id":"instance_norm/2","title":"instance_norm(x, opts \\\\ [])"},{"anchor":"layer_norm/2","deprecated":false,"id":"layer_norm/2","title":"layer_norm(x, opts \\\\ [])"}]},{"key":"layers-recurrent","name":"Layers: Recurrent","nodes":[{"anchor":"conv_lstm/2","deprecated":false,"id":"conv_lstm/2","title":"conv_lstm(x, units)"},{"anchor":"conv_lstm/3","deprecated":false,"id":"conv_lstm/3","title":"conv_lstm(x, units, opts)"},{"anchor":"conv_lstm/4","deprecated":false,"id":"conv_lstm/4","title":"conv_lstm(x, hidden_state, units, opts)"},{"anchor":"gru/2","deprecated":false,"id":"gru/2","title":"gru(x, units)"},{"anchor":"gru/3","deprecated":false,"id":"gru/3","title":"gru(x, units, opts)"},{"anchor":"gru/4","deprecated":false,"id":"gru/4","title":"gru(x, hidden_state, units, opts)"},{"anchor":"lstm/2","deprecated":false,"id":"lstm/2","title":"lstm(x, units)"},{"anchor":"lstm/3","deprecated":false,"id":"lstm/3","title":"lstm(x, units, opts)"},{"anchor":"lstm/4","deprecated":false,"id":"lstm/4","title":"lstm(x, hidden_state, units, opts \\\\ [])"},{"anchor":"mask/3","deprecated":false,"id":"mask/3","title":"mask(input, eos_token, opts \\\\ [])"}]},{"key":"layers-combinators","name":"Layers: Combinators","nodes":[{"anchor":"add/3","deprecated":false,"id":"add/3","title":"add(x, y, opts)"},{"anchor":"concatenate/3","deprecated":false,"id":"concatenate/3","title":"concatenate(x, y, opts)"},{"anchor":"cond/5","deprecated":false,"id":"cond/5","title":"cond(parent, cond_fn, true_graph, false_graph, opts \\\\ [])"},{"anchor":"multiply/3","deprecated":false,"id":"multiply/3","title":"multiply(x, y, opts)"},{"anchor":"split/3","deprecated":false,"id":"split/3","title":"split(parent, splits, opts \\\\ [])"},{"anchor":"subtract/3","deprecated":false,"id":"subtract/3","title":"subtract(x, y, opts)"}]},{"key":"layers-shape","name":"Layers: Shape","nodes":[{"anchor":"flatten/2","deprecated":false,"id":"flatten/2","title":"flatten(x, opts \\\\ [])"},{"anchor":"pad/4","deprecated":false,"id":"pad/4","title":"pad(x, config, value \\\\ 0.0, opts \\\\ [])"},{"anchor":"reshape/3","deprecated":false,"id":"reshape/3","title":"reshape(x, new_shape, opts \\\\ [])"},{"anchor":"resize/3","deprecated":false,"id":"resize/3","title":"resize(x, resize_shape, opts \\\\ [])"},{"anchor":"transpose/3","deprecated":false,"id":"transpose/3","title":"transpose(x, permutation \\\\ nil, opts \\\\ [])"}]},{"key":"model","name":"Model","nodes":[{"anchor":"build/2","deprecated":false,"id":"build/2","title":"build(model, opts \\\\ [])"},{"anchor":"compile/4","deprecated":false,"id":"compile/4","title":"compile(model, template, init_params \\\\ %{}, opts \\\\ [])"},{"anchor":"freeze/2","deprecated":true,"id":"freeze/2","title":"freeze(model, fun_or_predicate \\\\ :all)"},{"anchor":"predict/4","deprecated":false,"id":"predict/4","title":"predict(model, params, input, opts \\\\ [])"},{"anchor":"unfreeze/2","deprecated":true,"id":"unfreeze/2","title":"unfreeze(model, fun_or_predicate \\\\ :all)"}]},{"key":"model-manipulation","name":"Model: Manipulation","nodes":[{"anchor":"get_inputs/1","deprecated":false,"id":"get_inputs/1","title":"get_inputs(axon)"},{"anchor":"get_op_counts/1","deprecated":false,"id":"get_op_counts/1","title":"get_op_counts(axon)"},{"anchor":"get_options/1","deprecated":false,"id":"get_options/1","title":"get_options(axon)"},{"anchor":"get_output_shape/3","deprecated":false,"id":"get_output_shape/3","title":"get_output_shape(axon, inputs, opts \\\\ [])"},{"anchor":"get_parameters/1","deprecated":false,"id":"get_parameters/1","title":"get_parameters(axon)"},{"anchor":"map_nodes/2","deprecated":false,"id":"map_nodes/2","title":"map_nodes(axon, fun)"},{"anchor":"pop_node/1","deprecated":false,"id":"pop_node/1","title":"pop_node(axon)"},{"anchor":"reduce_nodes/3","deprecated":false,"id":"reduce_nodes/3","title":"reduce_nodes(axon, acc, fun)"},{"anchor":"set_options/2","deprecated":false,"id":"set_options/2","title":"set_options(axon, new_opts)"},{"anchor":"set_parameters/2","deprecated":false,"id":"set_parameters/2","title":"set_parameters(axon, new_params)"}]},{"key":"model-debugging","name":"Model: Debugging","nodes":[{"anchor":"attach_hook/3","deprecated":false,"id":"attach_hook/3","title":"attach_hook(x, fun, opts \\\\ [])"},{"anchor":"trace_backward/5","deprecated":false,"id":"trace_backward/5","title":"trace_backward(model, inputs, params, loss, opts \\\\ [])"},{"anchor":"trace_forward/4","deprecated":false,"id":"trace_forward/4","title":"trace_forward(model, inputs, params, opts \\\\ [])"},{"anchor":"trace_init/4","deprecated":false,"id":"trace_init/4","title":"trace_init(model, template, params \\\\ %{}, opts \\\\ [])"}]},{"key":"types","name":"Types","nodes":[{"anchor":"t:t/0","deprecated":false,"id":"t/0","title":"t()"}]},{"key":"functions","name":"Functions","nodes":[{"anchor":"bidirectional/4","deprecated":false,"id":"bidirectional/4","title":"bidirectional(input, forward_fun, merge_fun, opts \\\\ [])"},{"anchor":"blur_pool/2","deprecated":false,"id":"blur_pool/2","title":"blur_pool(x, opts \\\\ [])"}]}],"sections":[{"anchor":"module-model-creation","id":"Model Creation"},{"anchor":"module-model-execution","id":"Model Execution"},{"anchor":"module-model-training","id":"Model Training"},{"anchor":"module-using-with-nx-serving","id":"Using with Nx.Serving"}],"title":"Axon"},{"deprecated":false,"group":"Model","id":"Axon.Initializers","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"full/1","deprecated":false,"id":"full/1","title":"full(value)"},{"anchor":"glorot_normal/1","deprecated":false,"id":"glorot_normal/1","title":"glorot_normal(opts \\\\ [])"},{"anchor":"glorot_uniform/1","deprecated":false,"id":"glorot_uniform/1","title":"glorot_uniform(opts \\\\ [])"},{"anchor":"he_normal/1","deprecated":false,"id":"he_normal/1","title":"he_normal(opts \\\\ [])"},{"anchor":"he_uniform/1","deprecated":false,"id":"he_uniform/1","title":"he_uniform(opts \\\\ [])"},{"anchor":"identity/0","deprecated":false,"id":"identity/0","title":"identity()"},{"anchor":"lecun_normal/1","deprecated":false,"id":"lecun_normal/1","title":"lecun_normal(opts \\\\ [])"},{"anchor":"lecun_uniform/1","deprecated":false,"id":"lecun_uniform/1","title":"lecun_uniform(opts \\\\ [])"},{"anchor":"normal/1","deprecated":false,"id":"normal/1","title":"normal(opts \\\\ [])"},{"anchor":"ones/0","deprecated":false,"id":"ones/0","title":"ones()"},{"anchor":"orthogonal/1","deprecated":false,"id":"orthogonal/1","title":"orthogonal(opts \\\\ [])"},{"anchor":"uniform/1","deprecated":false,"id":"uniform/1","title":"uniform(opts \\\\ [])"},{"anchor":"variance_scaling/1","deprecated":false,"id":"variance_scaling/1","title":"variance_scaling(opts \\\\ [])"},{"anchor":"zeros/0","deprecated":false,"id":"zeros/0","title":"zeros()"}]}],"sections":[],"title":"Axon.Initializers"},{"deprecated":false,"group":"Model","id":"Axon.MixedPrecision","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"cast/3","deprecated":false,"id":"cast/3","title":"cast(policy, tensor_or_container, variable_type)"},{"anchor":"create_policy/1","deprecated":false,"id":"create_policy/1","title":"create_policy(opts \\\\ [])"}]}],"sections":[],"title":"Axon.MixedPrecision"},{"deprecated":false,"group":"Model","id":"Axon.None","sections":[],"title":"Axon.None"},{"deprecated":false,"group":"Model","id":"Axon.StatefulOutput","sections":[],"title":"Axon.StatefulOutput"},{"deprecated":false,"group":"Summary","id":"Axon.Display","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"as_graph/3","deprecated":false,"id":"as_graph/3","title":"as_graph(axon, input_templates, opts \\\\ [])"},{"anchor":"as_table/2","deprecated":false,"id":"as_table/2","title":"as_table(axon, input_templates)"}]}],"sections":[],"title":"Axon.Display"},{"deprecated":false,"group":"Functional","id":"Axon.Activations","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"celu/2","deprecated":false,"id":"celu/2","title":"celu(x, opts \\\\ [])"},{"anchor":"elu/2","deprecated":false,"id":"elu/2","title":"elu(x, opts \\\\ [])"},{"anchor":"exp/1","deprecated":false,"id":"exp/1","title":"exp(x)"},{"anchor":"gelu/1","deprecated":false,"id":"gelu/1","title":"gelu(x)"},{"anchor":"hard_sigmoid/2","deprecated":false,"id":"hard_sigmoid/2","title":"hard_sigmoid(x, opts \\\\ [])"},{"anchor":"hard_silu/2","deprecated":false,"id":"hard_silu/2","title":"hard_silu(x, opts \\\\ [])"},{"anchor":"hard_tanh/1","deprecated":false,"id":"hard_tanh/1","title":"hard_tanh(x)"},{"anchor":"leaky_relu/2","deprecated":false,"id":"leaky_relu/2","title":"leaky_relu(x, opts \\\\ [])"},{"anchor":"linear/1","deprecated":false,"id":"linear/1","title":"linear(x)"},{"anchor":"log_sigmoid/1","deprecated":false,"id":"log_sigmoid/1","title":"log_sigmoid(x)"},{"anchor":"log_softmax/2","deprecated":false,"id":"log_softmax/2","title":"log_softmax(x, opts \\\\ [])"},{"anchor":"log_sumexp/2","deprecated":false,"id":"log_sumexp/2","title":"log_sumexp(x, opts \\\\ [])"},{"anchor":"mish/1","deprecated":false,"id":"mish/1","title":"mish(x)"},{"anchor":"relu6/1","deprecated":false,"id":"relu6/1","title":"relu6(x)"},{"anchor":"relu/1","deprecated":false,"id":"relu/1","title":"relu(x)"},{"anchor":"selu/2","deprecated":false,"id":"selu/2","title":"selu(x, opts \\\\ [])"},{"anchor":"sigmoid/1","deprecated":false,"id":"sigmoid/1","title":"sigmoid(x)"},{"anchor":"silu/1","deprecated":false,"id":"silu/1","title":"silu(x)"},{"anchor":"softmax/2","deprecated":false,"id":"softmax/2","title":"softmax(x, opts \\\\ [])"},{"anchor":"softplus/1","deprecated":false,"id":"softplus/1","title":"softplus(x)"},{"anchor":"softsign/1","deprecated":false,"id":"softsign/1","title":"softsign(x)"},{"anchor":"tanh/1","deprecated":false,"id":"tanh/1","title":"tanh(x)"}]}],"sections":[],"title":"Axon.Activations"},{"deprecated":false,"group":"Functional","id":"Axon.Layers","nodeGroups":[{"key":"layers-linear","name":"Layers: Linear","nodes":[{"anchor":"bilinear/5","deprecated":false,"id":"bilinear/5","title":"bilinear(input1, input2, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"dense/4","deprecated":false,"id":"dense/4","title":"dense(input, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"embedding/3","deprecated":false,"id":"embedding/3","title":"embedding(input, kernel, arg3 \\\\ [])"}]},{"key":"layers-dropout","name":"Layers: Dropout","nodes":[{"anchor":"alpha_dropout/3","deprecated":false,"id":"alpha_dropout/3","title":"alpha_dropout(input, key, opts \\\\ [])"},{"anchor":"dropout/3","deprecated":false,"id":"dropout/3","title":"dropout(input, key, opts \\\\ [])"},{"anchor":"feature_alpha_dropout/3","deprecated":false,"id":"feature_alpha_dropout/3","title":"feature_alpha_dropout(input, key, opts \\\\ [])"},{"anchor":"spatial_dropout/3","deprecated":false,"id":"spatial_dropout/3","title":"spatial_dropout(input, key, opts \\\\ [])"}]},{"key":"layers-pooling","name":"Layers: Pooling","nodes":[{"anchor":"adaptive_avg_pool/2","deprecated":false,"id":"adaptive_avg_pool/2","title":"adaptive_avg_pool(input, opts \\\\ [])"},{"anchor":"adaptive_lp_pool/2","deprecated":false,"id":"adaptive_lp_pool/2","title":"adaptive_lp_pool(input, opts \\\\ [])"},{"anchor":"adaptive_max_pool/2","deprecated":false,"id":"adaptive_max_pool/2","title":"adaptive_max_pool(input, opts \\\\ [])"},{"anchor":"avg_pool/2","deprecated":false,"id":"avg_pool/2","title":"avg_pool(input, opts \\\\ [])"},{"anchor":"blur_pool/2","deprecated":false,"id":"blur_pool/2","title":"blur_pool(input, opts \\\\ [])"},{"anchor":"global_avg_pool/2","deprecated":false,"id":"global_avg_pool/2","title":"global_avg_pool(input, opts \\\\ [])"},{"anchor":"global_lp_pool/2","deprecated":false,"id":"global_lp_pool/2","title":"global_lp_pool(input, opts \\\\ [])"},{"anchor":"global_max_pool/2","deprecated":false,"id":"global_max_pool/2","title":"global_max_pool(input, opts \\\\ [])"},{"anchor":"lp_pool/2","deprecated":false,"id":"lp_pool/2","title":"lp_pool(input, opts \\\\ [])"},{"anchor":"max_pool/2","deprecated":false,"id":"max_pool/2","title":"max_pool(input, opts \\\\ [])"}]},{"key":"layers-normalization","name":"Layers: Normalization","nodes":[{"anchor":"batch_norm/6","deprecated":false,"id":"batch_norm/6","title":"batch_norm(input, gamma, beta, ra_mean, ra_var, opts \\\\ [])"},{"anchor":"group_norm/4","deprecated":false,"id":"group_norm/4","title":"group_norm(input, gamma, beta, opts \\\\ [])"},{"anchor":"instance_norm/6","deprecated":false,"id":"instance_norm/6","title":"instance_norm(input, gamma, beta, ra_mean, ra_var, opts \\\\ [])"},{"anchor":"layer_norm/4","deprecated":false,"id":"layer_norm/4","title":"layer_norm(input, gamma, beta, opts \\\\ [])"}]},{"key":"layers-shape","name":"Layers: Shape","nodes":[{"anchor":"flatten/2","deprecated":false,"id":"flatten/2","title":"flatten(input, opts \\\\ [])"},{"anchor":"resize/2","deprecated":false,"id":"resize/2","title":"resize(input, opts \\\\ [])"}]},{"key":"functions-convolutional","name":"Functions: Convolutional","nodes":[{"anchor":"conv/4","deprecated":false,"id":"conv/4","title":"conv(input, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"conv_transpose/4","deprecated":false,"id":"conv_transpose/4","title":"conv_transpose(input, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"depthwise_conv/4","deprecated":false,"id":"depthwise_conv/4","title":"depthwise_conv(inputs, kernel, bias \\\\ 0, opts \\\\ [])"},{"anchor":"separable_conv2d/6","deprecated":false,"id":"separable_conv2d/6","title":"separable_conv2d(input, k1, b1, k2, b2, opts \\\\ [])"},{"anchor":"separable_conv3d/8","deprecated":false,"id":"separable_conv3d/8","title":"separable_conv3d(input, k1, b1, k2, b2, k3, b3, opts \\\\ [])"}]},{"key":"functions","name":"Functions","nodes":[{"anchor":"celu/2","deprecated":false,"id":"celu/2","title":"celu(input, opts \\\\ [])"},{"anchor":"conv_lstm/7","deprecated":false,"id":"conv_lstm/7","title":"conv_lstm(input, hidden_state, mask, input_kernel, hidden_kernel, bias \\\\ [], opts \\\\ [])"},{"anchor":"conv_lstm_cell/7","deprecated":false,"id":"conv_lstm_cell/7","title":"conv_lstm_cell(input, carry, arg3, ih, hh, bi, opts \\\\ [])"},{"anchor":"dynamic_unroll/7","deprecated":false,"id":"dynamic_unroll/7","title":"dynamic_unroll(cell_fn, input_sequence, carry, mask, input_kernel, recurrent_kernel, bias)"},{"anchor":"elu/2","deprecated":false,"id":"elu/2","title":"elu(input, opts \\\\ [])"},{"anchor":"gru/7","deprecated":false,"id":"gru/7","title":"gru(input, hidden_state, mask, input_kernel, hidden_kernel, bias \\\\ [], opts \\\\ [])"},{"anchor":"gru_cell/8","deprecated":false,"id":"gru_cell/8","title":"gru_cell(input, carry, mask, arg4, arg5, arg6, gate_fn \\\\ &Axon.Activations.sigmoid/1, activation_fn \\\\ &Axon.Activations.tanh/1)"},{"anchor":"hard_sigmoid/2","deprecated":false,"id":"hard_sigmoid/2","title":"hard_sigmoid(input, opts \\\\ [])"},{"anchor":"hard_silu/2","deprecated":false,"id":"hard_silu/2","title":"hard_silu(input, opts \\\\ [])"},{"anchor":"leaky_relu/2","deprecated":false,"id":"leaky_relu/2","title":"leaky_relu(input, opts \\\\ [])"},{"anchor":"log_softmax/2","deprecated":false,"id":"log_softmax/2","title":"log_softmax(input, opts \\\\ [])"},{"anchor":"log_sumexp/2","deprecated":false,"id":"log_sumexp/2","title":"log_sumexp(input, opts \\\\ [])"},{"anchor":"lstm/7","deprecated":false,"id":"lstm/7","title":"lstm(input, hidden_state, mask, input_kernel, hidden_kernel, bias \\\\ [], opts \\\\ [])"},{"anchor":"lstm_cell/8","deprecated":false,"id":"lstm_cell/8","title":"lstm_cell(input, carry, mask, arg4, arg5, arg6, gate_fn \\\\ &Axon.Activations.sigmoid/1, activation_fn \\\\ &Axon.Activations.tanh/1)"},{"anchor":"multiply/2","deprecated":false,"id":"multiply/2","title":"multiply(inputs, opts \\\\ [])"},{"anchor":"padding_config_transform/2","deprecated":false,"id":"padding_config_transform/2","title":"padding_config_transform(config, channels)"},{"anchor":"selu/2","deprecated":false,"id":"selu/2","title":"selu(input, opts \\\\ [])"},{"anchor":"softmax/2","deprecated":false,"id":"softmax/2","title":"softmax(input, opts \\\\ [])"},{"anchor":"static_unroll/7","deprecated":false,"id":"static_unroll/7","title":"static_unroll(cell_fn, input_sequence, carry, mask, input_kernel, recurrent_kernel, bias)"},{"anchor":"subtract/2","deprecated":false,"id":"subtract/2","title":"subtract(inputs, opts \\\\ [])"}]}],"sections":[],"title":"Axon.Layers"},{"deprecated":false,"group":"Functional","id":"Axon.LossScale","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"dynamic/1","deprecated":false,"id":"dynamic/1","title":"dynamic(opts \\\\ [])"},{"anchor":"identity/1","deprecated":false,"id":"identity/1","title":"identity(opts \\\\ [])"},{"anchor":"static/1","deprecated":false,"id":"static/1","title":"static(opts \\\\ [])"}]}],"sections":[],"title":"Axon.LossScale"},{"deprecated":false,"group":"Functional","id":"Axon.Losses","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"apply_label_smoothing/3","deprecated":false,"id":"apply_label_smoothing/3","title":"apply_label_smoothing(y_true, y_pred, opts \\\\ [])"},{"anchor":"binary_cross_entropy/3","deprecated":false,"id":"binary_cross_entropy/3","title":"binary_cross_entropy(y_true, y_pred, opts \\\\ [])"},{"anchor":"categorical_cross_entropy/3","deprecated":false,"id":"categorical_cross_entropy/3","title":"categorical_cross_entropy(y_true, y_pred, opts \\\\ [])"},{"anchor":"categorical_hinge/3","deprecated":false,"id":"categorical_hinge/3","title":"categorical_hinge(y_true, y_pred, opts \\\\ [])"},{"anchor":"connectionist_temporal_classification/3","deprecated":false,"id":"connectionist_temporal_classification/3","title":"connectionist_temporal_classification(arg1, y_pred, opts \\\\ [])"},{"anchor":"cosine_similarity/3","deprecated":false,"id":"cosine_similarity/3","title":"cosine_similarity(y_true, y_pred, opts \\\\ [])"},{"anchor":"hinge/3","deprecated":false,"id":"hinge/3","title":"hinge(y_true, y_pred, opts \\\\ [])"},{"anchor":"huber/3","deprecated":false,"id":"huber/3","title":"huber(y_true, y_pred, opts \\\\ [])"},{"anchor":"kl_divergence/3","deprecated":false,"id":"kl_divergence/3","title":"kl_divergence(y_true, y_pred, opts \\\\ [])"},{"anchor":"label_smoothing/2","deprecated":false,"id":"label_smoothing/2","title":"label_smoothing(loss_fun, opts \\\\ [])"},{"anchor":"log_cosh/3","deprecated":false,"id":"log_cosh/3","title":"log_cosh(y_true, y_pred, opts \\\\ [])"},{"anchor":"margin_ranking/3","deprecated":false,"id":"margin_ranking/3","title":"margin_ranking(y_true, arg2, opts \\\\ [])"},{"anchor":"mean_absolute_error/3","deprecated":false,"id":"mean_absolute_error/3","title":"mean_absolute_error(y_true, y_pred, opts \\\\ [])"},{"anchor":"mean_squared_error/3","deprecated":false,"id":"mean_squared_error/3","title":"mean_squared_error(y_true, y_pred, opts \\\\ [])"},{"anchor":"poisson/3","deprecated":false,"id":"poisson/3","title":"poisson(y_true, y_pred, opts \\\\ [])"},{"anchor":"soft_margin/3","deprecated":false,"id":"soft_margin/3","title":"soft_margin(y_true, y_pred, opts \\\\ [])"}]}],"sections":[],"title":"Axon.Losses"},{"deprecated":false,"group":"Functional","id":"Axon.Metrics","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"accuracy/3","deprecated":false,"id":"accuracy/3","title":"accuracy(y_true, y_pred, opts \\\\ [])"},{"anchor":"accuracy_transform/4","deprecated":false,"id":"accuracy_transform/4","title":"accuracy_transform(y_true, y_pred, from_logits, sparse)"},{"anchor":"false_negatives/3","deprecated":false,"id":"false_negatives/3","title":"false_negatives(y_true, y_pred, opts \\\\ [])"},{"anchor":"false_positives/3","deprecated":false,"id":"false_positives/3","title":"false_positives(y_true, y_pred, opts \\\\ [])"},{"anchor":"mean_absolute_error/2","deprecated":false,"id":"mean_absolute_error/2","title":"mean_absolute_error(y_true, y_pred)"},{"anchor":"precision/3","deprecated":false,"id":"precision/3","title":"precision(y_true, y_pred, opts \\\\ [])"},{"anchor":"recall/3","deprecated":false,"id":"recall/3","title":"recall(y_true, y_pred, opts \\\\ [])"},{"anchor":"running_average/1","deprecated":false,"id":"running_average/1","title":"running_average(metric)"},{"anchor":"running_sum/1","deprecated":false,"id":"running_sum/1","title":"running_sum(metric)"},{"anchor":"sensitivity/3","deprecated":false,"id":"sensitivity/3","title":"sensitivity(y_true, y_pred, opts \\\\ [])"},{"anchor":"specificity/3","deprecated":false,"id":"specificity/3","title":"specificity(y_true, y_pred, opts \\\\ [])"},{"anchor":"top_k_categorical_accuracy/3","deprecated":false,"id":"top_k_categorical_accuracy/3","title":"top_k_categorical_accuracy(y_true, y_pred, opts \\\\ [])"},{"anchor":"true_negatives/3","deprecated":false,"id":"true_negatives/3","title":"true_negatives(y_true, y_pred, opts \\\\ [])"},{"anchor":"true_positives/3","deprecated":false,"id":"true_positives/3","title":"true_positives(y_true, y_pred, opts \\\\ [])"}]}],"sections":[],"title":"Axon.Metrics"},{"deprecated":false,"group":"Loop","id":"Axon.Loop","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"checkpoint/2","deprecated":false,"id":"checkpoint/2","title":"checkpoint(loop, opts \\\\ [])"},{"anchor":"deserialize_state/2","deprecated":false,"id":"deserialize_state/2","title":"deserialize_state(serialized, opts \\\\ [])"},{"anchor":"early_stop/3","deprecated":false,"id":"early_stop/3","title":"early_stop(loop, monitor, opts \\\\ [])"},{"anchor":"eval_step/1","deprecated":false,"id":"eval_step/1","title":"eval_step(model)"},{"anchor":"evaluator/1","deprecated":false,"id":"evaluator/1","title":"evaluator(model)"},{"anchor":"from_state/2","deprecated":false,"id":"from_state/2","title":"from_state(loop, state)"},{"anchor":"handle_event/4","deprecated":false,"id":"handle_event/4","title":"handle_event(loop, event, handler, filter \\\\ :always)"},{"anchor":"kino_vega_lite_plot/4","deprecated":false,"id":"kino_vega_lite_plot/4","title":"kino_vega_lite_plot(loop, plot, metric, opts \\\\ [])"},{"anchor":"log/3","deprecated":false,"id":"log/3","title":"log(loop, message_fn, opts \\\\ [])"},{"anchor":"loop/3","deprecated":false,"id":"loop/3","title":"loop(step_fn, init_fn \\\\ &default_init/2, output_transform \\\\ & &1)"},{"anchor":"metric/5","deprecated":false,"id":"metric/5","title":"metric(loop, metric, name \\\\ nil, accumulate \\\\ :running_average, transform_or_fields \\\\ [:y_true, :y_pred])"},{"anchor":"monitor/5","deprecated":false,"id":"monitor/5","title":"monitor(loop, metric, fun, name, opts \\\\ [])"},{"anchor":"reduce_lr_on_plateau/3","deprecated":false,"id":"reduce_lr_on_plateau/3","title":"reduce_lr_on_plateau(loop, monitor, opts \\\\ [])"},{"anchor":"run/4","deprecated":false,"id":"run/4","title":"run(loop, data, init_state \\\\ %{}, opts \\\\ [])"},{"anchor":"serialize_state/2","deprecated":false,"id":"serialize_state/2","title":"serialize_state(state, opts \\\\ [])"},{"anchor":"train_step/4","deprecated":false,"id":"train_step/4","title":"train_step(model, loss, optimizer, opts \\\\ [])"},{"anchor":"trainer/4","deprecated":false,"id":"trainer/4","title":"trainer(model, loss, optimizer, opts \\\\ [])"},{"anchor":"validate/4","deprecated":false,"id":"validate/4","title":"validate(loop, model, validation_data, opts \\\\ [])"}]}],"sections":[{"anchor":"module-initialize-and-step","id":"Initialize and Step"},{"anchor":"module-metrics","id":"Metrics"},{"anchor":"module-events-and-handlers","id":"Events and Handlers"},{"anchor":"module-factories","id":"Factories"},{"anchor":"module-running-loops","id":"Running loops"},{"anchor":"module-resuming-loops","id":"Resuming loops"}],"title":"Axon.Loop"},{"deprecated":false,"group":"Loop","id":"Axon.Loop.State","sections":[],"title":"Axon.Loop.State"},{"deprecated":false,"group":"Exceptions","id":"Axon.CompileError","nodeGroups":[{"key":"functions","name":"Functions","nodes":[{"anchor":"message/1","deprecated":false,"id":"message/1","title":"message(exception)"}]}],"sections":[],"title":"Axon.CompileError"}],"tasks":[]}
\ No newline at end of file
diff --git a/fashionmnist_autoencoder.html b/fashionmnist_autoencoder.html
index 0daf8cc4..b8ce6e6f 100644
--- a/fashionmnist_autoencoder.html
+++ b/fashionmnist_autoencoder.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,14 +136,14 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6433190483-1">(</span><span class="p" data-group-id="6433190483-2">[</span><span class="w">
-  </span><span class="p" data-group-id="6433190483-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="6433190483-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6433190483-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6433190483-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6433190483-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="6433190483-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6433190483-6">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="6433190483-6">}</span><span class="w">
-</span><span class="p" data-group-id="6433190483-2">]</span><span class="p" data-group-id="6433190483-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="9054896548-1">(</span><span class="p" data-group-id="9054896548-2">[</span><span class="w">
+  </span><span class="p" data-group-id="9054896548-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="9054896548-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9054896548-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9054896548-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9054896548-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="9054896548-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="9054896548-6">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="9054896548-6">}</span><span class="w">
+</span><span class="p" data-group-id="9054896548-2">]</span><span class="p" data-group-id="9054896548-1">)</span><span class="w">
 
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="6433190483-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6433190483-7">)</span></code></pre><h2 id="introduction" class="section-heading">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="9054896548-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9054896548-7">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -156,29 +156,29 @@ <h1>
   </a>
   <span class="text">Downloading the data</span>
 </h2>
-<p>To train and test how our model works, we use one of the most popular data sets: <a href="https://github.com/zalandoresearch/fashion-mnist">Fashion MNIST</a>. It consists of small black and white images of clothes. Loading this data set is very simple with the help of <code class="inline">Scidata</code>.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3735129405-1">{</span><span class="n">image_data</span><span class="p">,</span><span class="w"> </span><span class="c">_label_data</span><span class="p" data-group-id="3735129405-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="3735129405-2">(</span><span class="p" data-group-id="3735129405-2">)</span><span class="w">
-</span><span class="p" data-group-id="3735129405-3">{</span><span class="n">bin</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="3735129405-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">image_data</span></code></pre><p>We get the data in a raw format, but this is exactly the information we need to build an Nx tensor.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
+<p>To train and test how our model works, we use one of the most popular data sets: <a href="https://github.com/zalandoresearch/fashion-mnist">Fashion MNIST</a>. It consists of small black and white images of clothes. Loading this data set is very simple with the help of <code class="inline">Scidata</code>.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7315086552-1">{</span><span class="n">image_data</span><span class="p">,</span><span class="w"> </span><span class="c">_label_data</span><span class="p" data-group-id="7315086552-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="7315086552-2">(</span><span class="p" data-group-id="7315086552-2">)</span><span class="w">
+</span><span class="p" data-group-id="7315086552-3">{</span><span class="n">bin</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="7315086552-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">image_data</span></code></pre><p>We get the data in a raw format, but this is exactly the information we need to build an Nx tensor.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">bin</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="4645433729-1">(</span><span class="n">type</span><span class="p" data-group-id="4645433729-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="4645433729-2">(</span><span class="n">shape</span><span class="p" data-group-id="4645433729-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="4645433729-3">(</span><span class="mf">255.0</span><span class="p" data-group-id="4645433729-3">)</span></code></pre><p>We also normalize pixel values into the range $[0, 1]$.</p><!-- livebook:{"break_markdown":true} --><p>We can visualize one of the images by looking at the tensor heatmap:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="2186196310-1">(</span><span class="n">train_images</span><span class="p" data-group-id="2186196310-2">[</span><span class="mi">1</span><span class="p" data-group-id="2186196310-2">]</span><span class="p" data-group-id="2186196310-1">)</span></code></pre><h2 id="encoder-and-decoder" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="8030943627-1">(</span><span class="n">type</span><span class="p" data-group-id="8030943627-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="8030943627-2">(</span><span class="n">shape</span><span class="p" data-group-id="8030943627-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="8030943627-3">(</span><span class="mf">255.0</span><span class="p" data-group-id="8030943627-3">)</span></code></pre><p>We also normalize pixel values into the range $[0, 1]$.</p><!-- livebook:{"break_markdown":true} --><p>We can visualize one of the images by looking at the tensor heatmap:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="6369765024-1">(</span><span class="n">train_images</span><span class="p" data-group-id="6369765024-2">[</span><span class="mi">1</span><span class="p" data-group-id="6369765024-2">]</span><span class="p" data-group-id="6369765024-1">)</span></code></pre><h2 id="encoder-and-decoder" class="section-heading">
   <a href="#encoder-and-decoder" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Encoder and decoder</span>
 </h2>
-<p>First we need to define the encoder and decoder. Both are one-layer neural networks.</p><p>In the encoder, we start by flattening the input, so we get from shape <code class="inline">{batch_size, 1, 28, 28}</code> to <code class="inline">{batch_size, 784}</code> and we pass the input into a dense layer. Our dense layer has only <code class="inline">latent_dim</code> number of neurons. The <code class="inline">latent_dim</code> (or the latent space) is a compressed representation of data. Remember, we want our encoder to compress the input data into a lower-dimensional representation, so we choose a <code class="inline">latent_dim</code> which is less than the dimensionality of the input.</p><pre><code class="makeup elixir" translate="no"><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="8405973265-1">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">latent_dim</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+<p>First we need to define the encoder and decoder. Both are one-layer neural networks.</p><p>In the encoder, we start by flattening the input, so we get from shape <code class="inline">{batch_size, 1, 28, 28}</code> to <code class="inline">{batch_size, 784}</code> and we pass the input into a dense layer. Our dense layer has only <code class="inline">latent_dim</code> number of neurons. The <code class="inline">latent_dim</code> (or the latent space) is a compressed representation of data. Remember, we want our encoder to compress the input data into a lower-dimensional representation, so we choose a <code class="inline">latent_dim</code> which is less than the dimensionality of the input.</p><pre><code class="makeup elixir" translate="no"><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3713420841-1">fn</span><span class="w"> </span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="n">latent_dim</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">x</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="8405973265-2">(</span><span class="p" data-group-id="8405973265-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8405973265-3">(</span><span class="n">latent_dim</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="8405973265-3">)</span><span class="w">
-</span><span class="k" data-group-id="8405973265-1">end</span></code></pre><p>Next, we pass the output of the encoder to the decoder and try to reconstruct the compressed data into its original form. Since our original input had a dimensionality of 784, we use a dense layer with 784 neurons. Because our original data was normalized to have pixel values between 0 and 1, we use a <code class="inline">:sigmoid</code> activation in our dense layer to squeeze output values between 0 and 1. Our original input shape was 28x28, so we use <code class="inline">Axon.reshape</code> to convert the flattened representation of the outputs into an image with correct the width and height.</p><pre><code class="makeup elixir" translate="no"><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9818086094-1">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="3713420841-2">(</span><span class="p" data-group-id="3713420841-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3713420841-3">(</span><span class="n">latent_dim</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="3713420841-3">)</span><span class="w">
+</span><span class="k" data-group-id="3713420841-1">end</span></code></pre><p>Next, we pass the output of the encoder to the decoder and try to reconstruct the compressed data into its original form. Since our original input had a dimensionality of 784, we use a dense layer with 784 neurons. Because our original data was normalized to have pixel values between 0 and 1, we use a <code class="inline">:sigmoid</code> activation in our dense layer to squeeze output values between 0 and 1. Our original input shape was 28x28, so we use <code class="inline">Axon.reshape</code> to convert the flattened representation of the outputs into an image with correct the width and height.</p><pre><code class="makeup elixir" translate="no"><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2612330129-1">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">x</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9818086094-2">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="9818086094-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="9818086094-3">(</span><span class="p" data-group-id="9818086094-4">{</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="9818086094-4">}</span><span class="p" data-group-id="9818086094-3">)</span><span class="w">
-</span><span class="k" data-group-id="9818086094-1">end</span></code></pre><p>If we just bind the encoder and decoder sequentially, we'll get the desired model. This was pretty smooth, wasn't it?</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1075937375-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1075937375-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1075937375-2">}</span><span class="p" data-group-id="1075937375-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">encoder</span><span class="o">.</span><span class="p" data-group-id="1075937375-3">(</span><span class="mi">64</span><span class="p" data-group-id="1075937375-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">decoder</span><span class="o">.</span><span class="p" data-group-id="1075937375-4">(</span><span class="p" data-group-id="1075937375-4">)</span></code></pre><h2 id="training-the-model" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="2612330129-2">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="2612330129-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="2612330129-3">(</span><span class="p" data-group-id="2612330129-4">{</span><span class="ss">:batch</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="2612330129-4">}</span><span class="p" data-group-id="2612330129-3">)</span><span class="w">
+</span><span class="k" data-group-id="2612330129-1">end</span></code></pre><p>If we just bind the encoder and decoder sequentially, we'll get the desired model. This was pretty smooth, wasn't it?</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8547144906-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8547144906-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="8547144906-2">}</span><span class="p" data-group-id="8547144906-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">encoder</span><span class="o">.</span><span class="p" data-group-id="8547144906-3">(</span><span class="mi">64</span><span class="p" data-group-id="8547144906-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">decoder</span><span class="o">.</span><span class="p" data-group-id="8547144906-4">(</span><span class="p" data-group-id="8547144906-4">)</span></code></pre><h2 id="training-the-model" class="section-heading">
   <a href="#training-the-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -187,14 +187,14 @@ <h1>
 <p>Finally, we can train the model. We'll use the <code class="inline">:adam</code> and <code class="inline">:mean_squared_error</code> loss with <code class="inline">Axon.Loop.trainer</code>. Our loss function will measure the aggregate error between pixels of original images and the model's reconstructed images. We'll also <code class="inline">:mean_absolute_error</code> using <code class="inline">Axon.Loop.metric</code>. <code class="inline">Axon.Loop.run</code> trains the model with the given training data.</p><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">32</span><span class="w">
 </span><span class="n">epochs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">5</span><span class="w">
 
-</span><span class="n">batched_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="5914197224-1">(</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="5914197224-1">)</span><span class="w">
-</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="5914197224-2">(</span><span class="n">batched_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_images</span><span class="p" data-group-id="5914197224-2">)</span><span class="w">
+</span><span class="n">batched_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="1845232565-1">(</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="1845232565-1">)</span><span class="w">
+</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="1845232565-2">(</span><span class="n">batched_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_images</span><span class="p" data-group-id="1845232565-2">)</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5914197224-3">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="5914197224-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5914197224-4">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="5914197224-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5914197224-5">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5914197224-6">%{</span><span class="p" data-group-id="5914197224-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="n">epochs</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5914197224-5">)</span></code></pre><h2 id="extra-losses" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1845232565-3">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="1845232565-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1845232565-4">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Error&quot;</span><span class="p" data-group-id="1845232565-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1845232565-5">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1845232565-6">%{</span><span class="p" data-group-id="1845232565-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="n">epochs</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1845232565-5">)</span></code></pre><h2 id="extra-losses" class="section-heading">
   <a href="#extra-losses" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -202,46 +202,46 @@ <h1>
 </h2>
 <p>To better understand what is mean absolute error (MAE) and mean square error (MSE) let's go through an example.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Error definitions for a single sample</span><span class="w">
 
-</span><span class="n">mean_square_error</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2059681994-1">fn</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="n">mean_square_error</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="7151600544-1">fn</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">y_pred</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="2059681994-2">(</span><span class="n">y</span><span class="p" data-group-id="2059681994-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">power</span><span class="p" data-group-id="2059681994-3">(</span><span class="mi">2</span><span class="p" data-group-id="2059681994-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="p" data-group-id="2059681994-4">(</span><span class="p" data-group-id="2059681994-4">)</span><span class="w">
-</span><span class="k" data-group-id="2059681994-1">end</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="7151600544-2">(</span><span class="n">y</span><span class="p" data-group-id="7151600544-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">power</span><span class="p" data-group-id="7151600544-3">(</span><span class="mi">2</span><span class="p" data-group-id="7151600544-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="p" data-group-id="7151600544-4">(</span><span class="p" data-group-id="7151600544-4">)</span><span class="w">
+</span><span class="k" data-group-id="7151600544-1">end</span><span class="w">
 
-</span><span class="n">mean_absolute_error</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2059681994-5">fn</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="n">mean_absolute_error</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="7151600544-5">fn</span><span class="w"> </span><span class="n">y_pred</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">y_pred</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="2059681994-6">(</span><span class="n">y</span><span class="p" data-group-id="2059681994-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">abs</span><span class="p" data-group-id="2059681994-7">(</span><span class="p" data-group-id="2059681994-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="p" data-group-id="2059681994-8">(</span><span class="p" data-group-id="2059681994-8">)</span><span class="w">
-</span><span class="k" data-group-id="2059681994-5">end</span></code></pre><p>We will work with a sample image of a shoe, a slightly noised version of that image, and also an entirely different image from the dataset.</p><pre><code class="makeup elixir" translate="no"><span class="n">shoe_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="4094551714-1">[</span><span class="mi">0</span><span class="p" data-group-id="4094551714-1">]</span><span class="w">
-</span><span class="n">noised_shoe_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="4094551714-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="4094551714-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05</span><span class="p" data-group-id="4094551714-3">)</span><span class="p" data-group-id="4094551714-2">)</span><span class="w">
-</span><span class="n">other_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="4094551714-4">[</span><span class="mi">1</span><span class="p" data-group-id="4094551714-4">]</span><span class="w">
-</span><span class="ss">:ok</span></code></pre><p>For the same image both errors should be 0, because when we have two exact copies, there is no pixel difference.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8816354699-1">{</span><span class="w">
-  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="8816354699-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">shoe_image</span><span class="p" data-group-id="8816354699-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="n">mean_absolute_error</span><span class="o">.</span><span class="p" data-group-id="8816354699-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">shoe_image</span><span class="p" data-group-id="8816354699-3">)</span><span class="w">
-</span><span class="p" data-group-id="8816354699-1">}</span></code></pre><p>Now the noised image:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6459712885-1">{</span><span class="w">
-  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="6459712885-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">noised_shoe_image</span><span class="p" data-group-id="6459712885-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="n">mean_absolute_error</span><span class="o">.</span><span class="p" data-group-id="6459712885-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">noised_shoe_image</span><span class="p" data-group-id="6459712885-3">)</span><span class="w">
-</span><span class="p" data-group-id="6459712885-1">}</span></code></pre><p>And a different image:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1674543710-1">{</span><span class="w">
-  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="1674543710-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">other_image</span><span class="p" data-group-id="1674543710-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="n">mean_absolute_error</span><span class="o">.</span><span class="p" data-group-id="1674543710-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">other_image</span><span class="p" data-group-id="1674543710-3">)</span><span class="w">
-</span><span class="p" data-group-id="1674543710-1">}</span></code></pre><p>As we can see, the noised image has a non-zero MSE and MAE but is much smaller than the error of two completely different pictures. In other words, both of these error types measure the level of similarity between images. A small error implies decent prediction values. On the other hand, a large error value suggests poor quality of predictions.</p><p>If you look at our implementation of MAE and MSE, you will notice that they are very similar. MAE and MSE can also be called the $L_1$ and $L_2$ loss respectively for the $L_1$ and $L_2$ norm. The $L_2$ loss (MSE) is typically preferred because it's a smoother function whereas $L_1$ is often difficult to optimize with stochastic gradient descent (SGD).</p><h2 id="inference" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="7151600544-6">(</span><span class="n">y</span><span class="p" data-group-id="7151600544-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">abs</span><span class="p" data-group-id="7151600544-7">(</span><span class="p" data-group-id="7151600544-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="p" data-group-id="7151600544-8">(</span><span class="p" data-group-id="7151600544-8">)</span><span class="w">
+</span><span class="k" data-group-id="7151600544-5">end</span></code></pre><p>We will work with a sample image of a shoe, a slightly noised version of that image, and also an entirely different image from the dataset.</p><pre><code class="makeup elixir" translate="no"><span class="n">shoe_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="5372594870-1">[</span><span class="mi">0</span><span class="p" data-group-id="5372594870-1">]</span><span class="w">
+</span><span class="n">noised_shoe_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5372594870-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="5372594870-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05</span><span class="p" data-group-id="5372594870-3">)</span><span class="p" data-group-id="5372594870-2">)</span><span class="w">
+</span><span class="n">other_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="5372594870-4">[</span><span class="mi">1</span><span class="p" data-group-id="5372594870-4">]</span><span class="w">
+</span><span class="ss">:ok</span></code></pre><p>For the same image both errors should be 0, because when we have two exact copies, there is no pixel difference.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1512773664-1">{</span><span class="w">
+  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="1512773664-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">shoe_image</span><span class="p" data-group-id="1512773664-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="n">mean_absolute_error</span><span class="o">.</span><span class="p" data-group-id="1512773664-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">shoe_image</span><span class="p" data-group-id="1512773664-3">)</span><span class="w">
+</span><span class="p" data-group-id="1512773664-1">}</span></code></pre><p>Now the noised image:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5480036869-1">{</span><span class="w">
+  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="5480036869-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">noised_shoe_image</span><span class="p" data-group-id="5480036869-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="n">mean_absolute_error</span><span class="o">.</span><span class="p" data-group-id="5480036869-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">noised_shoe_image</span><span class="p" data-group-id="5480036869-3">)</span><span class="w">
+</span><span class="p" data-group-id="5480036869-1">}</span></code></pre><p>And a different image:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0125144584-1">{</span><span class="w">
+  </span><span class="n">mean_square_error</span><span class="o">.</span><span class="p" data-group-id="0125144584-2">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">other_image</span><span class="p" data-group-id="0125144584-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="n">mean_absolute_error</span><span class="o">.</span><span class="p" data-group-id="0125144584-3">(</span><span class="n">shoe_image</span><span class="p">,</span><span class="w"> </span><span class="n">other_image</span><span class="p" data-group-id="0125144584-3">)</span><span class="w">
+</span><span class="p" data-group-id="0125144584-1">}</span></code></pre><p>As we can see, the noised image has a non-zero MSE and MAE but is much smaller than the error of two completely different pictures. In other words, both of these error types measure the level of similarity between images. A small error implies decent prediction values. On the other hand, a large error value suggests poor quality of predictions.</p><p>If you look at our implementation of MAE and MSE, you will notice that they are very similar. MAE and MSE can also be called the $L_1$ and $L_2$ loss respectively for the $L_1$ and $L_2$ norm. The $L_2$ loss (MSE) is typically preferred because it's a smoother function whereas $L_1$ is often difficult to optimize with stochastic gradient descent (SGD).</p><h2 id="inference" class="section-heading">
   <a href="#inference" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Inference</span>
 </h2>
-<p>Now, let's see how our model is doing! We will compare a sample image before and after compression.</p><pre><code class="makeup elixir" translate="no"><span class="n">sample_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="6797520968-1">[</span><span class="mi">0</span><span class="o">..</span><span class="mi">0</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="6797520968-1">]</span><span class="w">
-</span><span class="n">compressed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6797520968-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">sample_image</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6797520968-2">)</span><span class="w">
+<p>Now, let's see how our model is doing! We will compare a sample image before and after compression.</p><pre><code class="makeup elixir" translate="no"><span class="n">sample_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="6496185121-1">[</span><span class="mi">0</span><span class="o">..</span><span class="mi">0</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="6496185121-1">]</span><span class="w">
+</span><span class="n">compressed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6496185121-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">sample_image</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6496185121-2">)</span><span class="w">
 
 </span><span class="n">sample_image</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="6797520968-3">(</span><span class="p" data-group-id="6797520968-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="6797520968-4">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Original&quot;</span><span class="p" data-group-id="6797520968-4">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="6496185121-3">(</span><span class="p" data-group-id="6496185121-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="6496185121-4">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Original&quot;</span><span class="p" data-group-id="6496185121-4">)</span><span class="w">
 
 </span><span class="n">compressed_image</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="6797520968-5">(</span><span class="p" data-group-id="6797520968-5">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="6797520968-6">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Compressed&quot;</span><span class="p" data-group-id="6797520968-6">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="6496185121-5">(</span><span class="p" data-group-id="6496185121-5">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="6496185121-6">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Compressed&quot;</span><span class="p" data-group-id="6496185121-6">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><p>As we can see, the generated image is similar to the input image. The only difference between them is the absence of a sign in the middle of the second shoe. The model treated the sign as noise and bled this into the plain shoe.</p>
 <div class="bottom-actions">
diff --git a/fashionmnist_vae.html b/fashionmnist_vae.html
index 53df1d5c..967c78d4 100644
--- a/fashionmnist_vae.html
+++ b/fashionmnist_vae.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,23 +136,23 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8496157057-1">(</span><span class="p" data-group-id="8496157057-2">[</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-3">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="8496157057-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="8496157057-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-5">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="8496157057-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="8496157057-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="8496157057-7">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-8">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="8496157057-8">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-9">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="8496157057-9">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-10">{</span><span class="ss">:kino_vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="8496157057-10">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-11">{</span><span class="ss">:vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="8496157057-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="8496157057-12">{</span><span class="ss">:table_rex</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 3.1.1&quot;</span><span class="p" data-group-id="8496157057-12">}</span><span class="w">
-</span><span class="p" data-group-id="8496157057-2">]</span><span class="p" data-group-id="8496157057-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0632677092-1">(</span><span class="p" data-group-id="0632677092-2">[</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-3">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="0632677092-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0632677092-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-5">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="0632677092-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="0632677092-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="0632677092-7">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-8">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="0632677092-8">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-9">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="0632677092-9">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-10">{</span><span class="ss">:kino_vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="0632677092-10">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-11">{</span><span class="ss">:vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="0632677092-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0632677092-12">{</span><span class="ss">:table_rex</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 3.1.1&quot;</span><span class="p" data-group-id="0632677092-12">}</span><span class="w">
+</span><span class="p" data-group-id="0632677092-2">]</span><span class="p" data-group-id="0632677092-1">)</span><span class="w">
 
 </span><span class="kn">alias</span><span class="w"> </span><span class="nc">VegaLite</span><span class="p">,</span><span class="w"> </span><span class="ss">as</span><span class="p">:</span><span class="w"> </span><span class="nc">Vl</span><span class="w">
 
 </span><span class="c1"># This speeds up all our `Nx` operations without having to use `defn`</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="8496157057-13">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="8496157057-13">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="0632677092-13">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="0632677092-13">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link">
@@ -166,7 +166,7 @@ <h1>
   </a>
   <span class="text">Training a simple autoencoder</span>
 </h2>
-<p>This section will proceed without much explanation as most of it is extracted from <a href="mnist_autoencoder_using_kino.html">denoising autoencoder example</a>. If anything here doesn't make sense, take a look at that notebook for an explanation.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Data</span><span class="w"> </span><span class="k" data-group-id="9641754682-1">do</span><span class="w">
+<p>This section will proceed without much explanation as most of it is extracted from <a href="mnist_autoencoder_using_kino.html">denoising autoencoder example</a>. If anything here doesn't make sense, take a look at that notebook for an explanation.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Data</span><span class="w"> </span><span class="k" data-group-id="7452839508-1">do</span><span class="w">
   </span><span class="na">@moduledoc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   A module to hold useful data processing utilities,
   mostly extracted from the previous notebook
@@ -178,182 +178,182 @@ <h1>
   `image` must be a single channel `Nx` tensor with pixel values between 0 and 1.
   `height` and `width` are the output size in pixels
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">image_to_kino</span><span class="p" data-group-id="9641754682-2">(</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">height</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="n">width</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="mi">200</span><span class="p" data-group-id="9641754682-2">)</span><span class="w"> </span><span class="k" data-group-id="9641754682-3">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">image_to_kino</span><span class="p" data-group-id="7452839508-2">(</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">height</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="n">width</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="mi">200</span><span class="p" data-group-id="7452839508-2">)</span><span class="w"> </span><span class="k" data-group-id="7452839508-3">do</span><span class="w">
     </span><span class="n">image</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="9641754682-4">(</span><span class="mi">255</span><span class="p" data-group-id="9641754682-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">as_type</span><span class="p" data-group-id="9641754682-5">(</span><span class="ss">:u8</span><span class="p" data-group-id="9641754682-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="9641754682-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9641754682-7">[</span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p" data-group-id="9641754682-7">]</span><span class="p" data-group-id="9641754682-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">from_nx</span><span class="p" data-group-id="9641754682-8">(</span><span class="p" data-group-id="9641754682-8">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="9641754682-9">(</span><span class="n">height</span><span class="p">,</span><span class="w"> </span><span class="n">width</span><span class="p" data-group-id="9641754682-9">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_binary</span><span class="p" data-group-id="9641754682-10">(</span><span class="ss">:png</span><span class="p" data-group-id="9641754682-10">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="9641754682-11">(</span><span class="ss">:png</span><span class="p" data-group-id="9641754682-11">)</span><span class="w">
-  </span><span class="k" data-group-id="9641754682-3">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="7452839508-4">(</span><span class="mi">255</span><span class="p" data-group-id="7452839508-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">as_type</span><span class="p" data-group-id="7452839508-5">(</span><span class="ss">:u8</span><span class="p" data-group-id="7452839508-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="7452839508-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7452839508-7">[</span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p" data-group-id="7452839508-7">]</span><span class="p" data-group-id="7452839508-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">from_nx</span><span class="p" data-group-id="7452839508-8">(</span><span class="p" data-group-id="7452839508-8">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="7452839508-9">(</span><span class="n">height</span><span class="p">,</span><span class="w"> </span><span class="n">width</span><span class="p" data-group-id="7452839508-9">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_binary</span><span class="p" data-group-id="7452839508-10">(</span><span class="ss">:png</span><span class="p" data-group-id="7452839508-10">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="7452839508-11">(</span><span class="ss">:png</span><span class="p" data-group-id="7452839508-11">)</span><span class="w">
+  </span><span class="k" data-group-id="7452839508-3">end</span><span class="w">
 
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Converts image data from `Scidata.MNIST` into an `Nx` tensor and normalizes it.
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">preprocess_data</span><span class="p" data-group-id="9641754682-12">(</span><span class="n">data</span><span class="p" data-group-id="9641754682-12">)</span><span class="w"> </span><span class="k" data-group-id="9641754682-13">do</span><span class="w">
-    </span><span class="p" data-group-id="9641754682-14">{</span><span class="n">image_data</span><span class="p">,</span><span class="w"> </span><span class="c">_labels</span><span class="p" data-group-id="9641754682-14">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">data</span><span class="w">
-    </span><span class="p" data-group-id="9641754682-15">{</span><span class="n">images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="9641754682-15">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">image_data</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">preprocess_data</span><span class="p" data-group-id="7452839508-12">(</span><span class="n">data</span><span class="p" data-group-id="7452839508-12">)</span><span class="w"> </span><span class="k" data-group-id="7452839508-13">do</span><span class="w">
+    </span><span class="p" data-group-id="7452839508-14">{</span><span class="n">image_data</span><span class="p">,</span><span class="w"> </span><span class="c">_labels</span><span class="p" data-group-id="7452839508-14">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">data</span><span class="w">
+    </span><span class="p" data-group-id="7452839508-15">{</span><span class="n">images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="7452839508-15">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">image_data</span><span class="w">
 
     </span><span class="n">images_binary</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="9641754682-16">(</span><span class="n">type</span><span class="p" data-group-id="9641754682-16">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="7452839508-16">(</span><span class="n">type</span><span class="p" data-group-id="7452839508-16">)</span><span class="w">
     </span><span class="c1"># Since pixels are organized row-wise, reshape into rows x columns</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="9641754682-17">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9641754682-18">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="9641754682-18">]</span><span class="p" data-group-id="9641754682-17">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="7452839508-17">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7452839508-18">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="7452839508-18">]</span><span class="p" data-group-id="7452839508-17">)</span><span class="w">
     </span><span class="c1"># Normalize the pixel values to be between 0 and 1</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="9641754682-19">(</span><span class="mi">255</span><span class="p" data-group-id="9641754682-19">)</span><span class="w">
-  </span><span class="k" data-group-id="9641754682-13">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="7452839508-19">(</span><span class="mi">255</span><span class="p" data-group-id="7452839508-19">)</span><span class="w">
+  </span><span class="k" data-group-id="7452839508-13">end</span><span class="w">
 
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Converts a tensor of images into random batches of paired images for model training
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">prepare_training_data</span><span class="p" data-group-id="9641754682-20">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="9641754682-20">)</span><span class="w"> </span><span class="k" data-group-id="9641754682-21">do</span><span class="w">
-    </span><span class="nc">Stream</span><span class="o">.</span><span class="n">flat_map</span><span class="p" data-group-id="9641754682-22">(</span><span class="p" data-group-id="9641754682-23">[</span><span class="no">nil</span><span class="p" data-group-id="9641754682-23">]</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="9641754682-24">fn</span><span class="w"> </span><span class="no">nil</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="n">images</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shuffle</span><span class="p" data-group-id="9641754682-25">(</span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="9641754682-25">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="9641754682-26">(</span><span class="n">batch_size</span><span class="p" data-group-id="9641754682-26">)</span><span class="w">
-    </span><span class="k" data-group-id="9641754682-24">end</span><span class="p" data-group-id="9641754682-22">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="9641754682-27">(</span><span class="k" data-group-id="9641754682-28">fn</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="9641754682-29">{</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">batch</span><span class="p" data-group-id="9641754682-29">}</span><span class="w"> </span><span class="k" data-group-id="9641754682-28">end</span><span class="p" data-group-id="9641754682-27">)</span><span class="w">
-  </span><span class="k" data-group-id="9641754682-21">end</span><span class="w">
-</span><span class="k" data-group-id="9641754682-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">preprocess_data</span><span class="p" data-group-id="6052923125-1">(</span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="6052923125-2">(</span><span class="p" data-group-id="6052923125-2">)</span><span class="p" data-group-id="6052923125-1">)</span><span class="w">
-</span><span class="n">test_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">preprocess_data</span><span class="p" data-group-id="6052923125-3">(</span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download_test</span><span class="p" data-group-id="6052923125-4">(</span><span class="p" data-group-id="6052923125-4">)</span><span class="p" data-group-id="6052923125-3">)</span><span class="w">
-
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6052923125-5">(</span><span class="n">train_images</span><span class="p" data-group-id="6052923125-6">[</span><span class="p" data-group-id="6052923125-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6052923125-7">]</span><span class="p" data-group-id="6052923125-6">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6052923125-8">(</span><span class="p" data-group-id="6052923125-8">)</span><span class="p" data-group-id="6052923125-5">)</span><span class="w">
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6052923125-9">(</span><span class="n">test_images</span><span class="p" data-group-id="6052923125-10">[</span><span class="p" data-group-id="6052923125-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6052923125-11">]</span><span class="p" data-group-id="6052923125-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6052923125-12">(</span><span class="p" data-group-id="6052923125-12">)</span><span class="p" data-group-id="6052923125-9">)</span><span class="w">
-
-</span><span class="ss">:ok</span></code></pre><p>Now for our simple autoencoder model. We won't be using a denoising autoencoder here.</p><p>Note that we're giving each of the layers a name - the reason for this will be apparent later.</p><p>I'm also using a small custom layer to shift and scale the output of the sigmoid layer slightly so it can hit the 0 and 1 targets. I noticed the gradients tend to explode without this.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="w"> </span><span class="k" data-group-id="0398884588-1">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">prepare_training_data</span><span class="p" data-group-id="7452839508-20">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="7452839508-20">)</span><span class="w"> </span><span class="k" data-group-id="7452839508-21">do</span><span class="w">
+    </span><span class="nc">Stream</span><span class="o">.</span><span class="n">flat_map</span><span class="p" data-group-id="7452839508-22">(</span><span class="p" data-group-id="7452839508-23">[</span><span class="no">nil</span><span class="p" data-group-id="7452839508-23">]</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="7452839508-24">fn</span><span class="w"> </span><span class="no">nil</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="n">images</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shuffle</span><span class="p" data-group-id="7452839508-25">(</span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="7452839508-25">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7452839508-26">(</span><span class="n">batch_size</span><span class="p" data-group-id="7452839508-26">)</span><span class="w">
+    </span><span class="k" data-group-id="7452839508-24">end</span><span class="p" data-group-id="7452839508-22">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7452839508-27">(</span><span class="k" data-group-id="7452839508-28">fn</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="7452839508-29">{</span><span class="n">batch</span><span class="p">,</span><span class="w"> </span><span class="n">batch</span><span class="p" data-group-id="7452839508-29">}</span><span class="w"> </span><span class="k" data-group-id="7452839508-28">end</span><span class="p" data-group-id="7452839508-27">)</span><span class="w">
+  </span><span class="k" data-group-id="7452839508-21">end</span><span class="w">
+</span><span class="k" data-group-id="7452839508-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">preprocess_data</span><span class="p" data-group-id="5390615955-1">(</span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="5390615955-2">(</span><span class="p" data-group-id="5390615955-2">)</span><span class="p" data-group-id="5390615955-1">)</span><span class="w">
+</span><span class="n">test_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">preprocess_data</span><span class="p" data-group-id="5390615955-3">(</span><span class="nc">Scidata.FashionMNIST</span><span class="o">.</span><span class="n">download_test</span><span class="p" data-group-id="5390615955-4">(</span><span class="p" data-group-id="5390615955-4">)</span><span class="p" data-group-id="5390615955-3">)</span><span class="w">
+
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5390615955-5">(</span><span class="n">train_images</span><span class="p" data-group-id="5390615955-6">[</span><span class="p" data-group-id="5390615955-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5390615955-7">]</span><span class="p" data-group-id="5390615955-6">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5390615955-8">(</span><span class="p" data-group-id="5390615955-8">)</span><span class="p" data-group-id="5390615955-5">)</span><span class="w">
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5390615955-9">(</span><span class="n">test_images</span><span class="p" data-group-id="5390615955-10">[</span><span class="p" data-group-id="5390615955-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5390615955-11">]</span><span class="p" data-group-id="5390615955-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5390615955-12">(</span><span class="p" data-group-id="5390615955-12">)</span><span class="p" data-group-id="5390615955-9">)</span><span class="w">
+
+</span><span class="ss">:ok</span></code></pre><p>Now for our simple autoencoder model. We won't be using a denoising autoencoder here.</p><p>Note that we're giving each of the layers a name - the reason for this will be apparent later.</p><p>I'm also using a small custom layer to shift and scale the output of the sigmoid layer slightly so it can hit the 0 and 1 targets. I noticed the gradients tend to explode without this.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="w"> </span><span class="k" data-group-id="8409713135-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">scaling_layer</span><span class="p" data-group-id="0398884588-2">(</span><span class="p" data-group-id="0398884588-3">%</span><span class="nc" data-group-id="0398884588-3">Axon</span><span class="p" data-group-id="0398884588-3">{</span><span class="p" data-group-id="0398884588-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="0398884588-4">[</span><span class="p" data-group-id="0398884588-4">]</span><span class="p" data-group-id="0398884588-2">)</span><span class="w"> </span><span class="k" data-group-id="0398884588-5">do</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="0398884588-6">(</span><span class="o">&amp;</span><span class="n">scaling_layer_impl</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0398884588-7">[</span><span class="n">input</span><span class="p" data-group-id="0398884588-7">]</span><span class="p" data-group-id="0398884588-6">)</span><span class="w">
-  </span><span class="k" data-group-id="0398884588-5">end</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">scaling_layer</span><span class="p" data-group-id="8409713135-2">(</span><span class="p" data-group-id="8409713135-3">%</span><span class="nc" data-group-id="8409713135-3">Axon</span><span class="p" data-group-id="8409713135-3">{</span><span class="p" data-group-id="8409713135-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="8409713135-4">[</span><span class="p" data-group-id="8409713135-4">]</span><span class="p" data-group-id="8409713135-2">)</span><span class="w"> </span><span class="k" data-group-id="8409713135-5">do</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="8409713135-6">(</span><span class="o">&amp;</span><span class="n">scaling_layer_impl</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8409713135-7">[</span><span class="n">input</span><span class="p" data-group-id="8409713135-7">]</span><span class="p" data-group-id="8409713135-6">)</span><span class="w">
+  </span><span class="k" data-group-id="8409713135-5">end</span><span class="w">
 
-  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">scaling_layer_impl</span><span class="p" data-group-id="0398884588-8">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="0398884588-9">[</span><span class="p" data-group-id="0398884588-9">]</span><span class="p" data-group-id="0398884588-8">)</span><span class="w"> </span><span class="k" data-group-id="0398884588-10">do</span><span class="w">
+  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">scaling_layer_impl</span><span class="p" data-group-id="8409713135-8">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="8409713135-9">[</span><span class="p" data-group-id="8409713135-9">]</span><span class="p" data-group-id="8409713135-8">)</span><span class="w"> </span><span class="k" data-group-id="8409713135-10">do</span><span class="w">
     </span><span class="n">x</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="0398884588-11">(</span><span class="mf">0.05</span><span class="p" data-group-id="0398884588-11">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="0398884588-12">(</span><span class="mf">1.2</span><span class="p" data-group-id="0398884588-12">)</span><span class="w">
-  </span><span class="k" data-group-id="0398884588-10">end</span><span class="w">
-</span><span class="k" data-group-id="0398884588-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0085664689-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0085664689-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="0085664689-2">}</span><span class="p" data-group-id="0085664689-1">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="8409713135-11">(</span><span class="mf">0.05</span><span class="p" data-group-id="8409713135-11">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="8409713135-12">(</span><span class="mf">1.2</span><span class="p" data-group-id="8409713135-12">)</span><span class="w">
+  </span><span class="k" data-group-id="8409713135-10">end</span><span class="w">
+</span><span class="k" data-group-id="8409713135-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8514397398-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8514397398-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="8514397398-2">}</span><span class="p" data-group-id="8514397398-1">)</span><span class="w">
   </span><span class="c1"># This is now 28*28*1 = 784</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="0085664689-3">(</span><span class="p" data-group-id="0085664689-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="8514397398-3">(</span><span class="p" data-group-id="8514397398-3">)</span><span class="w">
   </span><span class="c1"># The encoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0085664689-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="0085664689-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0085664689-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="0085664689-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0085664689-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="0085664689-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8514397398-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="8514397398-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8514397398-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="8514397398-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8514397398-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="8514397398-6">)</span><span class="w">
   </span><span class="c1"># Bottleneck layer</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0085664689-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="0085664689-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8514397398-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="8514397398-7">)</span><span class="w">
   </span><span class="c1"># The decoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0085664689-8">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="0085664689-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0085664689-9">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="0085664689-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0085664689-10">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="0085664689-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0085664689-11">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="0085664689-11">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="0085664689-12">(</span><span class="p" data-group-id="0085664689-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8514397398-8">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="8514397398-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8514397398-9">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="8514397398-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8514397398-10">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="8514397398-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8514397398-11">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="8514397398-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="8514397398-12">(</span><span class="p" data-group-id="8514397398-12">)</span><span class="w">
   </span><span class="c1"># Turn it back into a 28x28 single channel image</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="0085664689-13">(</span><span class="p" data-group-id="0085664689-14">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="0085664689-14">}</span><span class="p" data-group-id="0085664689-13">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="8514397398-13">(</span><span class="p" data-group-id="8514397398-14">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="8514397398-14">}</span><span class="p" data-group-id="8514397398-13">)</span><span class="w">
 
 </span><span class="c1"># We can use Axon.Display to show us what each of the layers would look like</span><span class="w">
 </span><span class="c1"># assuming we send in a batch of 4 images</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="0085664689-15">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0085664689-16">(</span><span class="p" data-group-id="0085664689-17">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="0085664689-17">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0085664689-16">)</span><span class="p" data-group-id="0085664689-15">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0085664689-18">(</span><span class="p" data-group-id="0085664689-18">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="8514397398-15">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8514397398-16">(</span><span class="p" data-group-id="8514397398-17">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="8514397398-17">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8514397398-16">)</span><span class="p" data-group-id="8514397398-15">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8514397398-18">(</span><span class="p" data-group-id="8514397398-18">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
 
-</span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">prepare_training_data</span><span class="p" data-group-id="6785892910-1">(</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="6785892910-1">)</span><span class="w">
-</span><span class="n">test_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">prepare_training_data</span><span class="p" data-group-id="6785892910-2">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="6785892910-2">)</span><span class="w">
+</span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">prepare_training_data</span><span class="p" data-group-id="5283012400-1">(</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5283012400-1">)</span><span class="w">
+</span><span class="n">test_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">prepare_training_data</span><span class="p" data-group-id="5283012400-2">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="5283012400-2">)</span><span class="w">
 
-</span><span class="p" data-group-id="6785892910-3">{</span><span class="n">input_batch</span><span class="p">,</span><span class="w"> </span><span class="n">target_batch</span><span class="p" data-group-id="6785892910-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="6785892910-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6785892910-4">)</span><span class="w">
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6785892910-5">(</span><span class="n">input_batch</span><span class="p" data-group-id="6785892910-6">[</span><span class="p" data-group-id="6785892910-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6785892910-7">]</span><span class="p" data-group-id="6785892910-6">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6785892910-8">(</span><span class="p" data-group-id="6785892910-8">)</span><span class="p" data-group-id="6785892910-5">)</span><span class="w">
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6785892910-9">(</span><span class="n">target_batch</span><span class="p" data-group-id="6785892910-10">[</span><span class="p" data-group-id="6785892910-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6785892910-11">]</span><span class="p" data-group-id="6785892910-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6785892910-12">(</span><span class="p" data-group-id="6785892910-12">)</span><span class="p" data-group-id="6785892910-9">)</span><span class="w">
+</span><span class="p" data-group-id="5283012400-3">{</span><span class="n">input_batch</span><span class="p">,</span><span class="w"> </span><span class="n">target_batch</span><span class="p" data-group-id="5283012400-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="5283012400-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5283012400-4">)</span><span class="w">
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5283012400-5">(</span><span class="n">input_batch</span><span class="p" data-group-id="5283012400-6">[</span><span class="p" data-group-id="5283012400-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5283012400-7">]</span><span class="p" data-group-id="5283012400-6">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5283012400-8">(</span><span class="p" data-group-id="5283012400-8">)</span><span class="p" data-group-id="5283012400-5">)</span><span class="w">
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5283012400-9">(</span><span class="n">target_batch</span><span class="p" data-group-id="5283012400-10">[</span><span class="p" data-group-id="5283012400-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5283012400-11">]</span><span class="p" data-group-id="5283012400-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5283012400-12">(</span><span class="p" data-group-id="5283012400-12">)</span><span class="p" data-group-id="5283012400-9">)</span><span class="w">
 
-</span><span class="ss">:ok</span></code></pre><p>When training, it can be useful to stop execution early - either when you see it's failing and you don't want to waste time waiting for the remaining epochs to finish, or if it's good enough and you want to start experimenting with it.</p><p>The <code class="inline">kino_early_stop/1</code> function below is a handy handler to give us a <code class="inline">Kino.Control.button</code> that will stop the training loop when clicked.</p><p>We also have <code class="inline">plot_losses/1</code> function to visualize our train and validation losses using <a href="https://hexdocs.pm/vega_lite/0.1.8/VegaLite.html"><code class="inline">VegaLite</code></a>.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="w"> </span><span class="k" data-group-id="2635122810-1">do</span><span class="w">
+</span><span class="ss">:ok</span></code></pre><p>When training, it can be useful to stop execution early - either when you see it's failing and you don't want to waste time waiting for the remaining epochs to finish, or if it's good enough and you want to start experimenting with it.</p><p>The <code class="inline">kino_early_stop/1</code> function below is a handy handler to give us a <code class="inline">Kino.Control.button</code> that will stop the training loop when clicked.</p><p>We also have <code class="inline">plot_losses/1</code> function to visualize our train and validation losses using <a href="https://hexdocs.pm/vega_lite/0.1.8/VegaLite.html"><code class="inline">VegaLite</code></a>.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="w"> </span><span class="k" data-group-id="9492867078-1">do</span><span class="w">
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Adds handler function which adds a frame with a &quot;stop&quot; button
   to the cell with the training loop.
 
   Clicking &quot;stop&quot; will halt the training loop.
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">kino_early_stop</span><span class="p" data-group-id="2635122810-2">(</span><span class="n">loop</span><span class="p" data-group-id="2635122810-2">)</span><span class="w"> </span><span class="k" data-group-id="2635122810-3">do</span><span class="w">
-    </span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2635122810-4">(</span><span class="p" data-group-id="2635122810-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2635122810-5">(</span><span class="p" data-group-id="2635122810-5">)</span><span class="w">
-    </span><span class="n">stop_button</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">button</span><span class="p" data-group-id="2635122810-6">(</span><span class="s">&quot;stop&quot;</span><span class="p" data-group-id="2635122810-6">)</span><span class="w">
-    </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2635122810-7">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">stop_button</span><span class="p" data-group-id="2635122810-7">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">kino_early_stop</span><span class="p" data-group-id="9492867078-2">(</span><span class="n">loop</span><span class="p" data-group-id="9492867078-2">)</span><span class="w"> </span><span class="k" data-group-id="9492867078-3">do</span><span class="w">
+    </span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="9492867078-4">(</span><span class="p" data-group-id="9492867078-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="9492867078-5">(</span><span class="p" data-group-id="9492867078-5">)</span><span class="w">
+    </span><span class="n">stop_button</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">button</span><span class="p" data-group-id="9492867078-6">(</span><span class="s">&quot;stop&quot;</span><span class="p" data-group-id="9492867078-6">)</span><span class="w">
+    </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="9492867078-7">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">stop_button</span><span class="p" data-group-id="9492867078-7">)</span><span class="w">
 
-    </span><span class="p" data-group-id="2635122810-8">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="n">button_agent</span><span class="p" data-group-id="2635122810-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Agent</span><span class="o">.</span><span class="n">start_link</span><span class="p" data-group-id="2635122810-9">(</span><span class="k" data-group-id="2635122810-10">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="no">nil</span><span class="w"> </span><span class="k" data-group-id="2635122810-10">end</span><span class="p" data-group-id="2635122810-9">)</span><span class="w">
+    </span><span class="p" data-group-id="9492867078-8">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="n">button_agent</span><span class="p" data-group-id="9492867078-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Agent</span><span class="o">.</span><span class="n">start_link</span><span class="p" data-group-id="9492867078-9">(</span><span class="k" data-group-id="9492867078-10">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="no">nil</span><span class="w"> </span><span class="k" data-group-id="9492867078-10">end</span><span class="p" data-group-id="9492867078-9">)</span><span class="w">
 
     </span><span class="n">stop_button</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">stream</span><span class="p" data-group-id="2635122810-11">(</span><span class="p" data-group-id="2635122810-11">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">listen</span><span class="p" data-group-id="2635122810-12">(</span><span class="k" data-group-id="2635122810-13">fn</span><span class="w"> </span><span class="c">_event</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="nc">Agent</span><span class="o">.</span><span class="n">update</span><span class="p" data-group-id="2635122810-14">(</span><span class="n">button_agent</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="2635122810-15">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="ss">:stop</span><span class="w"> </span><span class="k" data-group-id="2635122810-15">end</span><span class="p" data-group-id="2635122810-14">)</span><span class="w">
-    </span><span class="k" data-group-id="2635122810-13">end</span><span class="p" data-group-id="2635122810-12">)</span><span class="w">
-
-    </span><span class="n">handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2635122810-16">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="n">stop_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Agent</span><span class="o">.</span><span class="n">get</span><span class="p" data-group-id="2635122810-17">(</span><span class="n">button_agent</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="2635122810-17">)</span><span class="w">
-
-      </span><span class="k">if</span><span class="w"> </span><span class="n">stop_state</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="ss">:stop</span><span class="w"> </span><span class="k" data-group-id="2635122810-18">do</span><span class="w">
-        </span><span class="nc">Agent</span><span class="o">.</span><span class="n">stop</span><span class="p" data-group-id="2635122810-19">(</span><span class="n">button_agent</span><span class="p" data-group-id="2635122810-19">)</span><span class="w">
-        </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2635122810-20">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;stopped&quot;</span><span class="p" data-group-id="2635122810-20">)</span><span class="w">
-        </span><span class="p" data-group-id="2635122810-21">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="2635122810-21">}</span><span class="w">
-      </span><span class="k" data-group-id="2635122810-18">else</span><span class="w">
-        </span><span class="p" data-group-id="2635122810-22">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="2635122810-22">}</span><span class="w">
-      </span><span class="k" data-group-id="2635122810-18">end</span><span class="w">
-    </span><span class="k" data-group-id="2635122810-16">end</span><span class="w">
-
-    </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="2635122810-23">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">handler</span><span class="p" data-group-id="2635122810-23">)</span><span class="w">
-  </span><span class="k" data-group-id="2635122810-3">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">stream</span><span class="p" data-group-id="9492867078-11">(</span><span class="p" data-group-id="9492867078-11">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">listen</span><span class="p" data-group-id="9492867078-12">(</span><span class="k" data-group-id="9492867078-13">fn</span><span class="w"> </span><span class="c">_event</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="nc">Agent</span><span class="o">.</span><span class="n">update</span><span class="p" data-group-id="9492867078-14">(</span><span class="n">button_agent</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="9492867078-15">fn</span><span class="w"> </span><span class="bp">_</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="ss">:stop</span><span class="w"> </span><span class="k" data-group-id="9492867078-15">end</span><span class="p" data-group-id="9492867078-14">)</span><span class="w">
+    </span><span class="k" data-group-id="9492867078-13">end</span><span class="p" data-group-id="9492867078-12">)</span><span class="w">
+
+    </span><span class="n">handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9492867078-16">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="n">stop_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Agent</span><span class="o">.</span><span class="n">get</span><span class="p" data-group-id="9492867078-17">(</span><span class="n">button_agent</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="9492867078-17">)</span><span class="w">
+
+      </span><span class="k">if</span><span class="w"> </span><span class="n">stop_state</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="ss">:stop</span><span class="w"> </span><span class="k" data-group-id="9492867078-18">do</span><span class="w">
+        </span><span class="nc">Agent</span><span class="o">.</span><span class="n">stop</span><span class="p" data-group-id="9492867078-19">(</span><span class="n">button_agent</span><span class="p" data-group-id="9492867078-19">)</span><span class="w">
+        </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="9492867078-20">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;stopped&quot;</span><span class="p" data-group-id="9492867078-20">)</span><span class="w">
+        </span><span class="p" data-group-id="9492867078-21">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="9492867078-21">}</span><span class="w">
+      </span><span class="k" data-group-id="9492867078-18">else</span><span class="w">
+        </span><span class="p" data-group-id="9492867078-22">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="9492867078-22">}</span><span class="w">
+      </span><span class="k" data-group-id="9492867078-18">end</span><span class="w">
+    </span><span class="k" data-group-id="9492867078-16">end</span><span class="w">
+
+    </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="9492867078-23">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">handler</span><span class="p" data-group-id="9492867078-23">)</span><span class="w">
+  </span><span class="k" data-group-id="9492867078-3">end</span><span class="w">
 
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Plots the training and validation losses using Kino and VegaLite.
 
   This *must* come after `Axon.Loop.validate`.
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">plot_losses</span><span class="p" data-group-id="2635122810-24">(</span><span class="n">loop</span><span class="p" data-group-id="2635122810-24">)</span><span class="w"> </span><span class="k" data-group-id="2635122810-25">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">plot_losses</span><span class="p" data-group-id="9492867078-24">(</span><span class="n">loop</span><span class="p" data-group-id="9492867078-24">)</span><span class="w"> </span><span class="k" data-group-id="9492867078-25">do</span><span class="w">
     </span><span class="n">vl_widget</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2635122810-26">(</span><span class="ss">width</span><span class="p">:</span><span class="w"> </span><span class="mi">600</span><span class="p">,</span><span class="w"> </span><span class="ss">height</span><span class="p">:</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="2635122810-26">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="2635122810-27">(</span><span class="ss">:point</span><span class="p">,</span><span class="w"> </span><span class="ss">tooltip</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2635122810-27">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="2635122810-28">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;epoch&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:ordinal</span><span class="p" data-group-id="2635122810-28">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="2635122810-29">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="2635122810-29">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="2635122810-30">(</span><span class="ss">:color</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dataset&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:nominal</span><span class="p" data-group-id="2635122810-30">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2635122810-31">(</span><span class="p" data-group-id="2635122810-31">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2635122810-32">(</span><span class="p" data-group-id="2635122810-32">)</span><span class="w">
-
-    </span><span class="n">handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2635122810-33">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-      </span><span class="p" data-group-id="2635122810-34">%</span><span class="nc" data-group-id="2635122810-34">Axon.Loop.State</span><span class="p" data-group-id="2635122810-34">{</span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">metrics</span><span class="p">,</span><span class="w"> </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p" data-group-id="2635122810-34">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
-      </span><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="2635122810-35">[</span><span class="s">&quot;loss&quot;</span><span class="p" data-group-id="2635122810-35">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="2635122810-36">(</span><span class="p" data-group-id="2635122810-36">)</span><span class="w">
-      </span><span class="n">val_loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="2635122810-37">[</span><span class="s">&quot;validation_loss&quot;</span><span class="p" data-group-id="2635122810-37">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="2635122810-38">(</span><span class="p" data-group-id="2635122810-38">)</span><span class="w">
-
-      </span><span class="n">points</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2635122810-39">[</span><span class="w">
-        </span><span class="p" data-group-id="2635122810-40">%{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="ss">dataset</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;train&quot;</span><span class="p" data-group-id="2635122810-40">}</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2635122810-41">%{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">val_loss</span><span class="p">,</span><span class="w"> </span><span class="ss">dataset</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation&quot;</span><span class="p" data-group-id="2635122810-41">}</span><span class="w">
-      </span><span class="p" data-group-id="2635122810-39">]</span><span class="w">
-
-      </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">push_many</span><span class="p" data-group-id="2635122810-42">(</span><span class="n">vl_widget</span><span class="p">,</span><span class="w"> </span><span class="n">points</span><span class="p" data-group-id="2635122810-42">)</span><span class="w">
-      </span><span class="p" data-group-id="2635122810-43">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="2635122810-43">}</span><span class="w">
-    </span><span class="k" data-group-id="2635122810-33">end</span><span class="w">
-
-    </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="2635122810-44">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">handler</span><span class="p" data-group-id="2635122810-44">)</span><span class="w">
-  </span><span class="k" data-group-id="2635122810-25">end</span><span class="w">
-</span><span class="k" data-group-id="2635122810-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># A helper function to display the input and output side by side</span><span class="w">
-</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4423600492-1">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="4423600492-2">[</span><span class="p" data-group-id="4423600492-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4423600492-3">]</span><span class="p" data-group-id="4423600492-2">]</span><span class="w">
-  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4423600492-4">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="4423600492-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="4423600492-5">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4423600492-6">[</span><span class="mi">0</span><span class="p" data-group-id="4423600492-6">]</span><span class="p" data-group-id="4423600492-5">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="4423600492-7">(</span><span class="p" data-group-id="4423600492-8">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="4423600492-8">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="4423600492-7">)</span><span class="w">
-</span><span class="k" data-group-id="4423600492-1">end</span><span class="w">
-
-</span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="4423600492-9">(</span><span class="p" data-group-id="4423600492-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4423600492-10">(</span><span class="p" data-group-id="4423600492-10">)</span><span class="w">
-
-</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4423600492-11">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="9492867078-26">(</span><span class="ss">width</span><span class="p">:</span><span class="w"> </span><span class="mi">600</span><span class="p">,</span><span class="w"> </span><span class="ss">height</span><span class="p">:</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="9492867078-26">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="9492867078-27">(</span><span class="ss">:point</span><span class="p">,</span><span class="w"> </span><span class="ss">tooltip</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9492867078-27">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="9492867078-28">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;epoch&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:ordinal</span><span class="p" data-group-id="9492867078-28">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="9492867078-29">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;loss&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="9492867078-29">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="9492867078-30">(</span><span class="ss">:color</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dataset&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:nominal</span><span class="p" data-group-id="9492867078-30">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="9492867078-31">(</span><span class="p" data-group-id="9492867078-31">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="9492867078-32">(</span><span class="p" data-group-id="9492867078-32">)</span><span class="w">
+
+    </span><span class="n">handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9492867078-33">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+      </span><span class="p" data-group-id="9492867078-34">%</span><span class="nc" data-group-id="9492867078-34">Axon.Loop.State</span><span class="p" data-group-id="9492867078-34">{</span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="n">metrics</span><span class="p">,</span><span class="w"> </span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p" data-group-id="9492867078-34">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="w">
+      </span><span class="n">loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="9492867078-35">[</span><span class="s">&quot;loss&quot;</span><span class="p" data-group-id="9492867078-35">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="9492867078-36">(</span><span class="p" data-group-id="9492867078-36">)</span><span class="w">
+      </span><span class="n">val_loss</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">metrics</span><span class="p" data-group-id="9492867078-37">[</span><span class="s">&quot;validation_loss&quot;</span><span class="p" data-group-id="9492867078-37">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="9492867078-38">(</span><span class="p" data-group-id="9492867078-38">)</span><span class="w">
+
+      </span><span class="n">points</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="9492867078-39">[</span><span class="w">
+        </span><span class="p" data-group-id="9492867078-40">%{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">loss</span><span class="p">,</span><span class="w"> </span><span class="ss">dataset</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;train&quot;</span><span class="p" data-group-id="9492867078-40">}</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9492867078-41">%{</span><span class="ss">epoch</span><span class="p">:</span><span class="w"> </span><span class="n">epoch</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="n">val_loss</span><span class="p">,</span><span class="w"> </span><span class="ss">dataset</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;validation&quot;</span><span class="p" data-group-id="9492867078-41">}</span><span class="w">
+      </span><span class="p" data-group-id="9492867078-39">]</span><span class="w">
+
+      </span><span class="nc">Kino.VegaLite</span><span class="o">.</span><span class="n">push_many</span><span class="p" data-group-id="9492867078-42">(</span><span class="n">vl_widget</span><span class="p">,</span><span class="w"> </span><span class="n">points</span><span class="p" data-group-id="9492867078-42">)</span><span class="w">
+      </span><span class="p" data-group-id="9492867078-43">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="9492867078-43">}</span><span class="w">
+    </span><span class="k" data-group-id="9492867078-33">end</span><span class="w">
+
+    </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="9492867078-44">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">handler</span><span class="p" data-group-id="9492867078-44">)</span><span class="w">
+  </span><span class="k" data-group-id="9492867078-25">end</span><span class="w">
+</span><span class="k" data-group-id="9492867078-1">end</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># A helper function to display the input and output side by side</span><span class="w">
+</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5531104623-1">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="5531104623-2">[</span><span class="p" data-group-id="5531104623-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="5531104623-3">]</span><span class="p" data-group-id="5531104623-2">]</span><span class="w">
+  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5531104623-4">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="5531104623-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="5531104623-5">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5531104623-6">[</span><span class="mi">0</span><span class="p" data-group-id="5531104623-6">]</span><span class="p" data-group-id="5531104623-5">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="5531104623-7">(</span><span class="p" data-group-id="5531104623-8">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="5531104623-8">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5531104623-7">)</span><span class="w">
+</span><span class="k" data-group-id="5531104623-1">end</span><span class="w">
+
+</span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="5531104623-9">(</span><span class="p" data-group-id="5531104623-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5531104623-10">(</span><span class="p" data-group-id="5531104623-10">)</span><span class="w">
+
+</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5531104623-11">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="c1"># state.step_state[:model_state] contains the model params when this event is fired</span><span class="w">
-  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="4423600492-12">[</span><span class="ss">:model_state</span><span class="p" data-group-id="4423600492-12">]</span><span class="w">
-  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="4423600492-13">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="4423600492-14">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="4423600492-15">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="4423600492-15">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4423600492-14">)</span><span class="p" data-group-id="4423600492-13">)</span><span class="w">
-  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="4423600492-16">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4423600492-16">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="4423600492-17">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="4423600492-17">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4423600492-18">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="4423600492-18">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="4423600492-19">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="4423600492-20">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="4423600492-20">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="4423600492-21">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="4423600492-21">}</span><span class="s">&quot;</span><span class="p" data-group-id="4423600492-19">)</span><span class="w">
-  </span><span class="p" data-group-id="4423600492-22">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="4423600492-22">}</span><span class="w">
-</span><span class="k" data-group-id="4423600492-11">end</span><span class="w">
+  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="5531104623-12">[</span><span class="ss">:model_state</span><span class="p" data-group-id="5531104623-12">]</span><span class="w">
+  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="5531104623-13">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="5531104623-14">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="5531104623-15">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="5531104623-15">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5531104623-14">)</span><span class="p" data-group-id="5531104623-13">)</span><span class="w">
+  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="5531104623-16">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="5531104623-16">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5531104623-17">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="5531104623-17">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="5531104623-18">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="5531104623-18">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="5531104623-19">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="5531104623-20">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="5531104623-20">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="5531104623-21">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="5531104623-21">}</span><span class="s">&quot;</span><span class="p" data-group-id="5531104623-19">)</span><span class="w">
+  </span><span class="p" data-group-id="5531104623-22">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="5531104623-22">}</span><span class="w">
+</span><span class="k" data-group-id="5531104623-11">end</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4423600492-23">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="4423600492-24">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="4423600492-24">)</span><span class="p" data-group-id="4423600492-23">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">kino_early_stop</span><span class="p" data-group-id="4423600492-25">(</span><span class="p" data-group-id="4423600492-25">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="4423600492-26">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p" data-group-id="4423600492-26">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="4423600492-27">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="4423600492-27">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">plot_losses</span><span class="p" data-group-id="4423600492-28">(</span><span class="p" data-group-id="4423600492-28">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4423600492-29">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4423600492-30">%{</span><span class="p" data-group-id="4423600492-30">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">40</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4423600492-29">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5531104623-23">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="5531104623-24">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="5531104623-24">)</span><span class="p" data-group-id="5531104623-23">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">kino_early_stop</span><span class="p" data-group-id="5531104623-25">(</span><span class="p" data-group-id="5531104623-25">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="5531104623-26">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p" data-group-id="5531104623-26">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="5531104623-27">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="5531104623-27">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">plot_losses</span><span class="p" data-group-id="5531104623-28">(</span><span class="p" data-group-id="5531104623-28">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5531104623-29">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5531104623-30">%{</span><span class="p" data-group-id="5531104623-30">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">40</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5531104623-29">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><!-- livebook:{"branch_parent_index":1} --><h2 id="splitting-up-the-model" class="section-heading">
   <a href="#splitting-up-the-model" class="hover-link">
@@ -362,191 +362,191 @@ <h1>
   <span class="text">Splitting up the model</span>
 </h2>
 <p>Cool! We now have the parameters for a trained, simple autoencoder. Our next step is to split up the model so we can use the encoder and decoder separately. By doing that, we'll be able to take an image and <em>encode</em> it to get the model's compressed image representation (the latent vector). We can then manipulate the latent vector and run the manipulated latent vector through the <em>decoder</em> to get a new image.</p><p>Let's start by defining the encoder and decoder separately as two different models.</p><pre><code class="makeup elixir" translate="no"><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8171879021-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8171879021-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="8171879021-2">}</span><span class="p" data-group-id="8171879021-1">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4460607971-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4460607971-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4460607971-2">}</span><span class="p" data-group-id="4460607971-1">)</span><span class="w">
   </span><span class="c1"># This is now 28*28*1 = 784</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="8171879021-3">(</span><span class="p" data-group-id="8171879021-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="4460607971-3">(</span><span class="p" data-group-id="4460607971-3">)</span><span class="w">
   </span><span class="c1"># The encoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8171879021-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="8171879021-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8171879021-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="8171879021-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8171879021-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="8171879021-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4460607971-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="4460607971-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4460607971-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="4460607971-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4460607971-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="4460607971-6">)</span><span class="w">
   </span><span class="c1"># Bottleneck layer</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8171879021-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="8171879021-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4460607971-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="4460607971-7">)</span><span class="w">
 
 </span><span class="c1"># The output from the encoder</span><span class="w">
 </span><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8171879021-8">(</span><span class="s">&quot;latent&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8171879021-9">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="8171879021-9">}</span><span class="p" data-group-id="8171879021-8">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4460607971-8">(</span><span class="s">&quot;latent&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4460607971-9">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="4460607971-9">}</span><span class="p" data-group-id="4460607971-8">)</span><span class="w">
   </span><span class="c1"># The decoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8171879021-10">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="8171879021-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8171879021-11">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="8171879021-11">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8171879021-12">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="8171879021-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8171879021-13">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="8171879021-13">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="8171879021-14">(</span><span class="p" data-group-id="8171879021-14">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4460607971-10">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="4460607971-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4460607971-11">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="4460607971-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4460607971-12">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="4460607971-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4460607971-13">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="4460607971-13">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="4460607971-14">(</span><span class="p" data-group-id="4460607971-14">)</span><span class="w">
   </span><span class="c1"># Turn it back into a 28x28 single channel image</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="8171879021-15">(</span><span class="p" data-group-id="8171879021-16">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="8171879021-16">}</span><span class="p" data-group-id="8171879021-15">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="4460607971-15">(</span><span class="p" data-group-id="4460607971-16">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4460607971-16">}</span><span class="p" data-group-id="4460607971-15">)</span><span class="w">
 
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="8171879021-17">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8171879021-18">(</span><span class="p" data-group-id="8171879021-19">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="8171879021-19">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8171879021-18">)</span><span class="p" data-group-id="8171879021-17">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8171879021-20">(</span><span class="p" data-group-id="8171879021-20">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="8171879021-21">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="8171879021-22">(</span><span class="p" data-group-id="8171879021-23">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="8171879021-23">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8171879021-22">)</span><span class="p" data-group-id="8171879021-21">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8171879021-24">(</span><span class="p" data-group-id="8171879021-24">)</span></code></pre><p>We have the two models, but the problem is these are untrained models so we don't have the corresponding set of parameters. We'd like to use the parameters from the autoencoder we just trained and apply them to our split up models.</p><p>Let's first take a look at what params actually are:</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span></code></pre><p>Params are just a <a href="https://hexdocs.pm/elixir/Map.html"><code class="inline">Map</code></a> with the layer name as the key identifying which parameters to use. We can easily match up the layer names with the output from the <a href="Axon.Display.html#as_table/2"><code class="inline">Axon.Display.as_table/2</code></a> call for the autoencoder model.</p><p>So all we need to do is create a new Map that plucks out the right layers from our autoencoder <code class="inline">params</code> for each model and use that to run inference on our split up models.</p><p>Fortunately, since we gave each of the layers names, this requires no work at all - we can use the Map as it is since the layer names match up! Axon will ignore any extra keys so those won't be a problem.</p><p>Note that naming the layers wasn't <em>required</em>, if the layers didn't have names we would have some renaming to do to get the names to match between the models. But giving them names made it very convenient :)</p><p>Let's try encoding an image, printing the latent and then decoding the latent using our split up model to make sure it's working.</p><pre><code class="makeup elixir" translate="no"><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="0557781890-1">[</span><span class="p" data-group-id="0557781890-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="0557781890-2">]</span><span class="p" data-group-id="0557781890-1">]</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="4460607971-17">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4460607971-18">(</span><span class="p" data-group-id="4460607971-19">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="4460607971-19">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4460607971-18">)</span><span class="p" data-group-id="4460607971-17">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="4460607971-20">(</span><span class="p" data-group-id="4460607971-20">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="4460607971-21">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4460607971-22">(</span><span class="p" data-group-id="4460607971-23">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="4460607971-23">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4460607971-22">)</span><span class="p" data-group-id="4460607971-21">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="4460607971-24">(</span><span class="p" data-group-id="4460607971-24">)</span></code></pre><p>We have the two models, but the problem is these are untrained models so we don't have the corresponding set of parameters. We'd like to use the parameters from the autoencoder we just trained and apply them to our split up models.</p><p>Let's first take a look at what params actually are:</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span></code></pre><p>Params are just a <a href="https://hexdocs.pm/elixir/Map.html"><code class="inline">Map</code></a> with the layer name as the key identifying which parameters to use. We can easily match up the layer names with the output from the <a href="Axon.Display.html#as_table/2"><code class="inline">Axon.Display.as_table/2</code></a> call for the autoencoder model.</p><p>So all we need to do is create a new Map that plucks out the right layers from our autoencoder <code class="inline">params</code> for each model and use that to run inference on our split up models.</p><p>Fortunately, since we gave each of the layers names, this requires no work at all - we can use the Map as it is since the layer names match up! Axon will ignore any extra keys so those won't be a problem.</p><p>Note that naming the layers wasn't <em>required</em>, if the layers didn't have names we would have some renaming to do to get the names to match between the models. But giving them names made it very convenient :)</p><p>Let's try encoding an image, printing the latent and then decoding the latent using our split up model to make sure it's working.</p><pre><code class="makeup elixir" translate="no"><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="0748017337-1">[</span><span class="p" data-group-id="0748017337-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="0748017337-2">]</span><span class="p" data-group-id="0748017337-1">]</span><span class="w">
 
 </span><span class="c1"># Encode the image</span><span class="w">
-</span><span class="n">latent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="0557781890-3">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="0557781890-3">)</span><span class="w">
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0557781890-4">(</span><span class="n">latent</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Latent&quot;</span><span class="p" data-group-id="0557781890-4">)</span><span class="w">
+</span><span class="n">latent</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="0748017337-3">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="0748017337-3">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0748017337-4">(</span><span class="n">latent</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Latent&quot;</span><span class="p" data-group-id="0748017337-4">)</span><span class="w">
 </span><span class="c1"># Decode the image</span><span class="w">
-</span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="0557781890-5">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">latent</span><span class="p" data-group-id="0557781890-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="0557781890-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0557781890-7">[</span><span class="mi">0</span><span class="p" data-group-id="0557781890-7">]</span><span class="p" data-group-id="0557781890-6">)</span><span class="w">
+</span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="0748017337-5">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">latent</span><span class="p" data-group-id="0748017337-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="0748017337-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0748017337-7">[</span><span class="mi">0</span><span class="p" data-group-id="0748017337-7">]</span><span class="p" data-group-id="0748017337-6">)</span><span class="w">
 
-</span><span class="n">combined_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="0557781890-8">(</span><span class="p" data-group-id="0557781890-9">[</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="0557781890-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="0557781890-8">)</span><span class="w">
-</span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="0557781890-10">(</span><span class="n">combined_image</span><span class="p">,</span><span class="w"> </span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="0557781890-10">)</span></code></pre><p>Perfect! Seems like the split up models are working as expected. Now let's try to generate some new images using our autoencoder. To do this, we'll manipulate the latent so it's slightly different from what the encoder gave us. Specifically, we'll try to interpolate between two images, showing 100 steps from our starting image to our final image.</p><pre><code class="makeup elixir" translate="no"><span class="n">num_steps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w">
+</span><span class="n">combined_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="0748017337-8">(</span><span class="p" data-group-id="0748017337-9">[</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="0748017337-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="0748017337-8">)</span><span class="w">
+</span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="0748017337-10">(</span><span class="n">combined_image</span><span class="p">,</span><span class="w"> </span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="0748017337-10">)</span></code></pre><p>Perfect! Seems like the split up models are working as expected. Now let's try to generate some new images using our autoencoder. To do this, we'll manipulate the latent so it's slightly different from what the encoder gave us. Specifically, we'll try to interpolate between two images, showing 100 steps from our starting image to our final image.</p><pre><code class="makeup elixir" translate="no"><span class="n">num_steps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w">
 
 </span><span class="c1"># Get our latents, image at index 0 is our starting point</span><span class="w">
 </span><span class="c1"># index 1 is where we&#39;ll end</span><span class="w">
-</span><span class="n">latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6088506736-1">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="6088506736-2">[</span><span class="p" data-group-id="6088506736-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">1</span><span class="p" data-group-id="6088506736-3">]</span><span class="p" data-group-id="6088506736-2">]</span><span class="p" data-group-id="6088506736-1">)</span><span class="w">
+</span><span class="n">latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5669750487-1">(</span><span class="n">encoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="5669750487-2">[</span><span class="p" data-group-id="5669750487-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">1</span><span class="p" data-group-id="5669750487-3">]</span><span class="p" data-group-id="5669750487-2">]</span><span class="p" data-group-id="5669750487-1">)</span><span class="w">
 </span><span class="c1"># Latents is a {2, 10} tensor</span><span class="w">
 </span><span class="c1"># The step we&#39;ll add to our latent to move it towards image[1]</span><span class="w">
-</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="6088506736-4">(</span><span class="n">latents</span><span class="p" data-group-id="6088506736-5">[</span><span class="mi">1</span><span class="p" data-group-id="6088506736-5">]</span><span class="p">,</span><span class="w"> </span><span class="n">latents</span><span class="p" data-group-id="6088506736-6">[</span><span class="mi">0</span><span class="p" data-group-id="6088506736-6">]</span><span class="p" data-group-id="6088506736-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="6088506736-7">(</span><span class="n">num_steps</span><span class="p" data-group-id="6088506736-7">)</span><span class="w">
+</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="5669750487-4">(</span><span class="n">latents</span><span class="p" data-group-id="5669750487-5">[</span><span class="mi">1</span><span class="p" data-group-id="5669750487-5">]</span><span class="p">,</span><span class="w"> </span><span class="n">latents</span><span class="p" data-group-id="5669750487-6">[</span><span class="mi">0</span><span class="p" data-group-id="5669750487-6">]</span><span class="p" data-group-id="5669750487-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5669750487-7">(</span><span class="n">num_steps</span><span class="p" data-group-id="5669750487-7">)</span><span class="w">
 </span><span class="c1"># We can make a batch of all our new latents</span><span class="w">
-</span><span class="n">new_latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="6088506736-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6088506736-9">(</span><span class="p" data-group-id="6088506736-10">{</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6088506736-10">}</span><span class="p" data-group-id="6088506736-9">)</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="6088506736-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="6088506736-11">(</span><span class="n">latents</span><span class="p" data-group-id="6088506736-12">[</span><span class="mi">0</span><span class="p" data-group-id="6088506736-12">]</span><span class="p" data-group-id="6088506736-11">)</span><span class="w">
+</span><span class="n">new_latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="5669750487-8">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5669750487-9">(</span><span class="p" data-group-id="5669750487-10">{</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5669750487-10">}</span><span class="p" data-group-id="5669750487-9">)</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="5669750487-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5669750487-11">(</span><span class="n">latents</span><span class="p" data-group-id="5669750487-12">[</span><span class="mi">0</span><span class="p" data-group-id="5669750487-12">]</span><span class="p" data-group-id="5669750487-11">)</span><span class="w">
 
-</span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6088506736-13">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">new_latents</span><span class="p" data-group-id="6088506736-13">)</span><span class="w">
+</span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5669750487-13">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">new_latents</span><span class="p" data-group-id="5669750487-13">)</span><span class="w">
 
 </span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="6088506736-14">(</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5669750487-14">(</span><span class="w">
     </span><span class="n">reconstructed_images</span><span class="p">,</span><span class="w">
-    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6088506736-15">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="6088506736-15">)</span><span class="p">,</span><span class="w">
-    </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6088506736-16">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="6088506736-16">]</span><span class="w">
-  </span><span class="p" data-group-id="6088506736-14">)</span><span class="w">
-
-</span><span class="nc">Stream</span><span class="o">.</span><span class="n">interval</span><span class="p" data-group-id="6088506736-17">(</span><span class="n">div</span><span class="p" data-group-id="6088506736-18">(</span><span class="mi">5000</span><span class="p">,</span><span class="w"> </span><span class="n">num_steps</span><span class="p" data-group-id="6088506736-18">)</span><span class="p" data-group-id="6088506736-17">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="6088506736-19">(</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6088506736-19">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="6088506736-20">(</span><span class="k" data-group-id="6088506736-21">fn</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6088506736-22">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="6088506736-23">[</span><span class="n">i</span><span class="p" data-group-id="6088506736-23">]</span><span class="p" data-group-id="6088506736-22">)</span><span class="w">
-</span><span class="k" data-group-id="6088506736-21">end</span><span class="p" data-group-id="6088506736-20">)</span></code></pre><p>Cool! We have interpolation! But did you notice that some of the intermediate frames don't look fashionable at all? Autoencoders don't generally return good results for random vectors in their latent space. That's where a VAE can help.</p><!-- livebook:{"branch_parent_index":1} --><h2 id="making-it-variational" class="section-heading">
+    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5669750487-15">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="5669750487-15">)</span><span class="p">,</span><span class="w">
+    </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5669750487-16">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5669750487-16">]</span><span class="w">
+  </span><span class="p" data-group-id="5669750487-14">)</span><span class="w">
+
+</span><span class="nc">Stream</span><span class="o">.</span><span class="n">interval</span><span class="p" data-group-id="5669750487-17">(</span><span class="n">div</span><span class="p" data-group-id="5669750487-18">(</span><span class="mi">5000</span><span class="p">,</span><span class="w"> </span><span class="n">num_steps</span><span class="p" data-group-id="5669750487-18">)</span><span class="p" data-group-id="5669750487-17">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="5669750487-19">(</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5669750487-19">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="5669750487-20">(</span><span class="k" data-group-id="5669750487-21">fn</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5669750487-22">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="5669750487-23">[</span><span class="n">i</span><span class="p" data-group-id="5669750487-23">]</span><span class="p" data-group-id="5669750487-22">)</span><span class="w">
+</span><span class="k" data-group-id="5669750487-21">end</span><span class="p" data-group-id="5669750487-20">)</span></code></pre><p>Cool! We have interpolation! But did you notice that some of the intermediate frames don't look fashionable at all? Autoencoders don't generally return good results for random vectors in their latent space. That's where a VAE can help.</p><!-- livebook:{"branch_parent_index":1} --><h2 id="making-it-variational" class="section-heading">
   <a href="#making-it-variational" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Making it variational</span>
 </h2>
-<p>In a VAE, instead of outputting a latent vector, our encoder will output a distribution. Essentially this means instead of 10 outputs we'll have 20. 10 of them will represent the mean and 10 will represent the log of the variance of the latent. We'll have to sample from this distribution to get our latent vector. Finally, we'll have to modify our loss function to also compute the KL Divergence between the latent distribution and a standard normal distribution (this acts as a regularizer of the latent space).</p><p>We'll start by defining our model:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Vae</span><span class="w"> </span><span class="k" data-group-id="1759418466-1">do</span><span class="w">
+<p>In a VAE, instead of outputting a latent vector, our encoder will output a distribution. Essentially this means instead of 10 outputs we'll have 20. 10 of them will represent the mean and 10 will represent the log of the variance of the latent. We'll have to sample from this distribution to get our latent vector. Finally, we'll have to modify our loss function to also compute the KL Divergence between the latent distribution and a standard normal distribution (this acts as a regularizer of the latent space).</p><p>We'll start by defining our model:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Vae</span><span class="w"> </span><span class="k" data-group-id="1690787587-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
   </span><span class="na">@latent_features</span><span class="w"> </span><span class="mi">10</span><span class="w">
 
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">sampling_layer</span><span class="p" data-group-id="1759418466-2">(</span><span class="p" data-group-id="1759418466-3">%</span><span class="nc" data-group-id="1759418466-3">Axon</span><span class="p" data-group-id="1759418466-3">{</span><span class="p" data-group-id="1759418466-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1759418466-4">[</span><span class="p" data-group-id="1759418466-4">]</span><span class="p" data-group-id="1759418466-2">)</span><span class="w"> </span><span class="k" data-group-id="1759418466-5">do</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="1759418466-6">(</span><span class="o">&amp;</span><span class="n">sampling_layer_impl</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1759418466-7">[</span><span class="n">input</span><span class="p" data-group-id="1759418466-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;sampling_layer&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:sample</span><span class="p" data-group-id="1759418466-6">)</span><span class="w">
-  </span><span class="k" data-group-id="1759418466-5">end</span><span class="w">
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">sampling_layer</span><span class="p" data-group-id="1690787587-2">(</span><span class="p" data-group-id="1690787587-3">%</span><span class="nc" data-group-id="1690787587-3">Axon</span><span class="p" data-group-id="1690787587-3">{</span><span class="p" data-group-id="1690787587-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1690787587-4">[</span><span class="p" data-group-id="1690787587-4">]</span><span class="p" data-group-id="1690787587-2">)</span><span class="w"> </span><span class="k" data-group-id="1690787587-5">do</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">layer</span><span class="p" data-group-id="1690787587-6">(</span><span class="o">&amp;</span><span class="n">sampling_layer_impl</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1690787587-7">[</span><span class="n">input</span><span class="p" data-group-id="1690787587-7">]</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;sampling_layer&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">op_name</span><span class="p">:</span><span class="w"> </span><span class="ss">:sample</span><span class="p" data-group-id="1690787587-6">)</span><span class="w">
+  </span><span class="k" data-group-id="1690787587-5">end</span><span class="w">
 
-  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">sampling_layer_impl</span><span class="p" data-group-id="1759418466-8">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1759418466-9">[</span><span class="p" data-group-id="1759418466-9">]</span><span class="p" data-group-id="1759418466-8">)</span><span class="w"> </span><span class="k" data-group-id="1759418466-10">do</span><span class="w">
-    </span><span class="n">mu</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="1759418466-11">[</span><span class="p" data-group-id="1759418466-12">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="1759418466-12">]</span><span class="p" data-group-id="1759418466-11">]</span><span class="w">
-    </span><span class="n">log_var</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="1759418466-13">[</span><span class="p" data-group-id="1759418466-14">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="1759418466-14">]</span><span class="p" data-group-id="1759418466-13">]</span><span class="w">
-    </span><span class="n">std_dev</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="1759418466-15">(</span><span class="mf">0.5</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">log_var</span><span class="p" data-group-id="1759418466-15">)</span><span class="w">
-    </span><span class="n">eps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="1759418466-16">(</span><span class="n">std_dev</span><span class="p" data-group-id="1759418466-16">)</span><span class="w">
+  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">sampling_layer_impl</span><span class="p" data-group-id="1690787587-8">(</span><span class="n">x</span><span class="p">,</span><span class="w"> </span><span class="c">_opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1690787587-9">[</span><span class="p" data-group-id="1690787587-9">]</span><span class="p" data-group-id="1690787587-8">)</span><span class="w"> </span><span class="k" data-group-id="1690787587-10">do</span><span class="w">
+    </span><span class="n">mu</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="1690787587-11">[</span><span class="p" data-group-id="1690787587-12">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="1690787587-12">]</span><span class="p" data-group-id="1690787587-11">]</span><span class="w">
+    </span><span class="n">log_var</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="1690787587-13">[</span><span class="p" data-group-id="1690787587-14">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="1690787587-14">]</span><span class="p" data-group-id="1690787587-13">]</span><span class="w">
+    </span><span class="n">std_dev</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">exp</span><span class="p" data-group-id="1690787587-15">(</span><span class="mf">0.5</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">log_var</span><span class="p" data-group-id="1690787587-15">)</span><span class="w">
+    </span><span class="n">eps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="1690787587-16">(</span><span class="n">std_dev</span><span class="p" data-group-id="1690787587-16">)</span><span class="w">
     </span><span class="n">sample</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">std_dev</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">eps</span><span class="w">
-    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="1759418466-17">(</span><span class="p" data-group-id="1759418466-18">[</span><span class="n">sample</span><span class="p">,</span><span class="w"> </span><span class="n">mu</span><span class="p">,</span><span class="w"> </span><span class="n">std_dev</span><span class="p" data-group-id="1759418466-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1759418466-17">)</span><span class="w">
-  </span><span class="k" data-group-id="1759418466-10">end</span><span class="w">
+    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="1690787587-17">(</span><span class="p" data-group-id="1690787587-18">[</span><span class="n">sample</span><span class="p">,</span><span class="w"> </span><span class="n">mu</span><span class="p">,</span><span class="w"> </span><span class="n">std_dev</span><span class="p" data-group-id="1690787587-18">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1690787587-17">)</span><span class="w">
+  </span><span class="k" data-group-id="1690787587-10">end</span><span class="w">
 
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">encoder_partial</span><span class="p" data-group-id="1759418466-19">(</span><span class="p" data-group-id="1759418466-19">)</span><span class="w"> </span><span class="k" data-group-id="1759418466-20">do</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1759418466-21">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1759418466-22">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1759418466-22">}</span><span class="p" data-group-id="1759418466-21">)</span><span class="w">
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">encoder_partial</span><span class="p" data-group-id="1690787587-19">(</span><span class="p" data-group-id="1690787587-19">)</span><span class="w"> </span><span class="k" data-group-id="1690787587-20">do</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1690787587-21">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1690787587-22">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1690787587-22">}</span><span class="p" data-group-id="1690787587-21">)</span><span class="w">
     </span><span class="c1"># This is now 28*28*1 = 784</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="1759418466-23">(</span><span class="p" data-group-id="1759418466-23">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="1690787587-23">(</span><span class="p" data-group-id="1690787587-23">)</span><span class="w">
     </span><span class="c1"># The encoder</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1759418466-24">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="1759418466-24">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1759418466-25">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="1759418466-25">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1759418466-26">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="1759418466-26">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1690787587-24">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_1&quot;</span><span class="p" data-group-id="1690787587-24">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1690787587-25">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_2&quot;</span><span class="p" data-group-id="1690787587-25">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1690787587-26">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;encoder_layer_3&quot;</span><span class="p" data-group-id="1690787587-26">)</span><span class="w">
     </span><span class="c1"># Bottleneck layer</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1759418466-27">(</span><span class="na">@latent_features</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="1759418466-27">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1690787587-27">(</span><span class="na">@latent_features</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;bottleneck_layer&quot;</span><span class="p" data-group-id="1690787587-27">)</span><span class="w">
     </span><span class="c1"># Split up the mu and logvar</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="1759418466-28">(</span><span class="p" data-group-id="1759418466-29">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="na">@latent_features</span><span class="p" data-group-id="1759418466-29">}</span><span class="p" data-group-id="1759418466-28">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">sampling_layer</span><span class="p" data-group-id="1759418466-30">(</span><span class="p" data-group-id="1759418466-30">)</span><span class="w">
-  </span><span class="k" data-group-id="1759418466-20">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="1690787587-28">(</span><span class="p" data-group-id="1690787587-29">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="na">@latent_features</span><span class="p" data-group-id="1690787587-29">}</span><span class="p" data-group-id="1690787587-28">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">sampling_layer</span><span class="p" data-group-id="1690787587-30">(</span><span class="p" data-group-id="1690787587-30">)</span><span class="w">
+  </span><span class="k" data-group-id="1690787587-20">end</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">encoder</span><span class="p" data-group-id="1759418466-31">(</span><span class="p" data-group-id="1759418466-31">)</span><span class="w"> </span><span class="k" data-group-id="1759418466-32">do</span><span class="w">
-    </span><span class="n">encoder_partial</span><span class="p" data-group-id="1759418466-33">(</span><span class="p" data-group-id="1759418466-33">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">encoder</span><span class="p" data-group-id="1690787587-31">(</span><span class="p" data-group-id="1690787587-31">)</span><span class="w"> </span><span class="k" data-group-id="1690787587-32">do</span><span class="w">
+    </span><span class="n">encoder_partial</span><span class="p" data-group-id="1690787587-33">(</span><span class="p" data-group-id="1690787587-33">)</span><span class="w">
     </span><span class="c1"># Grab only the sample (ie. the sampled latent)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="1759418466-34">(</span><span class="k" data-group-id="1759418466-35">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="1759418466-36">[</span><span class="p" data-group-id="1759418466-37">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1759418466-37">]</span><span class="p" data-group-id="1759418466-36">]</span><span class="w"> </span><span class="k" data-group-id="1759418466-35">end</span><span class="p" data-group-id="1759418466-34">)</span><span class="w">
-  </span><span class="k" data-group-id="1759418466-32">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="1690787587-34">(</span><span class="k" data-group-id="1690787587-35">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="1690787587-36">[</span><span class="p" data-group-id="1690787587-37">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1690787587-37">]</span><span class="p" data-group-id="1690787587-36">]</span><span class="w"> </span><span class="k" data-group-id="1690787587-35">end</span><span class="p" data-group-id="1690787587-34">)</span><span class="w">
+  </span><span class="k" data-group-id="1690787587-32">end</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">decoder</span><span class="p" data-group-id="1759418466-38">(</span><span class="n">input_latent</span><span class="p" data-group-id="1759418466-38">)</span><span class="w"> </span><span class="k" data-group-id="1759418466-39">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">decoder</span><span class="p" data-group-id="1690787587-38">(</span><span class="n">input_latent</span><span class="p" data-group-id="1690787587-38">)</span><span class="w"> </span><span class="k" data-group-id="1690787587-39">do</span><span class="w">
     </span><span class="n">input_latent</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1759418466-40">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="1759418466-40">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1759418466-41">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="1759418466-41">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1759418466-42">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="1759418466-42">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1759418466-43">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="1759418466-43">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="1759418466-44">(</span><span class="p" data-group-id="1759418466-44">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1690787587-40">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_1&quot;</span><span class="p" data-group-id="1690787587-40">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1690787587-41">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_2&quot;</span><span class="p" data-group-id="1690787587-41">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1690787587-42">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_3&quot;</span><span class="p" data-group-id="1690787587-42">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1690787587-43">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p">,</span><span class="w"> </span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;decoder_layer_4&quot;</span><span class="p" data-group-id="1690787587-43">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">CustomLayer</span><span class="o">.</span><span class="n">scaling_layer</span><span class="p" data-group-id="1690787587-44">(</span><span class="p" data-group-id="1690787587-44">)</span><span class="w">
     </span><span class="c1"># Turn it back into a 28x28 single channel image</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="1759418466-45">(</span><span class="p" data-group-id="1759418466-46">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1759418466-46">}</span><span class="p" data-group-id="1759418466-45">)</span><span class="w">
-  </span><span class="k" data-group-id="1759418466-39">end</span><span class="w">
-
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">autoencoder</span><span class="p" data-group-id="1759418466-47">(</span><span class="p" data-group-id="1759418466-47">)</span><span class="w"> </span><span class="k" data-group-id="1759418466-48">do</span><span class="w">
-    </span><span class="n">encoder_partial</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder_partial</span><span class="p" data-group-id="1759418466-49">(</span><span class="p" data-group-id="1759418466-49">)</span><span class="w">
-    </span><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder</span><span class="p" data-group-id="1759418466-50">(</span><span class="p" data-group-id="1759418466-50">)</span><span class="w">
-    </span><span class="n">autoencoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">decoder</span><span class="p" data-group-id="1759418466-51">(</span><span class="n">encoder</span><span class="p" data-group-id="1759418466-51">)</span><span class="w">
-    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="1759418466-52">(</span><span class="p" data-group-id="1759418466-53">%{</span><span class="ss">mu_sigma</span><span class="p">:</span><span class="w"> </span><span class="n">encoder_partial</span><span class="p">,</span><span class="w"> </span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">autoencoder</span><span class="p" data-group-id="1759418466-53">}</span><span class="p" data-group-id="1759418466-52">)</span><span class="w">
-  </span><span class="k" data-group-id="1759418466-48">end</span><span class="w">
-</span><span class="k" data-group-id="1759418466-1">end</span></code></pre><p>There's a few interesting things going on here. First, since our model has become more complex, we've used a module to keep it organized. We also built a custom layer to do the sampling and output the sampled latent vector as well as the distribution parameters (mu and sigma).</p><p>Finally, we need the distribution itself so we can calculate the KL Divergence in our loss function. To make the model output the distribution parameters (mu and sigma), we use <a href="Axon.html#container/1"><code class="inline">Axon.container/1</code></a> to produce two outputs from our model instead of one. Now, instead of getting a tensor as an output, we'll get a map with the two tensors we need for our loss function.</p><p>Our loss function also has to be modified so be the sum of the KL divergence and MSE. Here's our custom loss function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLoss</span><span class="w"> </span><span class="k" data-group-id="1512482641-1">do</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="1690787587-45">(</span><span class="p" data-group-id="1690787587-46">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="1690787587-46">}</span><span class="p" data-group-id="1690787587-45">)</span><span class="w">
+  </span><span class="k" data-group-id="1690787587-39">end</span><span class="w">
+
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">autoencoder</span><span class="p" data-group-id="1690787587-47">(</span><span class="p" data-group-id="1690787587-47">)</span><span class="w"> </span><span class="k" data-group-id="1690787587-48">do</span><span class="w">
+    </span><span class="n">encoder_partial</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder_partial</span><span class="p" data-group-id="1690787587-49">(</span><span class="p" data-group-id="1690787587-49">)</span><span class="w">
+    </span><span class="n">encoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder</span><span class="p" data-group-id="1690787587-50">(</span><span class="p" data-group-id="1690787587-50">)</span><span class="w">
+    </span><span class="n">autoencoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">decoder</span><span class="p" data-group-id="1690787587-51">(</span><span class="n">encoder</span><span class="p" data-group-id="1690787587-51">)</span><span class="w">
+    </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="1690787587-52">(</span><span class="p" data-group-id="1690787587-53">%{</span><span class="ss">mu_sigma</span><span class="p">:</span><span class="w"> </span><span class="n">encoder_partial</span><span class="p">,</span><span class="w"> </span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">autoencoder</span><span class="p" data-group-id="1690787587-53">}</span><span class="p" data-group-id="1690787587-52">)</span><span class="w">
+  </span><span class="k" data-group-id="1690787587-48">end</span><span class="w">
+</span><span class="k" data-group-id="1690787587-1">end</span></code></pre><p>There's a few interesting things going on here. First, since our model has become more complex, we've used a module to keep it organized. We also built a custom layer to do the sampling and output the sampled latent vector as well as the distribution parameters (mu and sigma).</p><p>Finally, we need the distribution itself so we can calculate the KL Divergence in our loss function. To make the model output the distribution parameters (mu and sigma), we use <a href="Axon.html#container/1"><code class="inline">Axon.container/1</code></a> to produce two outputs from our model instead of one. Now, instead of getting a tensor as an output, we'll get a map with the two tensors we need for our loss function.</p><p>Our loss function also has to be modified so be the sum of the KL divergence and MSE. Here's our custom loss function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomLoss</span><span class="w"> </span><span class="k" data-group-id="3868231337-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">loss</span><span class="p" data-group-id="1512482641-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1512482641-3">%{</span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">reconstruction</span><span class="p">,</span><span class="w"> </span><span class="ss">mu_sigma</span><span class="p">:</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="1512482641-3">}</span><span class="p" data-group-id="1512482641-2">)</span><span class="w"> </span><span class="k" data-group-id="1512482641-4">do</span><span class="w">
-    </span><span class="n">mu</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="1512482641-5">[</span><span class="p" data-group-id="1512482641-6">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="1512482641-6">]</span><span class="p" data-group-id="1512482641-5">]</span><span class="w">
-    </span><span class="n">sigma</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="1512482641-7">[</span><span class="p" data-group-id="1512482641-8">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="1512482641-8">]</span><span class="p" data-group-id="1512482641-7">]</span><span class="w">
-    </span><span class="n">kld</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="1512482641-9">(</span><span class="o">-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">log</span><span class="p" data-group-id="1512482641-10">(</span><span class="n">sigma</span><span class="p" data-group-id="1512482641-10">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mf">0.5</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="1512482641-11">(</span><span class="n">sigma</span><span class="p">,</span><span class="w"> </span><span class="n">sigma</span><span class="p" data-group-id="1512482641-11">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="1512482641-12">(</span><span class="n">mu</span><span class="p">,</span><span class="w"> </span><span class="n">mu</span><span class="p" data-group-id="1512482641-12">)</span><span class="p" data-group-id="1512482641-9">)</span><span class="w">
-    </span><span class="n">kld</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mf">0.1</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="1512482641-13">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">reconstruction</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="1512482641-13">)</span><span class="w">
-  </span><span class="k" data-group-id="1512482641-4">end</span><span class="w">
-</span><span class="k" data-group-id="1512482641-1">end</span></code></pre><p>With all our pieces ready, we can pretty much use the same training loop as we did earlier. The only modifications needed are to account for the fact that the model outputs a map with two values instead of a single tensor and telling the trainer to use our custom loss.</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Vae</span><span class="o">.</span><span class="n">autoencoder</span><span class="p" data-group-id="6915671737-1">(</span><span class="p" data-group-id="6915671737-1">)</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">loss</span><span class="p" data-group-id="3868231337-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3868231337-3">%{</span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">reconstruction</span><span class="p">,</span><span class="w"> </span><span class="ss">mu_sigma</span><span class="p">:</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="3868231337-3">}</span><span class="p" data-group-id="3868231337-2">)</span><span class="w"> </span><span class="k" data-group-id="3868231337-4">do</span><span class="w">
+    </span><span class="n">mu</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="3868231337-5">[</span><span class="p" data-group-id="3868231337-6">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="3868231337-6">]</span><span class="p" data-group-id="3868231337-5">]</span><span class="w">
+    </span><span class="n">sigma</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">mu_sigma</span><span class="p" data-group-id="3868231337-7">[</span><span class="p" data-group-id="3868231337-8">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p" data-group-id="3868231337-8">]</span><span class="p" data-group-id="3868231337-7">]</span><span class="w">
+    </span><span class="n">kld</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="3868231337-9">(</span><span class="o">-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">log</span><span class="p" data-group-id="3868231337-10">(</span><span class="n">sigma</span><span class="p" data-group-id="3868231337-10">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mf">0.5</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3868231337-11">(</span><span class="n">sigma</span><span class="p">,</span><span class="w"> </span><span class="n">sigma</span><span class="p" data-group-id="3868231337-11">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3868231337-12">(</span><span class="n">mu</span><span class="p">,</span><span class="w"> </span><span class="n">mu</span><span class="p" data-group-id="3868231337-12">)</span><span class="p" data-group-id="3868231337-9">)</span><span class="w">
+    </span><span class="n">kld</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mf">0.1</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="nc">Axon.Losses</span><span class="o">.</span><span class="n">mean_squared_error</span><span class="p" data-group-id="3868231337-13">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">reconstruction</span><span class="p">,</span><span class="w"> </span><span class="ss">reduction</span><span class="p">:</span><span class="w"> </span><span class="ss">:sum</span><span class="p" data-group-id="3868231337-13">)</span><span class="w">
+  </span><span class="k" data-group-id="3868231337-4">end</span><span class="w">
+</span><span class="k" data-group-id="3868231337-1">end</span></code></pre><p>With all our pieces ready, we can pretty much use the same training loop as we did earlier. The only modifications needed are to account for the fact that the model outputs a map with two values instead of a single tensor and telling the trainer to use our custom loss.</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Vae</span><span class="o">.</span><span class="n">autoencoder</span><span class="p" data-group-id="3399870786-1">(</span><span class="p" data-group-id="3399870786-1">)</span><span class="w">
 
 </span><span class="c1"># A helper function to display the input and output side by side</span><span class="w">
-</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6915671737-2">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="6915671737-3">[</span><span class="p" data-group-id="6915671737-4">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="6915671737-4">]</span><span class="p" data-group-id="6915671737-3">]</span><span class="w">
-  </span><span class="p" data-group-id="6915671737-5">%{</span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="6915671737-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6915671737-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="6915671737-6">)</span><span class="w">
-  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="6915671737-7">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6915671737-8">[</span><span class="mi">0</span><span class="p" data-group-id="6915671737-8">]</span><span class="p" data-group-id="6915671737-7">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="6915671737-9">(</span><span class="p" data-group-id="6915671737-10">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="6915671737-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="6915671737-9">)</span><span class="w">
-</span><span class="k" data-group-id="6915671737-2">end</span><span class="w">
+</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3399870786-2">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="3399870786-3">[</span><span class="p" data-group-id="3399870786-4">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="3399870786-4">]</span><span class="p" data-group-id="3399870786-3">]</span><span class="w">
+  </span><span class="p" data-group-id="3399870786-5">%{</span><span class="ss">reconstruction</span><span class="p">:</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="3399870786-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="3399870786-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="3399870786-6">)</span><span class="w">
+  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="3399870786-7">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3399870786-8">[</span><span class="mi">0</span><span class="p" data-group-id="3399870786-8">]</span><span class="p" data-group-id="3399870786-7">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="3399870786-9">(</span><span class="p" data-group-id="3399870786-10">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="3399870786-10">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="3399870786-9">)</span><span class="w">
+</span><span class="k" data-group-id="3399870786-2">end</span><span class="w">
 
-</span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6915671737-11">(</span><span class="p" data-group-id="6915671737-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6915671737-12">(</span><span class="p" data-group-id="6915671737-12">)</span><span class="w">
+</span><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3399870786-11">(</span><span class="p" data-group-id="3399870786-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3399870786-12">(</span><span class="p" data-group-id="3399870786-12">)</span><span class="w">
 
-</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="6915671737-13">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3399870786-13">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="c1"># state.step_state[:model_state] contains the model params when this event is fired</span><span class="w">
-  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="6915671737-14">[</span><span class="ss">:model_state</span><span class="p" data-group-id="6915671737-14">]</span><span class="w">
-  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="6915671737-15">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="6915671737-16">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="6915671737-17">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="6915671737-17">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6915671737-16">)</span><span class="p" data-group-id="6915671737-15">)</span><span class="w">
-  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="6915671737-18">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="6915671737-18">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="6915671737-19">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="6915671737-19">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="6915671737-20">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="6915671737-20">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="6915671737-21">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="6915671737-22">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="6915671737-22">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="6915671737-23">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="6915671737-23">}</span><span class="s">&quot;</span><span class="p" data-group-id="6915671737-21">)</span><span class="w">
-  </span><span class="p" data-group-id="6915671737-24">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="6915671737-24">}</span><span class="w">
-</span><span class="k" data-group-id="6915671737-13">end</span><span class="w">
+  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="3399870786-14">[</span><span class="ss">:model_state</span><span class="p" data-group-id="3399870786-14">]</span><span class="w">
+  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="3399870786-15">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="3399870786-16">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="3399870786-17">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="3399870786-17">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3399870786-16">)</span><span class="p" data-group-id="3399870786-15">)</span><span class="w">
+  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="3399870786-18">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="3399870786-18">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="3399870786-19">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="3399870786-19">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3399870786-20">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="3399870786-20">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="3399870786-21">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="3399870786-22">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="3399870786-22">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="3399870786-23">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="3399870786-23">}</span><span class="s">&quot;</span><span class="p" data-group-id="3399870786-21">)</span><span class="w">
+  </span><span class="p" data-group-id="3399870786-24">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="3399870786-24">}</span><span class="w">
+</span><span class="k" data-group-id="3399870786-13">end</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6915671737-25">(</span><span class="o">&amp;</span><span class="nc">CustomLoss</span><span class="o">.</span><span class="n">loss</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="6915671737-26">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="6915671737-26">)</span><span class="p" data-group-id="6915671737-25">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">kino_early_stop</span><span class="p" data-group-id="6915671737-27">(</span><span class="p" data-group-id="6915671737-27">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="6915671737-28">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p" data-group-id="6915671737-28">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="6915671737-29">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="6915671737-29">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">plot_losses</span><span class="p" data-group-id="6915671737-30">(</span><span class="p" data-group-id="6915671737-30">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6915671737-31">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6915671737-32">%{</span><span class="p" data-group-id="6915671737-32">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">40</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6915671737-31">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3399870786-25">(</span><span class="o">&amp;</span><span class="nc">CustomLoss</span><span class="o">.</span><span class="n">loss</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="3399870786-26">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="3399870786-26">)</span><span class="p" data-group-id="3399870786-25">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">kino_early_stop</span><span class="p" data-group-id="3399870786-27">(</span><span class="p" data-group-id="3399870786-27">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="3399870786-28">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p" data-group-id="3399870786-28">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="3399870786-29">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="3399870786-29">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">KinoAxon</span><span class="o">.</span><span class="n">plot_losses</span><span class="p" data-group-id="3399870786-30">(</span><span class="p" data-group-id="3399870786-30">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3399870786-31">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3399870786-32">%{</span><span class="p" data-group-id="3399870786-32">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">40</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3399870786-31">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><p>Finally, we can try our interpolation again:</p><pre><code class="makeup elixir" translate="no"><span class="n">num_steps</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w">
 
 </span><span class="c1"># Get our latents, image at index 0 is our starting point</span><span class="w">
 </span><span class="c1"># index 1 is where we&#39;ll end</span><span class="w">
-</span><span class="n">latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5832717061-1">(</span><span class="nc">Vae</span><span class="o">.</span><span class="n">encoder</span><span class="p" data-group-id="5832717061-2">(</span><span class="p" data-group-id="5832717061-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="5832717061-3">[</span><span class="p" data-group-id="5832717061-4">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">1</span><span class="p" data-group-id="5832717061-4">]</span><span class="p" data-group-id="5832717061-3">]</span><span class="p" data-group-id="5832717061-1">)</span><span class="w">
+</span><span class="n">latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5583032951-1">(</span><span class="nc">Vae</span><span class="o">.</span><span class="n">encoder</span><span class="p" data-group-id="5583032951-2">(</span><span class="p" data-group-id="5583032951-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="5583032951-3">[</span><span class="p" data-group-id="5583032951-4">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">1</span><span class="p" data-group-id="5583032951-4">]</span><span class="p" data-group-id="5583032951-3">]</span><span class="p" data-group-id="5583032951-1">)</span><span class="w">
 </span><span class="c1"># Latents is a {2, 10} tensor</span><span class="w">
 </span><span class="c1"># The step we&#39;ll add to our latent to move it towards image[1]</span><span class="w">
-</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="5832717061-5">(</span><span class="n">latents</span><span class="p" data-group-id="5832717061-6">[</span><span class="mi">1</span><span class="p" data-group-id="5832717061-6">]</span><span class="p">,</span><span class="w"> </span><span class="n">latents</span><span class="p" data-group-id="5832717061-7">[</span><span class="mi">0</span><span class="p" data-group-id="5832717061-7">]</span><span class="p" data-group-id="5832717061-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5832717061-8">(</span><span class="n">num_steps</span><span class="p" data-group-id="5832717061-8">)</span><span class="w">
+</span><span class="n">step</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">subtract</span><span class="p" data-group-id="5583032951-5">(</span><span class="n">latents</span><span class="p" data-group-id="5583032951-6">[</span><span class="mi">1</span><span class="p" data-group-id="5583032951-6">]</span><span class="p">,</span><span class="w"> </span><span class="n">latents</span><span class="p" data-group-id="5583032951-7">[</span><span class="mi">0</span><span class="p" data-group-id="5583032951-7">]</span><span class="p" data-group-id="5583032951-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5583032951-8">(</span><span class="n">num_steps</span><span class="p" data-group-id="5583032951-8">)</span><span class="w">
 </span><span class="c1"># We can make a batch of all our new latents</span><span class="w">
-</span><span class="n">new_latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="5832717061-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5832717061-10">(</span><span class="p" data-group-id="5832717061-11">{</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5832717061-11">}</span><span class="p" data-group-id="5832717061-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="5832717061-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5832717061-12">(</span><span class="n">latents</span><span class="p" data-group-id="5832717061-13">[</span><span class="mi">0</span><span class="p" data-group-id="5832717061-13">]</span><span class="p" data-group-id="5832717061-12">)</span><span class="w">
+</span><span class="n">new_latents</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="5583032951-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5583032951-10">(</span><span class="p" data-group-id="5583032951-11">{</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5583032951-11">}</span><span class="p" data-group-id="5583032951-10">)</span><span class="p">,</span><span class="w"> </span><span class="n">step</span><span class="p" data-group-id="5583032951-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="5583032951-12">(</span><span class="n">latents</span><span class="p" data-group-id="5583032951-13">[</span><span class="mi">0</span><span class="p" data-group-id="5583032951-13">]</span><span class="p" data-group-id="5583032951-12">)</span><span class="w">
 
-</span><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5832717061-14">(</span><span class="s">&quot;latent&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5832717061-15">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5832717061-15">}</span><span class="p" data-group-id="5832717061-14">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vae</span><span class="o">.</span><span class="n">decoder</span><span class="p" data-group-id="5832717061-16">(</span><span class="p" data-group-id="5832717061-16">)</span><span class="w">
+</span><span class="n">decoder</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5583032951-14">(</span><span class="s">&quot;latent&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5583032951-15">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="5583032951-15">}</span><span class="p" data-group-id="5583032951-14">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vae</span><span class="o">.</span><span class="n">decoder</span><span class="p" data-group-id="5583032951-16">(</span><span class="p" data-group-id="5583032951-16">)</span><span class="w">
 
-</span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5832717061-17">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">new_latents</span><span class="p" data-group-id="5832717061-17">)</span><span class="w">
+</span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5583032951-17">(</span><span class="n">decoder</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">new_latents</span><span class="p" data-group-id="5583032951-17">)</span><span class="w">
 
 </span><span class="n">reconstructed_images</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5832717061-18">(</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5583032951-18">(</span><span class="w">
     </span><span class="n">reconstructed_images</span><span class="p">,</span><span class="w">
-    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5832717061-19">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="5832717061-19">)</span><span class="p">,</span><span class="w">
-    </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5832717061-20">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5832717061-20">]</span><span class="w">
-  </span><span class="p" data-group-id="5832717061-18">)</span><span class="w">
-
-</span><span class="nc">Stream</span><span class="o">.</span><span class="n">interval</span><span class="p" data-group-id="5832717061-21">(</span><span class="n">div</span><span class="p" data-group-id="5832717061-22">(</span><span class="mi">5000</span><span class="p">,</span><span class="w"> </span><span class="n">num_steps</span><span class="p" data-group-id="5832717061-22">)</span><span class="p" data-group-id="5832717061-21">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="5832717061-23">(</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5832717061-23">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="5832717061-24">(</span><span class="k" data-group-id="5832717061-25">fn</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5832717061-26">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="5832717061-27">[</span><span class="n">i</span><span class="p" data-group-id="5832717061-27">]</span><span class="p" data-group-id="5832717061-26">)</span><span class="w">
-</span><span class="k" data-group-id="5832717061-25">end</span><span class="p" data-group-id="5832717061-24">)</span></code></pre><p>Did you notice the difference? Every step in our interpolation looks similar to items in our dataset! This is the benefit of the VAE: we can generate new items by using random latents. In contrast, in the simple autoencoder, for the most part only latents we got from our encoder were likely to produce sensible outputs.</p>
+    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="5583032951-19">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="5583032951-19">)</span><span class="p">,</span><span class="w">
+    </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5583032951-20">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5583032951-20">]</span><span class="w">
+  </span><span class="p" data-group-id="5583032951-18">)</span><span class="w">
+
+</span><span class="nc">Stream</span><span class="o">.</span><span class="n">interval</span><span class="p" data-group-id="5583032951-21">(</span><span class="n">div</span><span class="p" data-group-id="5583032951-22">(</span><span class="mi">5000</span><span class="p">,</span><span class="w"> </span><span class="n">num_steps</span><span class="p" data-group-id="5583032951-22">)</span><span class="p" data-group-id="5583032951-21">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="5583032951-23">(</span><span class="n">num_steps</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5583032951-23">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="5583032951-24">(</span><span class="k" data-group-id="5583032951-25">fn</span><span class="w"> </span><span class="n">i</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Data</span><span class="o">.</span><span class="n">image_to_kino</span><span class="p" data-group-id="5583032951-26">(</span><span class="n">reconstructed_images</span><span class="p" data-group-id="5583032951-27">[</span><span class="n">i</span><span class="p" data-group-id="5583032951-27">]</span><span class="p" data-group-id="5583032951-26">)</span><span class="w">
+</span><span class="k" data-group-id="5583032951-25">end</span><span class="p" data-group-id="5583032951-24">)</span></code></pre><p>Did you notice the difference? Every step in our interpolation looks similar to items in our dataset! This is the benefit of the VAE: we can generate new items by using random latents. In contrast, in the simple autoencoder, for the most part only latents we got from our encoder were likely to produce sensible outputs.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/guides.html b/guides.html
index 8fe65737..060ece8d 100644
--- a/guides.html
+++ b/guides.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
diff --git a/horses_or_humans.html b/horses_or_humans.html
index 037a2053..4e73fcd3 100644
--- a/horses_or_humans.html
+++ b/horses_or_humans.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,17 +136,17 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="7432182795-1">(</span><span class="p" data-group-id="7432182795-2">[</span><span class="w">
-  </span><span class="p" data-group-id="7432182795-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.6.0&quot;</span><span class="p" data-group-id="7432182795-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7432182795-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.6.0&quot;</span><span class="p" data-group-id="7432182795-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7432182795-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.6.0&quot;</span><span class="p" data-group-id="7432182795-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7432182795-6">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.6.0&quot;</span><span class="p" data-group-id="7432182795-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7432182795-7">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.5&quot;</span><span class="p" data-group-id="7432182795-7">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="7432182795-8">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.11.0&quot;</span><span class="p" data-group-id="7432182795-8">}</span><span class="w">
-</span><span class="p" data-group-id="7432182795-2">]</span><span class="p" data-group-id="7432182795-1">)</span><span class="w">
-
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="7432182795-9">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="7432182795-9">)</span><span class="w">
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">global_default_options</span><span class="p" data-group-id="7432182795-10">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7432182795-10">)</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="5913376924-1">(</span><span class="p" data-group-id="5913376924-2">[</span><span class="w">
+  </span><span class="p" data-group-id="5913376924-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.6.0&quot;</span><span class="p" data-group-id="5913376924-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5913376924-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.6.0&quot;</span><span class="p" data-group-id="5913376924-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5913376924-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.6.0&quot;</span><span class="p" data-group-id="5913376924-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5913376924-6">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.6.0&quot;</span><span class="p" data-group-id="5913376924-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5913376924-7">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.5&quot;</span><span class="p" data-group-id="5913376924-7">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="5913376924-8">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.11.0&quot;</span><span class="p" data-group-id="5913376924-8">}</span><span class="w">
+</span><span class="p" data-group-id="5913376924-2">]</span><span class="p" data-group-id="5913376924-1">)</span><span class="w">
+
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="5913376924-9">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="5913376924-9">)</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">global_default_options</span><span class="p" data-group-id="5913376924-10">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5913376924-10">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -158,151 +158,151 @@ <h1>
   </a>
   <span class="text">Loading the data</span>
 </h2>
-<p>We will be using the <a href="https://laurencemoroney.com/datasets.html#horses-or-humans-dataset">Horses or Humans Dataset</a>. The dataset is available as a ZIP with image files, we will download it using <code class="inline">req</code>. Conveniently, <code class="inline">req</code> will unzip the files for us, we just need to convert the filenames from strings.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="2662939590-1">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">files</span><span class="p" data-group-id="2662939590-1">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="2662939590-2">(</span><span class="s">&quot;https://storage.googleapis.com/learning-datasets/horse-or-human.zip&quot;</span><span class="p" data-group-id="2662939590-2">)</span><span class="w">
+<p>We will be using the <a href="https://laurencemoroney.com/datasets.html#horses-or-humans-dataset">Horses or Humans Dataset</a>. The dataset is available as a ZIP with image files, we will download it using <code class="inline">req</code>. Conveniently, <code class="inline">req</code> will unzip the files for us, we just need to convert the filenames from strings.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8461351465-1">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">files</span><span class="p" data-group-id="8461351465-1">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="8461351465-2">(</span><span class="s">&quot;https://storage.googleapis.com/learning-datasets/horse-or-human.zip&quot;</span><span class="p" data-group-id="8461351465-2">)</span><span class="w">
 
-</span><span class="n">files</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="p" data-group-id="2662939590-3">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="2662939590-3">}</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2662939590-4">{</span><span class="nc">List</span><span class="o">.</span><span class="n">to_string</span><span class="p" data-group-id="2662939590-5">(</span><span class="n">name</span><span class="p" data-group-id="2662939590-5">)</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="2662939590-4">}</span></code></pre><h3 id="note-on-batching" class="section-heading">
+</span><span class="n">files</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="p" data-group-id="8461351465-3">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="8461351465-3">}</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8461351465-4">{</span><span class="nc">List</span><span class="o">.</span><span class="n">to_string</span><span class="p" data-group-id="8461351465-5">(</span><span class="n">name</span><span class="p" data-group-id="8461351465-5">)</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="8461351465-4">}</span></code></pre><h3 id="note-on-batching" class="section-heading">
   <a href="#note-on-batching" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Note on batching</span>
 </h3>
 <p>We need to know how many images to include in a batch. A batch is a group of images to load into the GPU at a time. If the batch size is too big for your GPU, it will run out of memory, in such case you can reduce the batch size. It is generally optimal to utilize almost all of the GPU memory during training. It will take more time to train with a lower batch size.</p><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">32</span><span class="w">
-</span><span class="n">batches_per_epoch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">div</span><span class="p" data-group-id="5460600390-1">(</span><span class="n">length</span><span class="p" data-group-id="5460600390-2">(</span><span class="n">files</span><span class="p" data-group-id="5460600390-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="5460600390-1">)</span></code></pre><h2 id="a-look-at-the-data" class="section-heading">
+</span><span class="n">batches_per_epoch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">div</span><span class="p" data-group-id="2316781303-1">(</span><span class="n">length</span><span class="p" data-group-id="2316781303-2">(</span><span class="n">files</span><span class="p" data-group-id="2316781303-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="2316781303-1">)</span></code></pre><h2 id="a-look-at-the-data" class="section-heading">
   <a href="#a-look-at-the-data" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">A look at the data</span>
 </h2>
-<p>We'll have a really quick look at our data. Let's see what we are dealing with:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3054869495-1">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="3054869495-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="3054869495-2">(</span><span class="n">files</span><span class="p" data-group-id="3054869495-2">)</span><span class="w">
-</span><span class="nc">Kino.Markdown</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3054869495-3">(</span><span class="n">name</span><span class="p" data-group-id="3054869495-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3054869495-4">(</span><span class="p" data-group-id="3054869495-4">)</span><span class="w">
-</span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3054869495-5">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="3054869495-5">)</span></code></pre><p>Reevaluate the cell a couple times to view different images. Note that the file names are either <code class="inline">horse[N]-[M].png</code> or <code class="inline">human[N]-[M].png</code>, so we can derive the expected class from that.</p><!-- livebook:{"break_markdown":true} --><p>While we are at it, look at this beautiful animation:</p><pre><code class="makeup elixir" translate="no"><span class="n">names_to_animate</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0346901815-1">[</span><span class="s">&quot;horse01&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;horse05&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;human01&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;human05&quot;</span><span class="p" data-group-id="0346901815-1">]</span><span class="w">
+<p>We'll have a really quick look at our data. Let's see what we are dealing with:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8479936194-1">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="8479936194-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="8479936194-2">(</span><span class="n">files</span><span class="p" data-group-id="8479936194-2">)</span><span class="w">
+</span><span class="nc">Kino.Markdown</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="8479936194-3">(</span><span class="n">name</span><span class="p" data-group-id="8479936194-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="8479936194-4">(</span><span class="p" data-group-id="8479936194-4">)</span><span class="w">
+</span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="8479936194-5">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="8479936194-5">)</span></code></pre><p>Reevaluate the cell a couple times to view different images. Note that the file names are either <code class="inline">horse[N]-[M].png</code> or <code class="inline">human[N]-[M].png</code>, so we can derive the expected class from that.</p><!-- livebook:{"break_markdown":true} --><p>While we are at it, look at this beautiful animation:</p><pre><code class="makeup elixir" translate="no"><span class="n">names_to_animate</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="9688657807-1">[</span><span class="s">&quot;horse01&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;horse05&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;human01&quot;</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;human05&quot;</span><span class="p" data-group-id="9688657807-1">]</span><span class="w">
 
 </span><span class="n">images_to_animate</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="k">for</span><span class="w"> </span><span class="p" data-group-id="0346901815-2">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="0346901815-2">}</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">any?</span><span class="p" data-group-id="0346901815-3">(</span><span class="n">names_to_animate</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">String</span><span class="o">.</span><span class="n">contains?</span><span class="p" data-group-id="0346901815-4">(</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="0346901815-4">)</span><span class="p" data-group-id="0346901815-3">)</span><span class="w"> </span><span class="k" data-group-id="0346901815-5">do</span><span class="w">
-    </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="0346901815-6">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="0346901815-6">)</span><span class="w">
-  </span><span class="k" data-group-id="0346901815-5">end</span><span class="w">
-
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="0346901815-7">(</span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="n">images_to_animate</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="0346901815-8">fn</span><span class="w">
-  </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0346901815-9">[</span><span class="n">image</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">images</span><span class="p" data-group-id="0346901815-9">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="0346901815-10">{</span><span class="ss">:cont</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">images</span><span class="p" data-group-id="0346901815-10">}</span><span class="w">
-  </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0346901815-11">[</span><span class="p" data-group-id="0346901815-11">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="ss">:halt</span><span class="w">
-</span><span class="k" data-group-id="0346901815-8">end</span><span class="p" data-group-id="0346901815-7">)</span></code></pre><p>How many images are there?</p><pre><code class="makeup elixir" translate="no"><span class="n">length</span><span class="p" data-group-id="0896164714-1">(</span><span class="n">files</span><span class="p" data-group-id="0896164714-1">)</span></code></pre><p>How many images will not be used for training? The remainder of the integer division will be ignored.</p><pre><code class="makeup elixir" translate="no"><span class="n">files</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">length</span><span class="p" data-group-id="3679148675-1">(</span><span class="p" data-group-id="3679148675-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">rem</span><span class="p" data-group-id="3679148675-2">(</span><span class="n">batch_size</span><span class="p" data-group-id="3679148675-2">)</span></code></pre><h2 id="data-processing" class="section-heading">
+  </span><span class="k">for</span><span class="w"> </span><span class="p" data-group-id="9688657807-2">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="9688657807-2">}</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">any?</span><span class="p" data-group-id="9688657807-3">(</span><span class="n">names_to_animate</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">String</span><span class="o">.</span><span class="n">contains?</span><span class="p" data-group-id="9688657807-4">(</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="9688657807-4">)</span><span class="p" data-group-id="9688657807-3">)</span><span class="w"> </span><span class="k" data-group-id="9688657807-5">do</span><span class="w">
+    </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="9688657807-6">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="9688657807-6">)</span><span class="w">
+  </span><span class="k" data-group-id="9688657807-5">end</span><span class="w">
+
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="9688657807-7">(</span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="n">images_to_animate</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="9688657807-8">fn</span><span class="w">
+  </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9688657807-9">[</span><span class="n">image</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">images</span><span class="p" data-group-id="9688657807-9">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="9688657807-10">{</span><span class="ss">:cont</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">images</span><span class="p" data-group-id="9688657807-10">}</span><span class="w">
+  </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9688657807-11">[</span><span class="p" data-group-id="9688657807-11">]</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="ss">:halt</span><span class="w">
+</span><span class="k" data-group-id="9688657807-8">end</span><span class="p" data-group-id="9688657807-7">)</span></code></pre><p>How many images are there?</p><pre><code class="makeup elixir" translate="no"><span class="n">length</span><span class="p" data-group-id="6574551686-1">(</span><span class="n">files</span><span class="p" data-group-id="6574551686-1">)</span></code></pre><p>How many images will not be used for training? The remainder of the integer division will be ignored.</p><pre><code class="makeup elixir" translate="no"><span class="n">files</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">length</span><span class="p" data-group-id="6845182860-1">(</span><span class="p" data-group-id="6845182860-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="n">rem</span><span class="p" data-group-id="6845182860-2">(</span><span class="n">batch_size</span><span class="p" data-group-id="6845182860-2">)</span></code></pre><h2 id="data-processing" class="section-heading">
   <a href="#data-processing" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Data processing</span>
 </h2>
-<p>First, we need to preprocess the data for our CNN. At the beginning of the process, we chunk images into batches. Then, we use the <code class="inline">parse_file/1</code> function to load images and label them accurately. Finally, we &quot;augment&quot; the input, which means that we normalize data and flip the images along one of the axes. The last procedure helps a neural network to make predictions regardless of the orientation of the image.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">HorsesHumans.DataProcessing</span><span class="w"> </span><span class="k" data-group-id="2504040385-1">do</span><span class="w">
+<p>First, we need to preprocess the data for our CNN. At the beginning of the process, we chunk images into batches. Then, we use the <code class="inline">parse_file/1</code> function to load images and label them accurately. Finally, we &quot;augment&quot; the input, which means that we normalize data and flip the images along one of the axes. The last procedure helps a neural network to make predictions regardless of the orientation of the image.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">HorsesHumans.DataProcessing</span><span class="w"> </span><span class="k" data-group-id="7196555555-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">data_stream</span><span class="p" data-group-id="2504040385-2">(</span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="2504040385-2">)</span><span class="w"> </span><span class="k" data-group-id="2504040385-3">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">data_stream</span><span class="p" data-group-id="7196555555-2">(</span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="7196555555-2">)</span><span class="w"> </span><span class="k" data-group-id="7196555555-3">do</span><span class="w">
     </span><span class="n">files</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">shuffle</span><span class="p" data-group-id="2504040385-4">(</span><span class="p" data-group-id="2504040385-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">chunk_every</span><span class="p" data-group-id="2504040385-5">(</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="ss">:discard</span><span class="p" data-group-id="2504040385-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Task</span><span class="o">.</span><span class="n">async_stream</span><span class="p" data-group-id="2504040385-6">(</span><span class="w">
-      </span><span class="k" data-group-id="2504040385-7">fn</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-        </span><span class="p" data-group-id="2504040385-8">{</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="2504040385-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="2504040385-9">(</span><span class="o">&amp;</span><span class="n">parse_file</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2504040385-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">unzip</span><span class="p" data-group-id="2504040385-10">(</span><span class="p" data-group-id="2504040385-10">)</span><span class="w">
-        </span><span class="p" data-group-id="2504040385-11">{</span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="2504040385-12">(</span><span class="n">images</span><span class="p" data-group-id="2504040385-12">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="2504040385-13">(</span><span class="n">labels</span><span class="p" data-group-id="2504040385-13">)</span><span class="p" data-group-id="2504040385-11">}</span><span class="w">
-      </span><span class="k" data-group-id="2504040385-7">end</span><span class="p">,</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">shuffle</span><span class="p" data-group-id="7196555555-4">(</span><span class="p" data-group-id="7196555555-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">chunk_every</span><span class="p" data-group-id="7196555555-5">(</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="ss">:discard</span><span class="p" data-group-id="7196555555-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Task</span><span class="o">.</span><span class="n">async_stream</span><span class="p" data-group-id="7196555555-6">(</span><span class="w">
+      </span><span class="k" data-group-id="7196555555-7">fn</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+        </span><span class="p" data-group-id="7196555555-8">{</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="7196555555-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">batch</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7196555555-9">(</span><span class="o">&amp;</span><span class="n">parse_file</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7196555555-9">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">unzip</span><span class="p" data-group-id="7196555555-10">(</span><span class="p" data-group-id="7196555555-10">)</span><span class="w">
+        </span><span class="p" data-group-id="7196555555-11">{</span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="7196555555-12">(</span><span class="n">images</span><span class="p" data-group-id="7196555555-12">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="7196555555-13">(</span><span class="n">labels</span><span class="p" data-group-id="7196555555-13">)</span><span class="p" data-group-id="7196555555-11">}</span><span class="w">
+      </span><span class="k" data-group-id="7196555555-7">end</span><span class="p">,</span><span class="w">
       </span><span class="ss">timeout</span><span class="p">:</span><span class="w"> </span><span class="ss">:infinity</span><span class="w">
-    </span><span class="p" data-group-id="2504040385-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="2504040385-14">(</span><span class="k" data-group-id="2504040385-15">fn</span><span class="w"> </span><span class="p" data-group-id="2504040385-16">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2504040385-17">{</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="2504040385-17">}</span><span class="p" data-group-id="2504040385-16">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="2504040385-18">{</span><span class="n">augment</span><span class="p" data-group-id="2504040385-19">(</span><span class="n">images</span><span class="p" data-group-id="2504040385-19">)</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="2504040385-18">}</span><span class="w"> </span><span class="k" data-group-id="2504040385-15">end</span><span class="p" data-group-id="2504040385-14">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">cycle</span><span class="p" data-group-id="2504040385-20">(</span><span class="p" data-group-id="2504040385-20">)</span><span class="w">
-  </span><span class="k" data-group-id="2504040385-3">end</span><span class="w">
+    </span><span class="p" data-group-id="7196555555-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7196555555-14">(</span><span class="k" data-group-id="7196555555-15">fn</span><span class="w"> </span><span class="p" data-group-id="7196555555-16">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7196555555-17">{</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="7196555555-17">}</span><span class="p" data-group-id="7196555555-16">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="p" data-group-id="7196555555-18">{</span><span class="n">augment</span><span class="p" data-group-id="7196555555-19">(</span><span class="n">images</span><span class="p" data-group-id="7196555555-19">)</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="p" data-group-id="7196555555-18">}</span><span class="w"> </span><span class="k" data-group-id="7196555555-15">end</span><span class="p" data-group-id="7196555555-14">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">cycle</span><span class="p" data-group-id="7196555555-20">(</span><span class="p" data-group-id="7196555555-20">)</span><span class="w">
+  </span><span class="k" data-group-id="7196555555-3">end</span><span class="w">
 
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">parse_file</span><span class="p" data-group-id="2504040385-21">(</span><span class="p" data-group-id="2504040385-22">{</span><span class="n">filename</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="2504040385-22">}</span><span class="p" data-group-id="2504040385-21">)</span><span class="w"> </span><span class="k" data-group-id="2504040385-23">do</span><span class="w">
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">parse_file</span><span class="p" data-group-id="7196555555-21">(</span><span class="p" data-group-id="7196555555-22">{</span><span class="n">filename</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="7196555555-22">}</span><span class="p" data-group-id="7196555555-21">)</span><span class="w"> </span><span class="k" data-group-id="7196555555-23">do</span><span class="w">
     </span><span class="n">label</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="k">if</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">starts_with?</span><span class="p" data-group-id="2504040385-24">(</span><span class="n">filename</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;horses/&quot;</span><span class="p" data-group-id="2504040385-24">)</span><span class="p">,</span><span class="w">
-        </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2504040385-25">(</span><span class="p" data-group-id="2504040385-26">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2504040385-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2504040385-27">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="2504040385-27">}</span><span class="p" data-group-id="2504040385-25">)</span><span class="p">,</span><span class="w">
-        </span><span class="ss">else</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2504040385-28">(</span><span class="p" data-group-id="2504040385-29">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2504040385-29">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2504040385-30">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="2504040385-30">}</span><span class="p" data-group-id="2504040385-28">)</span><span class="w">
+      </span><span class="k">if</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">starts_with?</span><span class="p" data-group-id="7196555555-24">(</span><span class="n">filename</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;horses/&quot;</span><span class="p" data-group-id="7196555555-24">)</span><span class="p">,</span><span class="w">
+        </span><span class="ss">do</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7196555555-25">(</span><span class="p" data-group-id="7196555555-26">[</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7196555555-26">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196555555-27">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7196555555-27">}</span><span class="p" data-group-id="7196555555-25">)</span><span class="p">,</span><span class="w">
+        </span><span class="ss">else</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7196555555-28">(</span><span class="p" data-group-id="7196555555-29">[</span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7196555555-29">]</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196555555-30">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7196555555-30">}</span><span class="p" data-group-id="7196555555-28">)</span><span class="w">
 
-    </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">binary</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_binary!</span><span class="p" data-group-id="2504040385-31">(</span><span class="p" data-group-id="2504040385-31">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="p" data-group-id="2504040385-32">(</span><span class="p" data-group-id="2504040385-32">)</span><span class="w">
+    </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">binary</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_binary!</span><span class="p" data-group-id="7196555555-31">(</span><span class="p" data-group-id="7196555555-31">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="p" data-group-id="7196555555-32">(</span><span class="p" data-group-id="7196555555-32">)</span><span class="w">
 
-    </span><span class="p" data-group-id="2504040385-33">{</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">label</span><span class="p" data-group-id="2504040385-33">}</span><span class="w">
-  </span><span class="k" data-group-id="2504040385-23">end</span><span class="w">
+    </span><span class="p" data-group-id="7196555555-33">{</span><span class="n">image</span><span class="p">,</span><span class="w"> </span><span class="n">label</span><span class="p" data-group-id="7196555555-33">}</span><span class="w">
+  </span><span class="k" data-group-id="7196555555-23">end</span><span class="w">
 
-  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">augment</span><span class="p" data-group-id="2504040385-34">(</span><span class="n">images</span><span class="p" data-group-id="2504040385-34">)</span><span class="w"> </span><span class="k" data-group-id="2504040385-35">do</span><span class="w">
+  </span><span class="kd">defnp</span><span class="w"> </span><span class="nf">augment</span><span class="p" data-group-id="7196555555-34">(</span><span class="n">images</span><span class="p" data-group-id="7196555555-34">)</span><span class="w"> </span><span class="k" data-group-id="7196555555-35">do</span><span class="w">
     </span><span class="c1"># Normalize</span><span class="w">
     </span><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">images</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="mf">255.0</span><span class="w">
 
     </span><span class="c1"># Optional vertical/horizontal flip</span><span class="w">
-    </span><span class="p" data-group-id="2504040385-36">{</span><span class="w"> </span><span class="n">u</span><span class="p">,</span><span class="w"> </span><span class="c">_new_key</span><span class="w"> </span><span class="p" data-group-id="2504040385-36">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2504040385-37">(</span><span class="mi">1987</span><span class="p" data-group-id="2504040385-37">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="2504040385-38">(</span><span class="p" data-group-id="2504040385-38">)</span><span class="w">
+    </span><span class="p" data-group-id="7196555555-36">{</span><span class="w"> </span><span class="n">u</span><span class="p">,</span><span class="w"> </span><span class="c">_new_key</span><span class="w"> </span><span class="p" data-group-id="7196555555-36">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7196555555-37">(</span><span class="mi">1987</span><span class="p" data-group-id="7196555555-37">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="7196555555-38">(</span><span class="p" data-group-id="7196555555-38">)</span><span class="w">
 
-    </span><span class="k">cond</span><span class="w"> </span><span class="k" data-group-id="2504040385-39">do</span><span class="w">
+    </span><span class="k">cond</span><span class="w"> </span><span class="k" data-group-id="7196555555-39">do</span><span class="w">
       </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.25</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">images</span><span class="w">
-      </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.5</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="2504040385-40">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2504040385-41">[</span><span class="mi">2</span><span class="p" data-group-id="2504040385-41">]</span><span class="p" data-group-id="2504040385-40">)</span><span class="w">
-      </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.75</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="2504040385-42">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2504040385-43">[</span><span class="mi">3</span><span class="p" data-group-id="2504040385-43">]</span><span class="p" data-group-id="2504040385-42">)</span><span class="w">
-      </span><span class="no">true</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="2504040385-44">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2504040385-45">[</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="2504040385-45">]</span><span class="p" data-group-id="2504040385-44">)</span><span class="w">
-    </span><span class="k" data-group-id="2504040385-39">end</span><span class="w">
-  </span><span class="k" data-group-id="2504040385-35">end</span><span class="w">
-</span><span class="k" data-group-id="2504040385-1">end</span></code></pre><h2 id="building-the-model" class="section-heading">
+      </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.5</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="7196555555-40">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196555555-41">[</span><span class="mi">2</span><span class="p" data-group-id="7196555555-41">]</span><span class="p" data-group-id="7196555555-40">)</span><span class="w">
+      </span><span class="n">u</span><span class="w"> </span><span class="o">&lt;</span><span class="w"> </span><span class="mf">0.75</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="7196555555-42">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196555555-43">[</span><span class="mi">3</span><span class="p" data-group-id="7196555555-43">]</span><span class="p" data-group-id="7196555555-42">)</span><span class="w">
+      </span><span class="no">true</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reverse</span><span class="p" data-group-id="7196555555-44">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7196555555-45">[</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="7196555555-45">]</span><span class="p" data-group-id="7196555555-44">)</span><span class="w">
+    </span><span class="k" data-group-id="7196555555-39">end</span><span class="w">
+  </span><span class="k" data-group-id="7196555555-35">end</span><span class="w">
+</span><span class="k" data-group-id="7196555555-1">end</span></code></pre><h2 id="building-the-model" class="section-heading">
   <a href="#building-the-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Building the model</span>
 </h2>
 <p>The next step is creating our model. In this notebook, we choose the classic Convolutional Neural Network architecture. Let's dive in to the core components of a CNN.</p><!-- livebook:{"break_markdown":true} --><p><a href="Axon.html#conv/3"><code class="inline">Axon.conv/3</code></a> adds a convolutional layer, which is at the core of a CNN. A convolutional layer applies a filter function throughout the image, sliding a window with shape <code class="inline">:kernel_size</code>. As opposed to dense layers, a convolutional layer exploits weight sharing to better model data where locality matters. This feature is a natural fit for images.</p><!-- livebook:{"break_markdown":true} --><table><thead><tr><th style="text-align: center;"><img src="https://miroslawmamczur.pl/wp-content/uploads/2021/03/06.gif" alt=""/></th></tr></thead><tbody><tr><td style="text-align: center;">Figure 1: A step-by-step visualization of a convolution layer for <code class="inline">kernel_size: {3, 3}</code></td></tr></tbody></table><!-- livebook:{"break_markdown":true} --><p><a href="Axon.html#max_pool/2"><code class="inline">Axon.max_pool/2</code></a> adds a downscaling operation that takes the maximum value from a subtensor according to <code class="inline">:kernel_size</code>.</p><!-- livebook:{"break_markdown":true} --><table><thead><tr><th style="text-align: center;"><img src="https://production-media.paperswithcode.com/methods/MaxpoolSample2.png" alt=""/></th></tr></thead><tbody><tr><td style="text-align: center;">Figure 2: Max pooling operation for <code class="inline">kernel_size: {2, 2}</code></td></tr></tbody></table><!-- livebook:{"break_markdown":true} --><p><a href="Axon.html#dropout/2"><code class="inline">Axon.dropout/2</code></a> and <a href="Axon.html#spatial_dropout/2"><code class="inline">Axon.spatial_dropout/2</code></a> add dropout layers which prevent a neural network from overfitting. Standard dropout drops a given rate of randomly chosen neurons during the training process. On the other hand, spatial dropout gets rid of whole feature maps. The graphical difference between dropout and spatial dropout is presented in a picture below.</p><!-- livebook:{"break_markdown":true} --><table><thead><tr><th style="text-align: center;"><img src="https://miro.medium.com/max/1400/1*KkqxjvXTIV_b365B41ltfg.png" alt=""/></th></tr></thead><tbody><tr><td style="text-align: center;">Figure 3: The difference between standard dropout and spatial dropout</td></tr></tbody></table><!-- livebook:{"break_markdown":true} --><p>Knowing the relevant building blocks, let's build our network! It will have a convolutional part, composed of convolutional and pooling layers, this part should capture the spatial features of an image. Then at the end, we will add a dense layer with 512 neurons fed with all the spatial features, and a final two-neuron layer for as our classification output.</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9610721163-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="9610721163-2">}</span><span class="p" data-group-id="9610721163-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9610721163-3">(</span><span class="mi">16</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-4">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9610721163-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9610721163-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9610721163-5">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-6">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9610721163-6">}</span><span class="p" data-group-id="9610721163-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9610721163-7">(</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-8">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9610721163-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9610721163-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">spatial_dropout</span><span class="p" data-group-id="9610721163-9">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="9610721163-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9610721163-10">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-11">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9610721163-11">}</span><span class="p" data-group-id="9610721163-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9610721163-12">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-13">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9610721163-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9610721163-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">spatial_dropout</span><span class="p" data-group-id="9610721163-14">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="9610721163-14">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9610721163-15">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9610721163-16">}</span><span class="p" data-group-id="9610721163-15">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9610721163-17">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-18">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9610721163-18">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9610721163-17">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9610721163-19">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-20">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9610721163-20">}</span><span class="p" data-group-id="9610721163-19">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="9610721163-21">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-22">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="9610721163-22">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9610721163-21">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="9610721163-23">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9610721163-24">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="9610721163-24">}</span><span class="p" data-group-id="9610721163-23">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="9610721163-25">(</span><span class="p" data-group-id="9610721163-25">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="9610721163-26">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="9610721163-26">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9610721163-27">(</span><span class="mi">512</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9610721163-27">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9610721163-28">(</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="9610721163-28">)</span></code></pre><h2 id="training-the-model" class="section-heading">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6622172563-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="6622172563-2">}</span><span class="p" data-group-id="6622172563-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="6622172563-3">(</span><span class="mi">16</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-4">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6622172563-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6622172563-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="6622172563-5">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-6">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6622172563-6">}</span><span class="p" data-group-id="6622172563-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="6622172563-7">(</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-8">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6622172563-8">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6622172563-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">spatial_dropout</span><span class="p" data-group-id="6622172563-9">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="6622172563-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="6622172563-10">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-11">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6622172563-11">}</span><span class="p" data-group-id="6622172563-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="6622172563-12">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-13">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6622172563-13">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6622172563-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">spatial_dropout</span><span class="p" data-group-id="6622172563-14">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="6622172563-14">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="6622172563-15">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6622172563-16">}</span><span class="p" data-group-id="6622172563-15">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="6622172563-17">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-18">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6622172563-18">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6622172563-17">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="6622172563-19">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-20">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6622172563-20">}</span><span class="p" data-group-id="6622172563-19">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">conv</span><span class="p" data-group-id="6622172563-21">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-22">{</span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="6622172563-22">}</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6622172563-21">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">max_pool</span><span class="p" data-group-id="6622172563-23">(</span><span class="ss">kernel_size</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6622172563-24">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6622172563-24">}</span><span class="p" data-group-id="6622172563-23">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="6622172563-25">(</span><span class="p" data-group-id="6622172563-25">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="6622172563-26">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="6622172563-26">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6622172563-27">(</span><span class="mi">512</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="6622172563-27">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6622172563-28">(</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="6622172563-28">)</span></code></pre><h2 id="training-the-model" class="section-heading">
   <a href="#training-the-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Training the model</span>
 </h2>
-<p>It's time to train our model. We specify the loss, optimizer and choose accuracy as our metric. We also set <code class="inline">log: 1</code> to frequently update the training progress. We manually specify the number of iterations, such that each epoch goes through all of the baches once.</p><pre><code class="makeup elixir" translate="no"><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">HorsesHumans.DataProcessing</span><span class="o">.</span><span class="n">data_stream</span><span class="p" data-group-id="1488770797-1">(</span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="1488770797-1">)</span><span class="w">
+<p>It's time to train our model. We specify the loss, optimizer and choose accuracy as our metric. We also set <code class="inline">log: 1</code> to frequently update the training progress. We manually specify the number of iterations, such that each epoch goes through all of the baches once.</p><pre><code class="makeup elixir" translate="no"><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">HorsesHumans.DataProcessing</span><span class="o">.</span><span class="n">data_stream</span><span class="p" data-group-id="9628173741-1">(</span><span class="n">files</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="9628173741-1">)</span><span class="w">
 
-</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="1488770797-2">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-4</span><span class="p" data-group-id="1488770797-2">)</span><span class="w">
+</span><span class="n">optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="9628173741-2">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">1.0e-4</span><span class="p" data-group-id="9628173741-2">)</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1488770797-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1488770797-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1488770797-4">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="1488770797-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1488770797-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1488770797-6">%{</span><span class="p" data-group-id="1488770797-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="n">batches_per_epoch</span><span class="p" data-group-id="1488770797-5">)</span></code></pre><!-- livebook:{"branch_parent_index":5} --><h2 id="extra-gradient-centralization" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9628173741-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9628173741-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9628173741-4">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="9628173741-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9628173741-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9628173741-6">%{</span><span class="p" data-group-id="9628173741-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="n">batches_per_epoch</span><span class="p" data-group-id="9628173741-5">)</span></code></pre><!-- livebook:{"branch_parent_index":5} --><h2 id="extra-gradient-centralization" class="section-heading">
   <a href="#extra-gradient-centralization" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Extra: gradient centralization</span>
 </h2>
-<p>We can improve the training by applying gradient centralization. It is a technique with a similar purpose to batch normalization. For each loss gradient, we subtract a mean value to have a gradient with mean equal to zero. This process prevents gradients from exploding.</p><pre><code class="makeup elixir" translate="no"><span class="n">centralized_optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Polaris.Updates</span><span class="o">.</span><span class="n">compose</span><span class="p" data-group-id="5790210148-1">(</span><span class="nc">Polaris.Updates</span><span class="o">.</span><span class="n">centralize</span><span class="p" data-group-id="5790210148-2">(</span><span class="p" data-group-id="5790210148-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="5790210148-1">)</span><span class="w">
+<p>We can improve the training by applying gradient centralization. It is a technique with a similar purpose to batch normalization. For each loss gradient, we subtract a mean value to have a gradient with mean equal to zero. This process prevents gradients from exploding.</p><pre><code class="makeup elixir" translate="no"><span class="n">centralized_optimizer</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Polaris.Updates</span><span class="o">.</span><span class="n">compose</span><span class="p" data-group-id="3990363618-1">(</span><span class="nc">Polaris.Updates</span><span class="o">.</span><span class="n">centralize</span><span class="p" data-group-id="3990363618-2">(</span><span class="p" data-group-id="3990363618-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">optimizer</span><span class="p" data-group-id="3990363618-1">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5790210148-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="n">centralized_optimizer</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5790210148-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5790210148-4">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="5790210148-4">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5790210148-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5790210148-6">%{</span><span class="p" data-group-id="5790210148-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="n">batches_per_epoch</span><span class="p" data-group-id="5790210148-5">)</span></code></pre><h2 id="inference" class="section-heading">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3990363618-3">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="n">centralized_optimizer</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3990363618-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="3990363618-4">(</span><span class="ss">:accuracy</span><span class="p" data-group-id="3990363618-4">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3990363618-5">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3990363618-6">%{</span><span class="p" data-group-id="3990363618-6">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="n">batches_per_epoch</span><span class="p" data-group-id="3990363618-5">)</span></code></pre><h2 id="inference" class="section-heading">
   <a href="#inference" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Inference</span>
 </h2>
-<p>We can now use our trained model, let's try a couple examples.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3648043903-1">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="3648043903-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="3648043903-2">(</span><span class="n">files</span><span class="p" data-group-id="3648043903-2">)</span><span class="w">
-</span><span class="nc">Kino.Markdown</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3648043903-3">(</span><span class="n">name</span><span class="p" data-group-id="3648043903-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3648043903-4">(</span><span class="p" data-group-id="3648043903-4">)</span><span class="w">
-</span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3648043903-5">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="3648043903-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3648043903-6">(</span><span class="p" data-group-id="3648043903-6">)</span><span class="w">
+<p>We can now use our trained model, let's try a couple examples.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8760639530-1">{</span><span class="n">name</span><span class="p">,</span><span class="w"> </span><span class="n">binary</span><span class="p" data-group-id="8760639530-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="8760639530-2">(</span><span class="n">files</span><span class="p" data-group-id="8760639530-2">)</span><span class="w">
+</span><span class="nc">Kino.Markdown</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="8760639530-3">(</span><span class="n">name</span><span class="p" data-group-id="8760639530-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="8760639530-4">(</span><span class="p" data-group-id="8760639530-4">)</span><span class="w">
+</span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="8760639530-5">(</span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">:png</span><span class="p" data-group-id="8760639530-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="8760639530-6">(</span><span class="p" data-group-id="8760639530-6">)</span><span class="w">
 
 </span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">binary</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_binary!</span><span class="p" data-group-id="3648043903-7">(</span><span class="p" data-group-id="3648043903-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="p" data-group-id="3648043903-8">(</span><span class="p" data-group-id="3648043903-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">new_axis</span><span class="p" data-group-id="3648043903-9">(</span><span class="mi">0</span><span class="p" data-group-id="3648043903-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="3648043903-10">(</span><span class="mf">255.0</span><span class="p" data-group-id="3648043903-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_binary!</span><span class="p" data-group-id="8760639530-7">(</span><span class="p" data-group-id="8760639530-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="p" data-group-id="8760639530-8">(</span><span class="p" data-group-id="8760639530-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">new_axis</span><span class="p" data-group-id="8760639530-9">(</span><span class="mi">0</span><span class="p" data-group-id="8760639530-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="8760639530-10">(</span><span class="mf">255.0</span><span class="p" data-group-id="8760639530-10">)</span><span class="w">
 
-</span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="3648043903-11">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="3648043903-11">)</span></code></pre><p><em>Note: the model output refers to the probability that the image presents a horse and a human respectively.</em></p><!-- livebook:{"break_markdown":true} --><p>You can find a validation set <a href="https://storage.googleapis.com/learning-datasets/validation-horse-or-human.zip">here</a>, in case you want to experiment further!</p>
+</span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="8760639530-11">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8760639530-11">)</span></code></pre><p><em>Note: the model output refers to the probability that the image presents a horse and a human respectively.</em></p><!-- livebook:{"break_markdown":true} --><p>You can find a validation set <a href="https://storage.googleapis.com/learning-datasets/validation-horse-or-human.zip">here</a>, in case you want to experiment further!</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/instrumenting_loops_with_metrics.html b/instrumenting_loops_with_metrics.html
index 41bc46ed..155e83dc 100644
--- a/instrumenting_loops_with_metrics.html
+++ b/instrumenting_loops_with_metrics.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,208 +136,208 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3237627595-1">(</span><span class="p" data-group-id="3237627595-2">[</span><span class="w">
-  </span><span class="p" data-group-id="3237627595-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3237627595-3">}</span><span class="w">
-</span><span class="p" data-group-id="3237627595-2">]</span><span class="p" data-group-id="3237627595-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="adding-metrics-to-training-loops" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2912275444-1">(</span><span class="p" data-group-id="2912275444-2">[</span><span class="w">
+  </span><span class="p" data-group-id="2912275444-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="2912275444-3">}</span><span class="w">
+</span><span class="p" data-group-id="2912275444-2">]</span><span class="p" data-group-id="2912275444-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="adding-metrics-to-training-loops" class="section-heading">
   <a href="#adding-metrics-to-training-loops" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Adding metrics to training loops</span>
 </h2>
 <p>Often times when executing a loop you want to keep track of various metrics such as accuracy or precision. For training loops, Axon by default only tracks loss; however, you can instrument the loop with additional built-in metrics. For example, you might want to track mean-absolute error on top of a mean-squared error loss:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6619853795-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6619853795-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6619853795-2">(</span><span class="mi">8</span><span class="p" data-group-id="6619853795-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6619853795-3">(</span><span class="p" data-group-id="6619853795-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6619853795-4">(</span><span class="mi">4</span><span class="p" data-group-id="6619853795-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6619853795-5">(</span><span class="p" data-group-id="6619853795-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6619853795-6">(</span><span class="mi">1</span><span class="p" data-group-id="6619853795-6">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4633739448-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4633739448-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4633739448-2">(</span><span class="mi">8</span><span class="p" data-group-id="4633739448-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4633739448-3">(</span><span class="p" data-group-id="4633739448-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4633739448-4">(</span><span class="mi">4</span><span class="p" data-group-id="4633739448-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="4633739448-5">(</span><span class="p" data-group-id="4633739448-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4633739448-6">(</span><span class="mi">1</span><span class="p" data-group-id="4633739448-6">)</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6619853795-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="6619853795-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="6619853795-8">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="6619853795-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0049456807-1">#</span><span class="nc" data-group-id="0049456807-1">Axon.Loop</span><span class="p" data-group-id="0049456807-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-2">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0049456807-3">{</span><span class="p" data-group-id="0049456807-4">#</span><span class="nc" data-group-id="0049456807-4">Function</span><span class="p" data-group-id="0049456807-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0049456807-4">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="0049456807-5">#</span><span class="nc" data-group-id="0049456807-5">Function</span><span class="p" data-group-id="0049456807-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0049456807-5">&gt;</span><span class="p" data-group-id="0049456807-3">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0049456807-6">{</span><span class="p" data-group-id="0049456807-7">#</span><span class="nc" data-group-id="0049456807-7">Function</span><span class="p" data-group-id="0049456807-7">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0049456807-7">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="0049456807-6">}</span><span class="w">
-  </span><span class="p" data-group-id="0049456807-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-8">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-9">[</span><span class="p" data-group-id="0049456807-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-10">[</span><span class="w">
-      </span><span class="p" data-group-id="0049456807-11">{</span><span class="p" data-group-id="0049456807-12">#</span><span class="nc" data-group-id="0049456807-12">Function</span><span class="p" data-group-id="0049456807-12">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="0049456807-12">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="0049456807-13">#</span><span class="nc" data-group-id="0049456807-13">Function</span><span class="p" data-group-id="0049456807-13">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0049456807-13">&gt;</span><span class="p" data-group-id="0049456807-11">}</span><span class="w">
-    </span><span class="p" data-group-id="0049456807-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-14">[</span><span class="p" data-group-id="0049456807-14">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-15">[</span><span class="p" data-group-id="0049456807-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-16">[</span><span class="p" data-group-id="0049456807-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-17">[</span><span class="w">
-      </span><span class="p" data-group-id="0049456807-18">{</span><span class="p" data-group-id="0049456807-19">#</span><span class="nc" data-group-id="0049456807-19">Function</span><span class="p" data-group-id="0049456807-19">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="0049456807-19">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="0049456807-20">#</span><span class="nc" data-group-id="0049456807-20">Function</span><span class="p" data-group-id="0049456807-20">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0049456807-20">&gt;</span><span class="p" data-group-id="0049456807-18">}</span><span class="w">
-    </span><span class="p" data-group-id="0049456807-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-21">[</span><span class="p" data-group-id="0049456807-21">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0049456807-22">[</span><span class="p" data-group-id="0049456807-22">]</span><span class="w">
-  </span><span class="p" data-group-id="0049456807-8">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4633739448-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="4633739448-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="4633739448-8">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="4633739448-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4034028404-1">#</span><span class="nc" data-group-id="4034028404-1">Axon.Loop</span><span class="p" data-group-id="4034028404-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-2">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4034028404-3">{</span><span class="p" data-group-id="4034028404-4">#</span><span class="nc" data-group-id="4034028404-4">Function</span><span class="p" data-group-id="4034028404-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4034028404-4">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="4034028404-5">#</span><span class="nc" data-group-id="4034028404-5">Function</span><span class="p" data-group-id="4034028404-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4034028404-5">&gt;</span><span class="p" data-group-id="4034028404-3">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4034028404-6">{</span><span class="p" data-group-id="4034028404-7">#</span><span class="nc" data-group-id="4034028404-7">Function</span><span class="p" data-group-id="4034028404-7">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4034028404-7">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="4034028404-6">}</span><span class="w">
+  </span><span class="p" data-group-id="4034028404-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-8">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-9">[</span><span class="p" data-group-id="4034028404-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-10">[</span><span class="w">
+      </span><span class="p" data-group-id="4034028404-11">{</span><span class="p" data-group-id="4034028404-12">#</span><span class="nc" data-group-id="4034028404-12">Function</span><span class="p" data-group-id="4034028404-12">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="4034028404-12">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="4034028404-13">#</span><span class="nc" data-group-id="4034028404-13">Function</span><span class="p" data-group-id="4034028404-13">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4034028404-13">&gt;</span><span class="p" data-group-id="4034028404-11">}</span><span class="w">
+    </span><span class="p" data-group-id="4034028404-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-14">[</span><span class="p" data-group-id="4034028404-14">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-15">[</span><span class="p" data-group-id="4034028404-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-16">[</span><span class="p" data-group-id="4034028404-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-17">[</span><span class="w">
+      </span><span class="p" data-group-id="4034028404-18">{</span><span class="p" data-group-id="4034028404-19">#</span><span class="nc" data-group-id="4034028404-19">Function</span><span class="p" data-group-id="4034028404-19">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="4034028404-19">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="4034028404-20">#</span><span class="nc" data-group-id="4034028404-20">Function</span><span class="p" data-group-id="4034028404-20">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4034028404-20">&gt;</span><span class="p" data-group-id="4034028404-18">}</span><span class="w">
+    </span><span class="p" data-group-id="4034028404-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-21">[</span><span class="p" data-group-id="4034028404-21">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4034028404-22">[</span><span class="p" data-group-id="4034028404-22">]</span><span class="w">
+  </span><span class="p" data-group-id="4034028404-8">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="0049456807-1">&gt;</span></code></pre><p>When specifying a metric, you can specify an atom which maps to any of the metrics defined in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>. You can also define custom metrics. For more information on custom metrics, see <a href="writing_custom_metrics.html">Writing custom metrics</a>.</p><p>When you run a loop with metrics, Axon will aggregate that metric over the course of the loop execution. For training loops, Axon will also report the aggregate metric in the training logs:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="1488926443-1">(</span><span class="k" data-group-id="1488926443-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="1488926443-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="1488926443-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="1488926443-4">(</span><span class="mi">9999</span><span class="p" data-group-id="1488926443-4">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="1488926443-5">(</span><span class="p" data-group-id="1488926443-5">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="1488926443-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1488926443-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1488926443-7">}</span><span class="p" data-group-id="1488926443-6">)</span><span class="w">
-
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="1488926443-8">(</span><span class="n">xs</span><span class="p" data-group-id="1488926443-8">)</span><span class="w">
-    </span><span class="p" data-group-id="1488926443-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="1488926443-9">}</span><span class="w">
-  </span><span class="k" data-group-id="1488926443-2">end</span><span class="p" data-group-id="1488926443-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1488926443-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1488926443-11">%{</span><span class="p" data-group-id="1488926443-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="1488926443-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0590630</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1463431</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7015677847-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-3">#</span><span class="nc" data-group-id="7015677847-3">Nx.Tensor</span><span class="p" data-group-id="7015677847-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7015677847-4">[</span><span class="mi">8</span><span class="p" data-group-id="7015677847-4">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-5">[</span><span class="o">-</span><span class="mf">0.015203186310827732</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1997198462486267</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09740892797708511</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.007404750678688288</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11397464573383331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3608400523662567</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07219560444355011</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06638865917921066</span><span class="p" data-group-id="7015677847-5">]</span><span class="w">
-    </span><span class="p" data-group-id="7015677847-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-6">#</span><span class="nc" data-group-id="7015677847-6">Nx.Tensor</span><span class="p" data-group-id="7015677847-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7015677847-7">[</span><span class="mi">1</span><span class="p" data-group-id="7015677847-7">]</span><span class="p" data-group-id="7015677847-8">[</span><span class="mi">8</span><span class="p" data-group-id="7015677847-8">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-9">[</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-10">[</span><span class="mf">0.07889414578676224</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30445051193237305</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1377921849489212</span><span class="p">,</span><span class="w"> </span><span class="mf">0.015571207739412785</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7115736603736877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6404237151145935</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25553327798843384</span><span class="p">,</span><span class="w"> </span><span class="mf">0.057831913232803345</span><span class="p" data-group-id="7015677847-10">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-9">]</span><span class="w">
-    </span><span class="p" data-group-id="7015677847-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7015677847-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-12">#</span><span class="nc" data-group-id="7015677847-12">Nx.Tensor</span><span class="p" data-group-id="7015677847-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7015677847-13">[</span><span class="mi">4</span><span class="p" data-group-id="7015677847-13">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-14">[</span><span class="mf">0.10809992998838425</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47775307297706604</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1641010195016861</span><span class="p" data-group-id="7015677847-14">]</span><span class="w">
-    </span><span class="p" data-group-id="7015677847-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-15">#</span><span class="nc" data-group-id="7015677847-15">Nx.Tensor</span><span class="p" data-group-id="7015677847-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7015677847-16">[</span><span class="mi">8</span><span class="p" data-group-id="7015677847-16">]</span><span class="p" data-group-id="7015677847-17">[</span><span class="mi">4</span><span class="p" data-group-id="7015677847-17">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-18">[</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-19">[</span><span class="o">-</span><span class="mf">0.040330830961465836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.36995524168014526</span><span class="p">,</span><span class="w"> </span><span class="mf">0.001599793671630323</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6012424826622009</span><span class="p" data-group-id="7015677847-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-20">[</span><span class="mf">0.21044284105300903</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39482879638671875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5866784453392029</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15573620796203613</span><span class="p" data-group-id="7015677847-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-21">[</span><span class="o">-</span><span class="mf">0.09234675765037537</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27758270502090454</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6663768291473389</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6017312407493591</span><span class="p" data-group-id="7015677847-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-22">[</span><span class="o">-</span><span class="mf">0.4454570412635803</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1304328441619873</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31381309032440186</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1906844824552536</span><span class="p" data-group-id="7015677847-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-23">[</span><span class="mf">0.3460652530193329</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3017694056034088</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1680794507265091</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47811293601989746</span><span class="p" data-group-id="7015677847-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-24">[</span><span class="mf">0.28633055090904236</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34003201127052307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6202688813209534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18027405440807343</span><span class="p" data-group-id="7015677847-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-25">[</span><span class="mf">0.5729941129684448</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32222074270248413</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20647864043712616</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02462891861796379</span><span class="p" data-group-id="7015677847-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-26">[</span><span class="o">-</span><span class="mf">0.13146185874938965</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06700503826141357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6600251793861389</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06442582607269287</span><span class="p" data-group-id="7015677847-26">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-18">]</span><span class="w">
-    </span><span class="p" data-group-id="7015677847-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7015677847-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-28">#</span><span class="nc" data-group-id="7015677847-28">Nx.Tensor</span><span class="p" data-group-id="7015677847-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7015677847-29">[</span><span class="mi">1</span><span class="p" data-group-id="7015677847-29">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-30">[</span><span class="mf">0.4863035976886749</span><span class="p" data-group-id="7015677847-30">]</span><span class="w">
-    </span><span class="p" data-group-id="7015677847-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7015677847-31">#</span><span class="nc" data-group-id="7015677847-31">Nx.Tensor</span><span class="p" data-group-id="7015677847-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="7015677847-32">[</span><span class="mi">4</span><span class="p" data-group-id="7015677847-32">]</span><span class="p" data-group-id="7015677847-33">[</span><span class="mi">1</span><span class="p" data-group-id="7015677847-33">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-34">[</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-35">[</span><span class="mf">0.41491562128067017</span><span class="p" data-group-id="7015677847-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-36">[</span><span class="o">-</span><span class="mf">0.948100209236145</span><span class="p" data-group-id="7015677847-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-37">[</span><span class="o">-</span><span class="mf">1.2559744119644165</span><span class="p" data-group-id="7015677847-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="7015677847-38">[</span><span class="mf">1.0097774267196655</span><span class="p" data-group-id="7015677847-38">]</span><span class="w">
-      </span><span class="p" data-group-id="7015677847-34">]</span><span class="w">
-    </span><span class="p" data-group-id="7015677847-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="7015677847-27">}</span><span class="w">
-</span><span class="p" data-group-id="7015677847-1">}</span></code></pre><p>By default, the metric will have a name which matches the string form of the given metric. You can give metrics semantic meaning by providing an explicit name:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3879341505-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="3879341505-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="3879341505-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;model error&quot;</span><span class="p" data-group-id="3879341505-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3879341505-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3879341505-4">%{</span><span class="p" data-group-id="3879341505-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3879341505-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0607362</span><span class="w"> </span><span class="n">model</span><span class="w"> </span><span class="ss">error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1516546</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3342363144-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-3">#</span><span class="nc" data-group-id="3342363144-3">Nx.Tensor</span><span class="p" data-group-id="3342363144-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3342363144-4">[</span><span class="mi">8</span><span class="p" data-group-id="3342363144-4">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-5">[</span><span class="mf">0.2577069401741028</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16761353611946106</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11587327718734741</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28539595007896423</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2071152776479721</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02039412036538124</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11152249574661255</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2389308214187622</span><span class="p" data-group-id="3342363144-5">]</span><span class="w">
-    </span><span class="p" data-group-id="3342363144-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-6">#</span><span class="nc" data-group-id="3342363144-6">Nx.Tensor</span><span class="p" data-group-id="3342363144-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3342363144-7">[</span><span class="mi">1</span><span class="p" data-group-id="3342363144-7">]</span><span class="p" data-group-id="3342363144-8">[</span><span class="mi">8</span><span class="p" data-group-id="3342363144-8">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-9">[</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-10">[</span><span class="o">-</span><span class="mf">0.1265750676393509</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6902633309364319</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10233660787343979</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2544037103652954</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26677289605140686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31035077571868896</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3845033347606659</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33032187819480896</span><span class="p" data-group-id="3342363144-10">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-9">]</span><span class="w">
-    </span><span class="p" data-group-id="3342363144-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3342363144-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-12">#</span><span class="nc" data-group-id="3342363144-12">Nx.Tensor</span><span class="p" data-group-id="3342363144-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3342363144-13">[</span><span class="mi">4</span><span class="p" data-group-id="3342363144-13">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16427761316299438</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02123815007507801</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22260485589504242</span><span class="p" data-group-id="3342363144-14">]</span><span class="w">
-    </span><span class="p" data-group-id="3342363144-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-15">#</span><span class="nc" data-group-id="3342363144-15">Nx.Tensor</span><span class="p" data-group-id="3342363144-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3342363144-16">[</span><span class="mi">8</span><span class="p" data-group-id="3342363144-16">]</span><span class="p" data-group-id="3342363144-17">[</span><span class="mi">4</span><span class="p" data-group-id="3342363144-17">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-18">[</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-19">[</span><span class="o">-</span><span class="mf">0.3859425485134125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49959924817085266</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34108400344848633</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6222119331359863</span><span class="p" data-group-id="3342363144-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-20">[</span><span class="o">-</span><span class="mf">0.43326857686042786</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.42272067070007324</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04245679825544357</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4357914626598358</span><span class="p" data-group-id="3342363144-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-21">[</span><span class="o">-</span><span class="mf">0.3065953850746155</span><span class="p">,</span><span class="w"> </span><span class="mf">0.587925374507904</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2960704267024994</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31594154238700867</span><span class="p" data-group-id="3342363144-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-22">[</span><span class="o">-</span><span class="mf">0.35595524311065674</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6649497747421265</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4832736849784851</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3025558590888977</span><span class="p" data-group-id="3342363144-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-23">[</span><span class="mf">0.048333823680877686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17023107409477234</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09139639884233475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6511918902397156</span><span class="p" data-group-id="3342363144-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-24">[</span><span class="o">-</span><span class="mf">0.12099027633666992</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02014642395079136</span><span class="p">,</span><span class="w"> </span><span class="mf">0.025831595063209534</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09945832937955856</span><span class="p" data-group-id="3342363144-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-25">[</span><span class="mf">0.3415437340736389</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41694650053977966</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24677544832229614</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06690020114183426</span><span class="p" data-group-id="3342363144-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-26">[</span><span class="o">-</span><span class="mf">0.1977071762084961</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39345067739486694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26068705320358276</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35502269864082336</span><span class="p" data-group-id="3342363144-26">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-18">]</span><span class="w">
-    </span><span class="p" data-group-id="3342363144-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3342363144-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-28">#</span><span class="nc" data-group-id="3342363144-28">Nx.Tensor</span><span class="p" data-group-id="3342363144-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3342363144-29">[</span><span class="mi">1</span><span class="p" data-group-id="3342363144-29">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-30">[</span><span class="mf">0.8329466581344604</span><span class="p" data-group-id="3342363144-30">]</span><span class="w">
-    </span><span class="p" data-group-id="3342363144-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3342363144-31">#</span><span class="nc" data-group-id="3342363144-31">Nx.Tensor</span><span class="p" data-group-id="3342363144-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="3342363144-32">[</span><span class="mi">4</span><span class="p" data-group-id="3342363144-32">]</span><span class="p" data-group-id="3342363144-33">[</span><span class="mi">1</span><span class="p" data-group-id="3342363144-33">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-34">[</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-35">[</span><span class="o">-</span><span class="mf">0.23763614892959595</span><span class="p" data-group-id="3342363144-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-36">[</span><span class="o">-</span><span class="mf">1.031561255455017</span><span class="p" data-group-id="3342363144-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-37">[</span><span class="mf">0.1092313677072525</span><span class="p" data-group-id="3342363144-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="3342363144-38">[</span><span class="o">-</span><span class="mf">0.7191486358642578</span><span class="p" data-group-id="3342363144-38">]</span><span class="w">
-      </span><span class="p" data-group-id="3342363144-34">]</span><span class="w">
-    </span><span class="p" data-group-id="3342363144-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="3342363144-27">}</span><span class="w">
-</span><span class="p" data-group-id="3342363144-1">}</span></code></pre><p>Axon's default aggregation behavior is to aggregate metrics with a running average; however, you can customize this behavior by specifying an explicit accumulation function. Built-in accumulation functions are <code class="inline">:running_average</code> and <code class="inline">:running_sum</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0881614626-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0881614626-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="0881614626-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;total error&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="0881614626-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0881614626-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0881614626-4">%{</span><span class="p" data-group-id="0881614626-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="0881614626-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0688004</span><span class="w"> </span><span class="n">total</span><span class="w"> </span><span class="ss">error</span><span class="p">:</span><span class="w"> </span><span class="mf">151.4876404</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5310874688-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-3">#</span><span class="nc" data-group-id="5310874688-3">Nx.Tensor</span><span class="p" data-group-id="5310874688-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5310874688-4">[</span><span class="mi">8</span><span class="p" data-group-id="5310874688-4">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-5">[</span><span class="mf">0.34921368956565857</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2217460423707962</span><span class="p">,</span><span class="w"> </span><span class="mf">0.274880051612854</span><span class="p">,</span><span class="w"> </span><span class="mf">0.016405446454882622</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11720903217792511</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20693546533584595</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14232252538204193</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07956698536872864</span><span class="p" data-group-id="5310874688-5">]</span><span class="w">
-    </span><span class="p" data-group-id="5310874688-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-6">#</span><span class="nc" data-group-id="5310874688-6">Nx.Tensor</span><span class="p" data-group-id="5310874688-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5310874688-7">[</span><span class="mi">1</span><span class="p" data-group-id="5310874688-7">]</span><span class="p" data-group-id="5310874688-8">[</span><span class="mi">8</span><span class="p" data-group-id="5310874688-8">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-9">[</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-10">[</span><span class="o">-</span><span class="mf">0.37851807475090027</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17135880887508392</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3878959119319916</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19248774647712708</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12453905493021011</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2750281095504761</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5614567995071411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6186240315437317</span><span class="p" data-group-id="5310874688-10">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-9">]</span><span class="w">
-    </span><span class="p" data-group-id="5310874688-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5310874688-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-12">#</span><span class="nc" data-group-id="5310874688-12">Nx.Tensor</span><span class="p" data-group-id="5310874688-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5310874688-13">[</span><span class="mi">4</span><span class="p" data-group-id="5310874688-13">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-14">[</span><span class="o">-</span><span class="mf">0.28566694259643555</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27262070775032043</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2875851094722748</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5310874688-14">]</span><span class="w">
-    </span><span class="p" data-group-id="5310874688-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-15">#</span><span class="nc" data-group-id="5310874688-15">Nx.Tensor</span><span class="p" data-group-id="5310874688-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5310874688-16">[</span><span class="mi">8</span><span class="p" data-group-id="5310874688-16">]</span><span class="p" data-group-id="5310874688-17">[</span><span class="mi">4</span><span class="p" data-group-id="5310874688-17">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-18">[</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-19">[</span><span class="mf">0.23161421716213226</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8222984671592712</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09437259286642075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4825701117515564</span><span class="p" data-group-id="5310874688-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-20">[</span><span class="o">-</span><span class="mf">0.38828352093696594</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6247998476028442</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5035035610198975</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0026152729988098145</span><span class="p" data-group-id="5310874688-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-21">[</span><span class="mf">0.5202338099479675</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7906754612922668</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08624745905399323</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5285568833351135</span><span class="p" data-group-id="5310874688-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-22">[</span><span class="mf">0.47950035333633423</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07571044564247131</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32921522855758667</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7011756896972656</span><span class="p" data-group-id="5310874688-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-23">[</span><span class="o">-</span><span class="mf">0.3601212203502655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44817543029785156</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13981425762176514</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.01014477014541626</span><span class="p" data-group-id="5310874688-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-24">[</span><span class="o">-</span><span class="mf">0.3157005310058594</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6309216618537903</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5622371435165405</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27447545528411865</span><span class="p" data-group-id="5310874688-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-25">[</span><span class="o">-</span><span class="mf">0.5749425292015076</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5073797702789307</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3527824282646179</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08027392625808716</span><span class="p" data-group-id="5310874688-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-26">[</span><span class="o">-</span><span class="mf">0.5331286191940308</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15432128310203552</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.015716910362243652</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5225256681442261</span><span class="p" data-group-id="5310874688-26">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-18">]</span><span class="w">
-    </span><span class="p" data-group-id="5310874688-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5310874688-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-28">#</span><span class="nc" data-group-id="5310874688-28">Nx.Tensor</span><span class="p" data-group-id="5310874688-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5310874688-29">[</span><span class="mi">1</span><span class="p" data-group-id="5310874688-29">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-30">[</span><span class="mf">0.8275660872459412</span><span class="p" data-group-id="5310874688-30">]</span><span class="w">
-    </span><span class="p" data-group-id="5310874688-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5310874688-31">#</span><span class="nc" data-group-id="5310874688-31">Nx.Tensor</span><span class="p" data-group-id="5310874688-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5310874688-32">[</span><span class="mi">4</span><span class="p" data-group-id="5310874688-32">]</span><span class="p" data-group-id="5310874688-33">[</span><span class="mi">1</span><span class="p" data-group-id="5310874688-33">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-34">[</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-35">[</span><span class="mf">0.45810666680336</span><span class="p" data-group-id="5310874688-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-36">[</span><span class="o">-</span><span class="mf">1.0092405080795288</span><span class="p" data-group-id="5310874688-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-37">[</span><span class="mf">0.5322748422622681</span><span class="p" data-group-id="5310874688-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5310874688-38">[</span><span class="o">-</span><span class="mf">0.5989866852760315</span><span class="p" data-group-id="5310874688-38">]</span><span class="w">
-      </span><span class="p" data-group-id="5310874688-34">]</span><span class="w">
-    </span><span class="p" data-group-id="5310874688-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5310874688-27">}</span><span class="w">
-</span><span class="p" data-group-id="5310874688-1">}</span></code></pre>
+</span><span class="p" data-group-id="4034028404-1">&gt;</span></code></pre><p>When specifying a metric, you can specify an atom which maps to any of the metrics defined in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>. You can also define custom metrics. For more information on custom metrics, see <a href="writing_custom_metrics.html">Writing custom metrics</a>.</p><p>When you run a loop with metrics, Axon will aggregate that metric over the course of the loop execution. For training loops, Axon will also report the aggregate metric in the training logs:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="3032225763-1">(</span><span class="k" data-group-id="3032225763-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="3032225763-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="3032225763-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="3032225763-4">(</span><span class="mi">9999</span><span class="p" data-group-id="3032225763-4">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="3032225763-5">(</span><span class="p" data-group-id="3032225763-5">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="3032225763-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3032225763-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3032225763-7">}</span><span class="p" data-group-id="3032225763-6">)</span><span class="w">
+
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="3032225763-8">(</span><span class="n">xs</span><span class="p" data-group-id="3032225763-8">)</span><span class="w">
+    </span><span class="p" data-group-id="3032225763-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="3032225763-9">}</span><span class="w">
+  </span><span class="k" data-group-id="3032225763-2">end</span><span class="p" data-group-id="3032225763-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3032225763-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3032225763-11">%{</span><span class="p" data-group-id="3032225763-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3032225763-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0590630</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1463431</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8600663547-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-3">#</span><span class="nc" data-group-id="8600663547-3">Nx.Tensor</span><span class="p" data-group-id="8600663547-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8600663547-4">[</span><span class="mi">8</span><span class="p" data-group-id="8600663547-4">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-5">[</span><span class="o">-</span><span class="mf">0.015203186310827732</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1997198462486267</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09740892797708511</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.007404750678688288</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11397464573383331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3608400523662567</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07219560444355011</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06638865917921066</span><span class="p" data-group-id="8600663547-5">]</span><span class="w">
+    </span><span class="p" data-group-id="8600663547-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-6">#</span><span class="nc" data-group-id="8600663547-6">Nx.Tensor</span><span class="p" data-group-id="8600663547-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8600663547-7">[</span><span class="mi">1</span><span class="p" data-group-id="8600663547-7">]</span><span class="p" data-group-id="8600663547-8">[</span><span class="mi">8</span><span class="p" data-group-id="8600663547-8">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-9">[</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-10">[</span><span class="mf">0.07889414578676224</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30445051193237305</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1377921849489212</span><span class="p">,</span><span class="w"> </span><span class="mf">0.015571207739412785</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7115736603736877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6404237151145935</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25553327798843384</span><span class="p">,</span><span class="w"> </span><span class="mf">0.057831913232803345</span><span class="p" data-group-id="8600663547-10">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-9">]</span><span class="w">
+    </span><span class="p" data-group-id="8600663547-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8600663547-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-12">#</span><span class="nc" data-group-id="8600663547-12">Nx.Tensor</span><span class="p" data-group-id="8600663547-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8600663547-13">[</span><span class="mi">4</span><span class="p" data-group-id="8600663547-13">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-14">[</span><span class="mf">0.10809992998838425</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47775307297706604</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1641010195016861</span><span class="p" data-group-id="8600663547-14">]</span><span class="w">
+    </span><span class="p" data-group-id="8600663547-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-15">#</span><span class="nc" data-group-id="8600663547-15">Nx.Tensor</span><span class="p" data-group-id="8600663547-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8600663547-16">[</span><span class="mi">8</span><span class="p" data-group-id="8600663547-16">]</span><span class="p" data-group-id="8600663547-17">[</span><span class="mi">4</span><span class="p" data-group-id="8600663547-17">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-18">[</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-19">[</span><span class="o">-</span><span class="mf">0.040330830961465836</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.36995524168014526</span><span class="p">,</span><span class="w"> </span><span class="mf">0.001599793671630323</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6012424826622009</span><span class="p" data-group-id="8600663547-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-20">[</span><span class="mf">0.21044284105300903</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39482879638671875</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5866784453392029</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15573620796203613</span><span class="p" data-group-id="8600663547-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-21">[</span><span class="o">-</span><span class="mf">0.09234675765037537</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27758270502090454</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6663768291473389</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6017312407493591</span><span class="p" data-group-id="8600663547-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-22">[</span><span class="o">-</span><span class="mf">0.4454570412635803</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1304328441619873</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31381309032440186</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1906844824552536</span><span class="p" data-group-id="8600663547-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-23">[</span><span class="mf">0.3460652530193329</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3017694056034088</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1680794507265091</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47811293601989746</span><span class="p" data-group-id="8600663547-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-24">[</span><span class="mf">0.28633055090904236</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34003201127052307</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6202688813209534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18027405440807343</span><span class="p" data-group-id="8600663547-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-25">[</span><span class="mf">0.5729941129684448</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32222074270248413</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20647864043712616</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02462891861796379</span><span class="p" data-group-id="8600663547-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-26">[</span><span class="o">-</span><span class="mf">0.13146185874938965</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06700503826141357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6600251793861389</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06442582607269287</span><span class="p" data-group-id="8600663547-26">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-18">]</span><span class="w">
+    </span><span class="p" data-group-id="8600663547-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8600663547-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-28">#</span><span class="nc" data-group-id="8600663547-28">Nx.Tensor</span><span class="p" data-group-id="8600663547-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8600663547-29">[</span><span class="mi">1</span><span class="p" data-group-id="8600663547-29">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-30">[</span><span class="mf">0.4863035976886749</span><span class="p" data-group-id="8600663547-30">]</span><span class="w">
+    </span><span class="p" data-group-id="8600663547-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8600663547-31">#</span><span class="nc" data-group-id="8600663547-31">Nx.Tensor</span><span class="p" data-group-id="8600663547-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8600663547-32">[</span><span class="mi">4</span><span class="p" data-group-id="8600663547-32">]</span><span class="p" data-group-id="8600663547-33">[</span><span class="mi">1</span><span class="p" data-group-id="8600663547-33">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-34">[</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-35">[</span><span class="mf">0.41491562128067017</span><span class="p" data-group-id="8600663547-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-36">[</span><span class="o">-</span><span class="mf">0.948100209236145</span><span class="p" data-group-id="8600663547-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-37">[</span><span class="o">-</span><span class="mf">1.2559744119644165</span><span class="p" data-group-id="8600663547-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8600663547-38">[</span><span class="mf">1.0097774267196655</span><span class="p" data-group-id="8600663547-38">]</span><span class="w">
+      </span><span class="p" data-group-id="8600663547-34">]</span><span class="w">
+    </span><span class="p" data-group-id="8600663547-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8600663547-27">}</span><span class="w">
+</span><span class="p" data-group-id="8600663547-1">}</span></code></pre><p>By default, the metric will have a name which matches the string form of the given metric. You can give metrics semantic meaning by providing an explicit name:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1274955153-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="1274955153-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1274955153-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;model error&quot;</span><span class="p" data-group-id="1274955153-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1274955153-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1274955153-4">%{</span><span class="p" data-group-id="1274955153-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="1274955153-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0607362</span><span class="w"> </span><span class="n">model</span><span class="w"> </span><span class="ss">error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1516546</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6072463317-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-3">#</span><span class="nc" data-group-id="6072463317-3">Nx.Tensor</span><span class="p" data-group-id="6072463317-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6072463317-4">[</span><span class="mi">8</span><span class="p" data-group-id="6072463317-4">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-5">[</span><span class="mf">0.2577069401741028</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16761353611946106</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11587327718734741</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28539595007896423</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2071152776479721</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02039412036538124</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11152249574661255</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2389308214187622</span><span class="p" data-group-id="6072463317-5">]</span><span class="w">
+    </span><span class="p" data-group-id="6072463317-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-6">#</span><span class="nc" data-group-id="6072463317-6">Nx.Tensor</span><span class="p" data-group-id="6072463317-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6072463317-7">[</span><span class="mi">1</span><span class="p" data-group-id="6072463317-7">]</span><span class="p" data-group-id="6072463317-8">[</span><span class="mi">8</span><span class="p" data-group-id="6072463317-8">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-9">[</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-10">[</span><span class="o">-</span><span class="mf">0.1265750676393509</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6902633309364319</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10233660787343979</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2544037103652954</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26677289605140686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31035077571868896</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3845033347606659</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33032187819480896</span><span class="p" data-group-id="6072463317-10">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-9">]</span><span class="w">
+    </span><span class="p" data-group-id="6072463317-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="6072463317-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-12">#</span><span class="nc" data-group-id="6072463317-12">Nx.Tensor</span><span class="p" data-group-id="6072463317-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6072463317-13">[</span><span class="mi">4</span><span class="p" data-group-id="6072463317-13">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16427761316299438</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02123815007507801</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22260485589504242</span><span class="p" data-group-id="6072463317-14">]</span><span class="w">
+    </span><span class="p" data-group-id="6072463317-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-15">#</span><span class="nc" data-group-id="6072463317-15">Nx.Tensor</span><span class="p" data-group-id="6072463317-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6072463317-16">[</span><span class="mi">8</span><span class="p" data-group-id="6072463317-16">]</span><span class="p" data-group-id="6072463317-17">[</span><span class="mi">4</span><span class="p" data-group-id="6072463317-17">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-18">[</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-19">[</span><span class="o">-</span><span class="mf">0.3859425485134125</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49959924817085266</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34108400344848633</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6222119331359863</span><span class="p" data-group-id="6072463317-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-20">[</span><span class="o">-</span><span class="mf">0.43326857686042786</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.42272067070007324</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04245679825544357</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4357914626598358</span><span class="p" data-group-id="6072463317-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-21">[</span><span class="o">-</span><span class="mf">0.3065953850746155</span><span class="p">,</span><span class="w"> </span><span class="mf">0.587925374507904</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2960704267024994</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31594154238700867</span><span class="p" data-group-id="6072463317-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-22">[</span><span class="o">-</span><span class="mf">0.35595524311065674</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6649497747421265</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4832736849784851</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3025558590888977</span><span class="p" data-group-id="6072463317-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-23">[</span><span class="mf">0.048333823680877686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17023107409477234</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09139639884233475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6511918902397156</span><span class="p" data-group-id="6072463317-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-24">[</span><span class="o">-</span><span class="mf">0.12099027633666992</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02014642395079136</span><span class="p">,</span><span class="w"> </span><span class="mf">0.025831595063209534</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09945832937955856</span><span class="p" data-group-id="6072463317-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-25">[</span><span class="mf">0.3415437340736389</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41694650053977966</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24677544832229614</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06690020114183426</span><span class="p" data-group-id="6072463317-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-26">[</span><span class="o">-</span><span class="mf">0.1977071762084961</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39345067739486694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26068705320358276</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35502269864082336</span><span class="p" data-group-id="6072463317-26">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-18">]</span><span class="w">
+    </span><span class="p" data-group-id="6072463317-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="6072463317-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-28">#</span><span class="nc" data-group-id="6072463317-28">Nx.Tensor</span><span class="p" data-group-id="6072463317-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6072463317-29">[</span><span class="mi">1</span><span class="p" data-group-id="6072463317-29">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-30">[</span><span class="mf">0.8329466581344604</span><span class="p" data-group-id="6072463317-30">]</span><span class="w">
+    </span><span class="p" data-group-id="6072463317-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6072463317-31">#</span><span class="nc" data-group-id="6072463317-31">Nx.Tensor</span><span class="p" data-group-id="6072463317-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="6072463317-32">[</span><span class="mi">4</span><span class="p" data-group-id="6072463317-32">]</span><span class="p" data-group-id="6072463317-33">[</span><span class="mi">1</span><span class="p" data-group-id="6072463317-33">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-34">[</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-35">[</span><span class="o">-</span><span class="mf">0.23763614892959595</span><span class="p" data-group-id="6072463317-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-36">[</span><span class="o">-</span><span class="mf">1.031561255455017</span><span class="p" data-group-id="6072463317-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-37">[</span><span class="mf">0.1092313677072525</span><span class="p" data-group-id="6072463317-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="6072463317-38">[</span><span class="o">-</span><span class="mf">0.7191486358642578</span><span class="p" data-group-id="6072463317-38">]</span><span class="w">
+      </span><span class="p" data-group-id="6072463317-34">]</span><span class="w">
+    </span><span class="p" data-group-id="6072463317-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="6072463317-27">}</span><span class="w">
+</span><span class="p" data-group-id="6072463317-1">}</span></code></pre><p>Axon's default aggregation behavior is to aggregate metrics with a running average; however, you can customize this behavior by specifying an explicit accumulation function. Built-in accumulation functions are <code class="inline">:running_average</code> and <code class="inline">:running_sum</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7186270448-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7186270448-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7186270448-2">(</span><span class="ss">:mean_absolute_error</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;total error&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_sum</span><span class="p" data-group-id="7186270448-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7186270448-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7186270448-4">%{</span><span class="p" data-group-id="7186270448-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="7186270448-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0688004</span><span class="w"> </span><span class="n">total</span><span class="w"> </span><span class="ss">error</span><span class="p">:</span><span class="w"> </span><span class="mf">151.4876404</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0717539448-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-3">#</span><span class="nc" data-group-id="0717539448-3">Nx.Tensor</span><span class="p" data-group-id="0717539448-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0717539448-4">[</span><span class="mi">8</span><span class="p" data-group-id="0717539448-4">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-5">[</span><span class="mf">0.34921368956565857</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2217460423707962</span><span class="p">,</span><span class="w"> </span><span class="mf">0.274880051612854</span><span class="p">,</span><span class="w"> </span><span class="mf">0.016405446454882622</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11720903217792511</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20693546533584595</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14232252538204193</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07956698536872864</span><span class="p" data-group-id="0717539448-5">]</span><span class="w">
+    </span><span class="p" data-group-id="0717539448-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-6">#</span><span class="nc" data-group-id="0717539448-6">Nx.Tensor</span><span class="p" data-group-id="0717539448-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0717539448-7">[</span><span class="mi">1</span><span class="p" data-group-id="0717539448-7">]</span><span class="p" data-group-id="0717539448-8">[</span><span class="mi">8</span><span class="p" data-group-id="0717539448-8">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-9">[</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-10">[</span><span class="o">-</span><span class="mf">0.37851807475090027</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17135880887508392</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3878959119319916</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19248774647712708</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12453905493021011</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2750281095504761</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5614567995071411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6186240315437317</span><span class="p" data-group-id="0717539448-10">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-9">]</span><span class="w">
+    </span><span class="p" data-group-id="0717539448-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0717539448-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-12">#</span><span class="nc" data-group-id="0717539448-12">Nx.Tensor</span><span class="p" data-group-id="0717539448-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0717539448-13">[</span><span class="mi">4</span><span class="p" data-group-id="0717539448-13">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-14">[</span><span class="o">-</span><span class="mf">0.28566694259643555</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27262070775032043</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2875851094722748</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0717539448-14">]</span><span class="w">
+    </span><span class="p" data-group-id="0717539448-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-15">#</span><span class="nc" data-group-id="0717539448-15">Nx.Tensor</span><span class="p" data-group-id="0717539448-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0717539448-16">[</span><span class="mi">8</span><span class="p" data-group-id="0717539448-16">]</span><span class="p" data-group-id="0717539448-17">[</span><span class="mi">4</span><span class="p" data-group-id="0717539448-17">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-18">[</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-19">[</span><span class="mf">0.23161421716213226</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8222984671592712</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09437259286642075</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4825701117515564</span><span class="p" data-group-id="0717539448-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-20">[</span><span class="o">-</span><span class="mf">0.38828352093696594</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6247998476028442</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5035035610198975</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0026152729988098145</span><span class="p" data-group-id="0717539448-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-21">[</span><span class="mf">0.5202338099479675</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7906754612922668</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08624745905399323</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5285568833351135</span><span class="p" data-group-id="0717539448-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-22">[</span><span class="mf">0.47950035333633423</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07571044564247131</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32921522855758667</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7011756896972656</span><span class="p" data-group-id="0717539448-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-23">[</span><span class="o">-</span><span class="mf">0.3601212203502655</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44817543029785156</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13981425762176514</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.01014477014541626</span><span class="p" data-group-id="0717539448-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-24">[</span><span class="o">-</span><span class="mf">0.3157005310058594</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6309216618537903</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5622371435165405</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27447545528411865</span><span class="p" data-group-id="0717539448-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-25">[</span><span class="o">-</span><span class="mf">0.5749425292015076</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5073797702789307</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3527824282646179</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08027392625808716</span><span class="p" data-group-id="0717539448-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-26">[</span><span class="o">-</span><span class="mf">0.5331286191940308</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15432128310203552</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.015716910362243652</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5225256681442261</span><span class="p" data-group-id="0717539448-26">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-18">]</span><span class="w">
+    </span><span class="p" data-group-id="0717539448-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0717539448-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-28">#</span><span class="nc" data-group-id="0717539448-28">Nx.Tensor</span><span class="p" data-group-id="0717539448-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0717539448-29">[</span><span class="mi">1</span><span class="p" data-group-id="0717539448-29">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-30">[</span><span class="mf">0.8275660872459412</span><span class="p" data-group-id="0717539448-30">]</span><span class="w">
+    </span><span class="p" data-group-id="0717539448-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0717539448-31">#</span><span class="nc" data-group-id="0717539448-31">Nx.Tensor</span><span class="p" data-group-id="0717539448-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0717539448-32">[</span><span class="mi">4</span><span class="p" data-group-id="0717539448-32">]</span><span class="p" data-group-id="0717539448-33">[</span><span class="mi">1</span><span class="p" data-group-id="0717539448-33">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-34">[</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-35">[</span><span class="mf">0.45810666680336</span><span class="p" data-group-id="0717539448-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-36">[</span><span class="o">-</span><span class="mf">1.0092405080795288</span><span class="p" data-group-id="0717539448-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-37">[</span><span class="mf">0.5322748422622681</span><span class="p" data-group-id="0717539448-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0717539448-38">[</span><span class="o">-</span><span class="mf">0.5989866852760315</span><span class="p" data-group-id="0717539448-38">]</span><span class="w">
+      </span><span class="p" data-group-id="0717539448-34">]</span><span class="w">
+    </span><span class="p" data-group-id="0717539448-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0717539448-27">}</span><span class="w">
+</span><span class="p" data-group-id="0717539448-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/lstm_generation.html b/lstm_generation.html
index 9115f81f..36603998 100644
--- a/lstm_generation.html
+++ b/lstm_generation.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,15 +136,15 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6311732583-1">(</span><span class="p" data-group-id="6311732583-2">[</span><span class="w">
-  </span><span class="p" data-group-id="6311732583-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="6311732583-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6311732583-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6311732583-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6311732583-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="6311732583-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="6311732583-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="6311732583-6">}</span><span class="w">
-</span><span class="p" data-group-id="6311732583-2">]</span><span class="p" data-group-id="6311732583-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2198009189-1">(</span><span class="p" data-group-id="2198009189-2">[</span><span class="w">
+  </span><span class="p" data-group-id="2198009189-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="2198009189-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2198009189-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="2198009189-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2198009189-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="2198009189-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="2198009189-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="2198009189-6">}</span><span class="w">
+</span><span class="p" data-group-id="2198009189-2">]</span><span class="p" data-group-id="2198009189-1">)</span><span class="w">
 
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="6311732583-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="6311732583-7">)</span><span class="w">
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="6311732583-8">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="6311732583-8">)</span></code></pre><h2 id="introduction" class="section-heading">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="2198009189-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2198009189-7">)</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">global_default_backend</span><span class="p" data-group-id="2198009189-8">(</span><span class="nc">EXLA.Backend</span><span class="p" data-group-id="2198009189-8">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -159,43 +159,43 @@ <h1>
 <p>Using <a href="https://www.gutenberg.org/">Project Gutenburg</a> we can download a text books that are no longer protected under copywrite, so we can experiment with them.</p><p>The one that we will use for this experiment is <a href="https://www.gutenberg.org/ebooks/11">Alice's Adventures in Wonderland by Lewis Carroll</a>. You can choose any other text or book that you like for this experiment.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Change the URL if you&#39;d like to experiment with other books</span><span class="w">
 </span><span class="n">download_url</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;https://www.gutenberg.org/files/11/11-0.txt&quot;</span><span class="w">
 
-</span><span class="n">book_text</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="0744256744-1">(</span><span class="n">download_url</span><span class="p" data-group-id="0744256744-1">)</span><span class="o">.</span><span class="n">body</span></code></pre><p>First of all, we need to normalize the content of the book. We are only interested in the sequence of English characters, periods and new lines. Also currently we don't care about the capitalization and things like apostrophe so we can remove all other unknown characters and downcase everything. We can use a regular expression for that.</p><p>We can also convert the string into a list of characters so we can handle them easier. You will understand exactly why a bit further.</p><pre><code class="makeup elixir" translate="no"><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="n">book_text</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="2353522760-1">(</span><span class="n">download_url</span><span class="p" data-group-id="2353522760-1">)</span><span class="o">.</span><span class="n">body</span></code></pre><p>First of all, we need to normalize the content of the book. We are only interested in the sequence of English characters, periods and new lines. Also currently we don't care about the capitalization and things like apostrophe so we can remove all other unknown characters and downcase everything. We can use a regular expression for that.</p><p>We can also convert the string into a list of characters so we can handle them easier. You will understand exactly why a bit further.</p><pre><code class="makeup elixir" translate="no"><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">book_text</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">downcase</span><span class="p" data-group-id="8182502534-1">(</span><span class="p" data-group-id="8182502534-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">replace</span><span class="p" data-group-id="8182502534-2">(</span><span class="sr">~r/[^a-z </span><span class="se">\.</span><span class="se">\n</span><span class="sr">]/</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&quot;</span><span class="p" data-group-id="8182502534-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_charlist</span><span class="p" data-group-id="8182502534-3">(</span><span class="p" data-group-id="8182502534-3">)</span></code></pre><p>We converted the text to a list of characters, where each character is a number (specifically, a Unicode code point). Lowercase English characters are represented with numbers between <code class="inline">97 = a</code> and <code class="inline">122 = z</code>, a space is <code class="inline">32 = [ ]</code>, a new line is <code class="inline">10 = \n</code> and the period is <code class="inline">46 = .</code>.</p><p>So we should have 26 + 3 (= 29) characters in total. Let's see if that's true.</p><pre><code class="makeup elixir" translate="no"><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">uniq</span><span class="p" data-group-id="2702698682-1">(</span><span class="p" data-group-id="2702698682-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="2702698682-2">(</span><span class="p" data-group-id="2702698682-2">)</span></code></pre><p>Since we want to use this 29 characters as possible values for each input in our neural network, we can re-map them to values between 0 and 28. So each specific neuron will indicate a specific character.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Extract all then unique characters we have and sort them for clarity</span><span class="w">
-</span><span class="n">characters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">uniq</span><span class="p" data-group-id="1259220892-1">(</span><span class="p" data-group-id="1259220892-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">sort</span><span class="p" data-group-id="1259220892-2">(</span><span class="p" data-group-id="1259220892-2">)</span><span class="w">
-</span><span class="n">characters_count</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="1259220892-3">(</span><span class="n">characters</span><span class="p" data-group-id="1259220892-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">downcase</span><span class="p" data-group-id="3438650775-1">(</span><span class="p" data-group-id="3438650775-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">replace</span><span class="p" data-group-id="3438650775-2">(</span><span class="sr">~r/[^a-z </span><span class="se">\.</span><span class="se">\n</span><span class="sr">]/</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&quot;</span><span class="p" data-group-id="3438650775-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_charlist</span><span class="p" data-group-id="3438650775-3">(</span><span class="p" data-group-id="3438650775-3">)</span></code></pre><p>We converted the text to a list of characters, where each character is a number (specifically, a Unicode code point). Lowercase English characters are represented with numbers between <code class="inline">97 = a</code> and <code class="inline">122 = z</code>, a space is <code class="inline">32 = [ ]</code>, a new line is <code class="inline">10 = \n</code> and the period is <code class="inline">46 = .</code>.</p><p>So we should have 26 + 3 (= 29) characters in total. Let's see if that's true.</p><pre><code class="makeup elixir" translate="no"><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">uniq</span><span class="p" data-group-id="5534519869-1">(</span><span class="p" data-group-id="5534519869-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="5534519869-2">(</span><span class="p" data-group-id="5534519869-2">)</span></code></pre><p>Since we want to use this 29 characters as possible values for each input in our neural network, we can re-map them to values between 0 and 28. So each specific neuron will indicate a specific character.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Extract all then unique characters we have and sort them for clarity</span><span class="w">
+</span><span class="n">characters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">normalized_book_text</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">uniq</span><span class="p" data-group-id="2915452585-1">(</span><span class="p" data-group-id="2915452585-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">sort</span><span class="p" data-group-id="2915452585-2">(</span><span class="p" data-group-id="2915452585-2">)</span><span class="w">
+</span><span class="n">characters_count</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="2915452585-3">(</span><span class="n">characters</span><span class="p" data-group-id="2915452585-3">)</span><span class="w">
 
 </span><span class="c1"># Create a mapping for every character</span><span class="w">
-</span><span class="n">char_to_idx</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">characters</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">with_index</span><span class="p" data-group-id="1259220892-4">(</span><span class="p" data-group-id="1259220892-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Map</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="1259220892-5">(</span><span class="p" data-group-id="1259220892-5">)</span><span class="w">
+</span><span class="n">char_to_idx</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">characters</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">with_index</span><span class="p" data-group-id="2915452585-4">(</span><span class="p" data-group-id="2915452585-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Map</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2915452585-5">(</span><span class="p" data-group-id="2915452585-5">)</span><span class="w">
 </span><span class="c1"># And a reverse mapping to convert back to characters</span><span class="w">
-</span><span class="n">idx_to_char</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">characters</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">with_index</span><span class="p" data-group-id="1259220892-6">(</span><span class="o">&amp;</span><span class="p" data-group-id="1259220892-7">{</span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="1259220892-7">}</span><span class="p" data-group-id="1259220892-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Map</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="1259220892-8">(</span><span class="p" data-group-id="1259220892-8">)</span><span class="w">
+</span><span class="n">idx_to_char</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">characters</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">with_index</span><span class="p" data-group-id="2915452585-6">(</span><span class="o">&amp;</span><span class="p" data-group-id="2915452585-7">{</span><span class="ni">&amp;2</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="2915452585-7">}</span><span class="p" data-group-id="2915452585-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Map</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2915452585-8">(</span><span class="p" data-group-id="2915452585-8">)</span><span class="w">
 
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="1259220892-9">(</span><span class="s">&quot;Total book characters: </span><span class="si" data-group-id="1259220892-10">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="1259220892-11">(</span><span class="n">normalized_book_text</span><span class="p" data-group-id="1259220892-11">)</span><span class="si" data-group-id="1259220892-10">}</span><span class="s">&quot;</span><span class="p" data-group-id="1259220892-9">)</span><span class="w">
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="1259220892-12">(</span><span class="s">&quot;Total unique characters: </span><span class="si" data-group-id="1259220892-13">#{</span><span class="n">characters_count</span><span class="si" data-group-id="1259220892-13">}</span><span class="s">&quot;</span><span class="p" data-group-id="1259220892-12">)</span></code></pre><p>Now we need to create our training and testing data sets. But how?</p><p>Our goal is to teach the machine what comes after a sequence of characters (usually). For example given the following sequence <strong>&quot;Hello, My name i&quot;</strong> the computer should be able to guess that the next character is probably <strong>&quot;s&quot;</strong>.</p><!-- livebook:{"break_markdown":true} --><!-- Learn more at https://mermaid-js.github.io/mermaid --><pre><code class="mermaid">graph LR;
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="2915452585-9">(</span><span class="s">&quot;Total book characters: </span><span class="si" data-group-id="2915452585-10">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="2915452585-11">(</span><span class="n">normalized_book_text</span><span class="p" data-group-id="2915452585-11">)</span><span class="si" data-group-id="2915452585-10">}</span><span class="s">&quot;</span><span class="p" data-group-id="2915452585-9">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="2915452585-12">(</span><span class="s">&quot;Total unique characters: </span><span class="si" data-group-id="2915452585-13">#{</span><span class="n">characters_count</span><span class="si" data-group-id="2915452585-13">}</span><span class="s">&quot;</span><span class="p" data-group-id="2915452585-12">)</span></code></pre><p>Now we need to create our training and testing data sets. But how?</p><p>Our goal is to teach the machine what comes after a sequence of characters (usually). For example given the following sequence <strong>&quot;Hello, My name i&quot;</strong> the computer should be able to guess that the next character is probably <strong>&quot;s&quot;</strong>.</p><!-- livebook:{"break_markdown":true} --><!-- Learn more at https://mermaid-js.github.io/mermaid --><pre><code class="mermaid">graph LR;
   A[Input: Hello my name i]--&gt;NN[Neural Network]--&gt;B[Output: s];</code></pre><!-- livebook:{"break_markdown":true} --><p>Let's choose an arbitrary sequence length and create a data set from the book text. All we need to do is read X amount of characters from the book as the input and then read 1 more as the designated output.</p><p>After doing all that, we also want to convert every character to it's index using the <code class="inline">char_to_idx</code> mapping that we have created before.</p><p>Neural networks work best if you scale your inputs and outputs. In this case we are going to scale everything between 0 and 1 by dividing them by the number of unique characters that we have.</p><p>And for the final step we will reshape it so we can use the data in our LSTM model.</p><pre><code class="makeup elixir" translate="no"><span class="n">sequence_length</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">100</span><span class="w">
 
 </span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">normalized_book_text</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="8452887929-1">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="8452887929-2">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="8452887929-2">)</span><span class="p" data-group-id="8452887929-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">chunk_every</span><span class="p" data-group-id="8452887929-3">(</span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">:discard</span><span class="p" data-group-id="8452887929-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7254339902-1">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="7254339902-2">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="7254339902-2">)</span><span class="p" data-group-id="7254339902-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">chunk_every</span><span class="p" data-group-id="7254339902-3">(</span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">:discard</span><span class="p" data-group-id="7254339902-3">)</span><span class="w">
   </span><span class="c1"># We don&#39;t want the last chunk since we don&#39;t have a prediction for it.</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">drop</span><span class="p" data-group-id="8452887929-4">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="8452887929-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8452887929-5">(</span><span class="p" data-group-id="8452887929-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="8452887929-6">(</span><span class="n">characters_count</span><span class="p" data-group-id="8452887929-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="8452887929-7">(</span><span class="p" data-group-id="8452887929-8">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8452887929-8">}</span><span class="p" data-group-id="8452887929-7">)</span></code></pre><p>For our train results, We will do the same. Drop the first <code class="inline">sequence_length</code> characters and then convert them to the mapping. Additionally, we will do <strong>one-hot encoding</strong>.</p><p>The reason we want to use one-hot encoding is that in our model we don't want to only return a character as the output. We want it to return the probability of each character for the output. This way we can decide if certain probability is good or not or even we can decide between multiple possible outputs or even discard everything if the network is not confident enough.</p><p>In Nx, you can achieve this encoding by using this snippet</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3823430060-1">(</span><span class="p" data-group-id="3823430060-2">[</span><span class="w">
-  </span><span class="p" data-group-id="3823430060-3">[</span><span class="mi">0</span><span class="p" data-group-id="3823430060-3">]</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3823430060-4">[</span><span class="mi">1</span><span class="p" data-group-id="3823430060-4">]</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3823430060-5">[</span><span class="mi">2</span><span class="p" data-group-id="3823430060-5">]</span><span class="w">
-</span><span class="p" data-group-id="3823430060-2">]</span><span class="p" data-group-id="3823430060-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="3823430060-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3823430060-7">(</span><span class="p" data-group-id="3823430060-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3823430060-8">}</span><span class="p" data-group-id="3823430060-7">)</span><span class="p" data-group-id="3823430060-6">)</span></code></pre><p>To sum it up, Here is how we generate the train results.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_results</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">drop</span><span class="p" data-group-id="7254339902-4">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="7254339902-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7254339902-5">(</span><span class="p" data-group-id="7254339902-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="7254339902-6">(</span><span class="n">characters_count</span><span class="p" data-group-id="7254339902-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="7254339902-7">(</span><span class="p" data-group-id="7254339902-8">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7254339902-8">}</span><span class="p" data-group-id="7254339902-7">)</span></code></pre><p>For our train results, We will do the same. Drop the first <code class="inline">sequence_length</code> characters and then convert them to the mapping. Additionally, we will do <strong>one-hot encoding</strong>.</p><p>The reason we want to use one-hot encoding is that in our model we don't want to only return a character as the output. We want it to return the probability of each character for the output. This way we can decide if certain probability is good or not or even we can decide between multiple possible outputs or even discard everything if the network is not confident enough.</p><p>In Nx, you can achieve this encoding by using this snippet</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3907153505-1">(</span><span class="p" data-group-id="3907153505-2">[</span><span class="w">
+  </span><span class="p" data-group-id="3907153505-3">[</span><span class="mi">0</span><span class="p" data-group-id="3907153505-3">]</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3907153505-4">[</span><span class="mi">1</span><span class="p" data-group-id="3907153505-4">]</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3907153505-5">[</span><span class="mi">2</span><span class="p" data-group-id="3907153505-5">]</span><span class="w">
+</span><span class="p" data-group-id="3907153505-2">]</span><span class="p" data-group-id="3907153505-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="3907153505-6">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3907153505-7">(</span><span class="p" data-group-id="3907153505-8">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p" data-group-id="3907153505-8">}</span><span class="p" data-group-id="3907153505-7">)</span><span class="p" data-group-id="3907153505-6">)</span></code></pre><p>To sum it up, Here is how we generate the train results.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_results</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">normalized_book_text</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">drop</span><span class="p" data-group-id="1062576083-1">(</span><span class="n">sequence_length</span><span class="p" data-group-id="1062576083-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="1062576083-2">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="1062576083-3">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="1062576083-3">)</span><span class="p" data-group-id="1062576083-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1062576083-4">(</span><span class="p" data-group-id="1062576083-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="1062576083-5">(</span><span class="p" data-group-id="1062576083-6">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1062576083-6">}</span><span class="p" data-group-id="1062576083-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="1062576083-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="1062576083-8">(</span><span class="p" data-group-id="1062576083-9">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">characters_count</span><span class="p" data-group-id="1062576083-9">}</span><span class="p" data-group-id="1062576083-8">)</span><span class="p" data-group-id="1062576083-7">)</span></code></pre><h2 id="defining-the-model" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">drop</span><span class="p" data-group-id="8753637268-1">(</span><span class="n">sequence_length</span><span class="p" data-group-id="8753637268-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="8753637268-2">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="8753637268-3">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="8753637268-3">)</span><span class="p" data-group-id="8753637268-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8753637268-4">(</span><span class="p" data-group-id="8753637268-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="8753637268-5">(</span><span class="p" data-group-id="8753637268-6">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8753637268-6">}</span><span class="p" data-group-id="8753637268-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="8753637268-7">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="8753637268-8">(</span><span class="p" data-group-id="8753637268-9">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">characters_count</span><span class="p" data-group-id="8753637268-9">}</span><span class="p" data-group-id="8753637268-8">)</span><span class="p" data-group-id="8753637268-7">)</span></code></pre><h2 id="defining-the-model" class="section-heading">
   <a href="#defining-the-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -204,34 +204,34 @@ <h1>
 <pre><code class="makeup elixir" translate="no"><span class="c1"># As the input, we expect the sequence_length characters</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1917155995-1">(</span><span class="s">&quot;input_chars&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1917155995-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1917155995-2">}</span><span class="p" data-group-id="1917155995-1">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0692757491-1">(</span><span class="s">&quot;input_chars&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0692757491-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0692757491-2">}</span><span class="p" data-group-id="0692757491-1">)</span><span class="w">
   </span><span class="c1"># The LSTM layer of our network</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="1917155995-3">(</span><span class="mi">256</span><span class="p" data-group-id="1917155995-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="0692757491-3">(</span><span class="mi">256</span><span class="p" data-group-id="0692757491-3">)</span><span class="w">
   </span><span class="c1"># Selecting only the output from the LSTM Layer</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="1917155995-4">(</span><span class="k" data-group-id="1917155995-5">fn</span><span class="w"> </span><span class="p" data-group-id="1917155995-6">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="1917155995-6">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="1917155995-5">end</span><span class="p" data-group-id="1917155995-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="0692757491-4">(</span><span class="k" data-group-id="0692757491-5">fn</span><span class="w"> </span><span class="p" data-group-id="0692757491-6">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="0692757491-6">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="0692757491-5">end</span><span class="p" data-group-id="0692757491-4">)</span><span class="w">
   </span><span class="c1"># Since we only want the last sequence in LSTM we will slice it and</span><span class="w">
   </span><span class="c1"># select the last one</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="1917155995-7">(</span><span class="k" data-group-id="1917155995-8">fn</span><span class="w"> </span><span class="n">t</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">t</span><span class="p" data-group-id="1917155995-9">[</span><span class="p" data-group-id="1917155995-10">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="1917155995-10">]</span><span class="p" data-group-id="1917155995-9">]</span><span class="w"> </span><span class="k" data-group-id="1917155995-8">end</span><span class="p" data-group-id="1917155995-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="0692757491-7">(</span><span class="k" data-group-id="0692757491-8">fn</span><span class="w"> </span><span class="n">t</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">t</span><span class="p" data-group-id="0692757491-9">[</span><span class="p" data-group-id="0692757491-10">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="0692757491-10">]</span><span class="p" data-group-id="0692757491-9">]</span><span class="w"> </span><span class="k" data-group-id="0692757491-8">end</span><span class="p" data-group-id="0692757491-7">)</span><span class="w">
   </span><span class="c1"># 20% dropout so we will not become too dependent on specific neurons</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="1917155995-11">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="1917155995-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="0692757491-11">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="0692757491-11">)</span><span class="w">
   </span><span class="c1"># The output layer. One neuron for each character and using softmax,</span><span class="w">
   </span><span class="c1"># as activation so every node represents a probability</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1917155995-12">(</span><span class="n">characters_count</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="1917155995-12">)</span></code></pre><h2 id="training-the-network" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0692757491-12">(</span><span class="n">characters_count</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="0692757491-12">)</span></code></pre><h2 id="training-the-network" class="section-heading">
   <a href="#training-the-network" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Training the network</span>
 </h2>
 <p>To train the network, we will use Axon's Loop API. It is pretty straightforward.</p><p>For the loss function we can use <em>categorical cross-entropy</em> since we are dealing with categories (each character) in our output. For the optimizer we can use <em>Adam</em>.</p><p>We will train our network for 20 epochs. Note that we are working with a fair amount data, so it may take a long time unless you run it on a GPU.</p><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
-</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="9236695706-1">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="9236695706-1">)</span><span class="w">
-</span><span class="n">result_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="9236695706-2">(</span><span class="n">train_results</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="9236695706-2">)</span><span class="w">
+</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="3446027819-1">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="3446027819-1">)</span><span class="w">
+</span><span class="n">result_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="3446027819-2">(</span><span class="n">train_results</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="3446027819-2">)</span><span class="w">
 
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="9236695706-3">(</span><span class="s">&quot;Total batches: </span><span class="si" data-group-id="9236695706-4">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="9236695706-5">(</span><span class="n">train_batches</span><span class="p" data-group-id="9236695706-5">)</span><span class="si" data-group-id="9236695706-4">}</span><span class="s">&quot;</span><span class="p" data-group-id="9236695706-3">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="3446027819-3">(</span><span class="s">&quot;Total batches: </span><span class="si" data-group-id="3446027819-4">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="3446027819-5">(</span><span class="n">train_batches</span><span class="p" data-group-id="3446027819-5">)</span><span class="si" data-group-id="3446027819-4">}</span><span class="s">&quot;</span><span class="p" data-group-id="3446027819-3">)</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9236695706-6">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="9236695706-7">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="9236695706-7">)</span><span class="p" data-group-id="9236695706-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9236695706-8">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="9236695706-9">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="n">result_batches</span><span class="p" data-group-id="9236695706-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9236695706-10">%{</span><span class="p" data-group-id="9236695706-10">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9236695706-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3446027819-6">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="3446027819-7">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="3446027819-7">)</span><span class="p" data-group-id="3446027819-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3446027819-8">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="3446027819-9">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="n">result_batches</span><span class="p" data-group-id="3446027819-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3446027819-10">%{</span><span class="p" data-group-id="3446027819-10">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3446027819-8">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="generating-text" class="section-heading">
   <a href="#generating-text" class="hover-link">
@@ -239,32 +239,32 @@ <h1>
   </a>
   <span class="text">Generating text</span>
 </h2>
-<p>Now we have a trained neural network, so we can start generating text with it! We just need to pass the initial sequence as the input to the network and select the most probable output. <a href="Axon.html#predict/3"><code class="inline">Axon.predict/3</code></a> will give us the output layer and then using <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#argmax/1"><code class="inline">Nx.argmax/1</code></a> we get the most confident neuron index, then simply convert that index back to its Unicode representation.</p><pre><code class="makeup elixir" translate="no"><span class="n">generate_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="1732394907-1">fn</span><span class="w"> </span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+<p>Now we have a trained neural network, so we can start generating text with it! We just need to pass the initial sequence as the input to the network and select the most probable output. <a href="Axon.html#predict/3"><code class="inline">Axon.predict/3</code></a> will give us the output layer and then using <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#argmax/1"><code class="inline">Nx.argmax/1</code></a> we get the most confident neuron index, then simply convert that index back to its Unicode representation.</p><pre><code class="makeup elixir" translate="no"><span class="n">generate_fn</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="2730322186-1">fn</span><span class="w"> </span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="c1"># The initial sequence that we want the network to complete for us.</span><span class="w">
   </span><span class="n">init_seq</span><span class="w"> </span><span class="o">=</span><span class="w">
     </span><span class="n">init_seq</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">trim</span><span class="p" data-group-id="1732394907-2">(</span><span class="p" data-group-id="1732394907-2">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">downcase</span><span class="p" data-group-id="1732394907-3">(</span><span class="p" data-group-id="1732394907-3">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_charlist</span><span class="p" data-group-id="1732394907-4">(</span><span class="p" data-group-id="1732394907-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="1732394907-5">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="1732394907-6">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="1732394907-6">)</span><span class="p" data-group-id="1732394907-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">trim</span><span class="p" data-group-id="2730322186-2">(</span><span class="p" data-group-id="2730322186-2">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">downcase</span><span class="p" data-group-id="2730322186-3">(</span><span class="p" data-group-id="2730322186-3">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">String</span><span class="o">.</span><span class="n">to_charlist</span><span class="p" data-group-id="2730322186-4">(</span><span class="p" data-group-id="2730322186-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="2730322186-5">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="2730322186-6">(</span><span class="n">char_to_idx</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="2730322186-6">)</span><span class="p" data-group-id="2730322186-5">)</span><span class="w">
 
-  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="1732394907-7">(</span><span class="mi">1</span><span class="o">..</span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="1732394907-8">fn</span><span class="w"> </span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">seq</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">reduce</span><span class="p" data-group-id="2730322186-7">(</span><span class="mi">1</span><span class="o">..</span><span class="mi">100</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="2730322186-8">fn</span><span class="w"> </span><span class="bp">_</span><span class="p">,</span><span class="w"> </span><span class="n">seq</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
     </span><span class="n">init_seq</span><span class="w"> </span><span class="o">=</span><span class="w">
       </span><span class="n">seq</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="1732394907-9">(</span><span class="o">-</span><span class="n">sequence_length</span><span class="p" data-group-id="1732394907-9">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="1732394907-10">(</span><span class="p" data-group-id="1732394907-10">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="1732394907-11">(</span><span class="n">characters_count</span><span class="p" data-group-id="1732394907-11">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="1732394907-12">(</span><span class="p" data-group-id="1732394907-13">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="1732394907-13">}</span><span class="p" data-group-id="1732394907-12">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">take</span><span class="p" data-group-id="2730322186-9">(</span><span class="o">-</span><span class="n">sequence_length</span><span class="p" data-group-id="2730322186-9">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="2730322186-10">(</span><span class="p" data-group-id="2730322186-10">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="2730322186-11">(</span><span class="n">characters_count</span><span class="p" data-group-id="2730322186-11">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="2730322186-12">(</span><span class="p" data-group-id="2730322186-13">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2730322186-13">}</span><span class="p" data-group-id="2730322186-12">)</span><span class="w">
 
     </span><span class="n">char</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="1732394907-14">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="1732394907-14">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">argmax</span><span class="p" data-group-id="1732394907-15">(</span><span class="p" data-group-id="1732394907-15">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="1732394907-16">(</span><span class="p" data-group-id="1732394907-16">)</span><span class="w">
+      </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="2730322186-14">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="2730322186-14">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">argmax</span><span class="p" data-group-id="2730322186-15">(</span><span class="p" data-group-id="2730322186-15">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_number</span><span class="p" data-group-id="2730322186-16">(</span><span class="p" data-group-id="2730322186-16">)</span><span class="w">
 
-    </span><span class="n">seq</span><span class="w"> </span><span class="o">++</span><span class="w"> </span><span class="p" data-group-id="1732394907-17">[</span><span class="n">char</span><span class="p" data-group-id="1732394907-17">]</span><span class="w">
-  </span><span class="k" data-group-id="1732394907-8">end</span><span class="p" data-group-id="1732394907-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="1732394907-18">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="1732394907-19">(</span><span class="n">idx_to_char</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="1732394907-19">)</span><span class="p" data-group-id="1732394907-18">)</span><span class="w">
-</span><span class="k" data-group-id="1732394907-1">end</span><span class="w">
+    </span><span class="n">seq</span><span class="w"> </span><span class="o">++</span><span class="w"> </span><span class="p" data-group-id="2730322186-17">[</span><span class="n">char</span><span class="p" data-group-id="2730322186-17">]</span><span class="w">
+  </span><span class="k" data-group-id="2730322186-8">end</span><span class="p" data-group-id="2730322186-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="2730322186-18">(</span><span class="o">&amp;</span><span class="nc">Map</span><span class="o">.</span><span class="n">fetch!</span><span class="p" data-group-id="2730322186-19">(</span><span class="n">idx_to_char</span><span class="p">,</span><span class="w"> </span><span class="ni">&amp;1</span><span class="p" data-group-id="2730322186-19">)</span><span class="p" data-group-id="2730322186-18">)</span><span class="w">
+</span><span class="k" data-group-id="2730322186-1">end</span><span class="w">
 
 </span><span class="c1"># The initial sequence that we want the network to complete for us.</span><span class="w">
 </span><span class="n">init_seq</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
@@ -273,34 +273,34 @@ <h1>
 cupboards as she fell past it.
 &quot;&quot;&quot;</span><span class="w">
 
-</span><span class="n">generate_fn</span><span class="o">.</span><span class="p" data-group-id="1732394907-20">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="1732394907-20">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="1732394907-21">(</span><span class="p" data-group-id="1732394907-21">)</span></code></pre><h2 id="multi-lstm-layers" class="section-heading">
+</span><span class="n">generate_fn</span><span class="o">.</span><span class="p" data-group-id="2730322186-20">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="2730322186-20">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="2730322186-21">(</span><span class="p" data-group-id="2730322186-21">)</span></code></pre><h2 id="multi-lstm-layers" class="section-heading">
   <a href="#multi-lstm-layers" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Multi LSTM layers</span>
 </h2>
 <p>We can improve our network by stacking multiple LSTM layers together. We just need to change our model and re-train our network.</p><pre><code class="makeup elixir" translate="no"><span class="n">new_model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4742113085-1">(</span><span class="s">&quot;input_chars&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4742113085-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4742113085-2">}</span><span class="p" data-group-id="4742113085-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="4742113085-3">(</span><span class="mi">256</span><span class="p" data-group-id="4742113085-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="4742113085-4">(</span><span class="k" data-group-id="4742113085-5">fn</span><span class="w"> </span><span class="p" data-group-id="4742113085-6">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="4742113085-6">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="4742113085-5">end</span><span class="p" data-group-id="4742113085-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4742113085-7">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="4742113085-7">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4749284422-1">(</span><span class="s">&quot;input_chars&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4749284422-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="n">sequence_length</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4749284422-2">}</span><span class="p" data-group-id="4749284422-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="4749284422-3">(</span><span class="mi">256</span><span class="p" data-group-id="4749284422-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="4749284422-4">(</span><span class="k" data-group-id="4749284422-5">fn</span><span class="w"> </span><span class="p" data-group-id="4749284422-6">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="4749284422-6">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="4749284422-5">end</span><span class="p" data-group-id="4749284422-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4749284422-7">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="4749284422-7">)</span><span class="w">
   </span><span class="c1"># This time we will pass all of the `out` to the next lstm layer.</span><span class="w">
   </span><span class="c1"># We just need to slice the last one.</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="4742113085-8">(</span><span class="mi">256</span><span class="p" data-group-id="4742113085-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="4742113085-9">(</span><span class="k" data-group-id="4742113085-10">fn</span><span class="w"> </span><span class="p" data-group-id="4742113085-11">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="4742113085-11">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="4742113085-10">end</span><span class="p" data-group-id="4742113085-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="4742113085-12">(</span><span class="k" data-group-id="4742113085-13">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="4742113085-14">[</span><span class="p" data-group-id="4742113085-15">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="4742113085-15">]</span><span class="p" data-group-id="4742113085-14">]</span><span class="w"> </span><span class="k" data-group-id="4742113085-13">end</span><span class="p" data-group-id="4742113085-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4742113085-16">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="4742113085-16">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4742113085-17">(</span><span class="n">characters_count</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="4742113085-17">)</span></code></pre><p>Then we can train the network using the exact same code as before</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Using a smaller batch size in this case will give the network more opportunity to learn</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">lstm</span><span class="p" data-group-id="4749284422-8">(</span><span class="mi">256</span><span class="p" data-group-id="4749284422-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">then</span><span class="p" data-group-id="4749284422-9">(</span><span class="k" data-group-id="4749284422-10">fn</span><span class="w"> </span><span class="p" data-group-id="4749284422-11">{</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="bp">_</span><span class="p" data-group-id="4749284422-11">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">out</span><span class="w"> </span><span class="k" data-group-id="4749284422-10">end</span><span class="p" data-group-id="4749284422-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">nx</span><span class="p" data-group-id="4749284422-12">(</span><span class="k" data-group-id="4749284422-13">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="p" data-group-id="4749284422-14">[</span><span class="p" data-group-id="4749284422-15">[</span><span class="mi">0</span><span class="o">..</span><span class="o">-</span><span class="mi">1</span><span class="o">//</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="4749284422-15">]</span><span class="p" data-group-id="4749284422-14">]</span><span class="w"> </span><span class="k" data-group-id="4749284422-13">end</span><span class="p" data-group-id="4749284422-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="4749284422-16">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2</span><span class="p" data-group-id="4749284422-16">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="4749284422-17">(</span><span class="n">characters_count</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="4749284422-17">)</span></code></pre><p>Then we can train the network using the exact same code as before</p><pre><code class="makeup elixir" translate="no"><span class="c1"># Using a smaller batch size in this case will give the network more opportunity to learn</span><span class="w">
 </span><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">64</span><span class="w">
-</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7195913929-1">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="7195913929-1">)</span><span class="w">
-</span><span class="n">result_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7195913929-2">(</span><span class="n">train_results</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="7195913929-2">)</span><span class="w">
+</span><span class="n">train_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="8517486641-1">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="8517486641-1">)</span><span class="w">
+</span><span class="n">result_batches</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="8517486641-2">(</span><span class="n">train_results</span><span class="p">,</span><span class="w"> </span><span class="n">batch_size</span><span class="p" data-group-id="8517486641-2">)</span><span class="w">
 
-</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7195913929-3">(</span><span class="s">&quot;Total batches: </span><span class="si" data-group-id="7195913929-4">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="7195913929-5">(</span><span class="n">train_batches</span><span class="p" data-group-id="7195913929-5">)</span><span class="si" data-group-id="7195913929-4">}</span><span class="s">&quot;</span><span class="p" data-group-id="7195913929-3">)</span><span class="w">
+</span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="8517486641-3">(</span><span class="s">&quot;Total batches: </span><span class="si" data-group-id="8517486641-4">#{</span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="8517486641-5">(</span><span class="n">train_batches</span><span class="p" data-group-id="8517486641-5">)</span><span class="si" data-group-id="8517486641-4">}</span><span class="s">&quot;</span><span class="p" data-group-id="8517486641-3">)</span><span class="w">
 
 </span><span class="n">new_params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">new_model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7195913929-6">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="7195913929-7">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="7195913929-7">)</span><span class="p" data-group-id="7195913929-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7195913929-8">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="7195913929-9">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="n">result_batches</span><span class="p" data-group-id="7195913929-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7195913929-10">%{</span><span class="p" data-group-id="7195913929-10">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7195913929-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8517486641-6">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adam</span><span class="p" data-group-id="8517486641-7">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="8517486641-7">)</span><span class="p" data-group-id="8517486641-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8517486641-8">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="8517486641-9">(</span><span class="n">train_batches</span><span class="p">,</span><span class="w"> </span><span class="n">result_batches</span><span class="p" data-group-id="8517486641-9">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8517486641-10">%{</span><span class="p" data-group-id="8517486641-10">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="8517486641-8">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><h2 id="generate-text-with-the-new-network" class="section-heading">
   <a href="#generate-text-with-the-new-network" class="hover-link">
@@ -308,7 +308,7 @@ <h1>
   </a>
   <span class="text">Generate text with the new network</span>
 </h2>
-<pre><code class="makeup elixir" translate="no"><span class="n">generate_fn</span><span class="o">.</span><span class="p" data-group-id="2718858215-1">(</span><span class="n">new_model</span><span class="p">,</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="2718858215-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="2718858215-2">(</span><span class="p" data-group-id="2718858215-2">)</span></code></pre><p>As you may see, it improved a lot with this new model and the extensive training. This time it knows about rules like adding a space after period.</p><h2 id="references" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="n">generate_fn</span><span class="o">.</span><span class="p" data-group-id="3559453787-1">(</span><span class="n">new_model</span><span class="p">,</span><span class="w"> </span><span class="n">new_params</span><span class="p">,</span><span class="w"> </span><span class="n">init_seq</span><span class="p" data-group-id="3559453787-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="3559453787-2">(</span><span class="p" data-group-id="3559453787-2">)</span></code></pre><p>As you may see, it improved a lot with this new model and the extensive training. This time it knows about rules like adding a space after period.</p><h2 id="references" class="section-heading">
   <a href="#references" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
diff --git a/mnist.html b/mnist.html
index 7d6e3d1a..55f69739 100644
--- a/mnist.html
+++ b/mnist.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,12 +136,12 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0194832534-1">(</span><span class="p" data-group-id="0194832534-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0194832534-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="0194832534-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0194832534-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0194832534-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0194832534-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="0194832534-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="0194832534-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="0194832534-6">}</span><span class="w">
-</span><span class="p" data-group-id="0194832534-2">]</span><span class="p" data-group-id="0194832534-1">)</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="4428815411-1">(</span><span class="p" data-group-id="4428815411-2">[</span><span class="w">
+  </span><span class="p" data-group-id="4428815411-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="4428815411-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4428815411-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4428815411-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4428815411-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="4428815411-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4428815411-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="4428815411-6">}</span><span class="w">
+</span><span class="p" data-group-id="4428815411-2">]</span><span class="p" data-group-id="4428815411-1">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -154,30 +154,30 @@ <h1>
   <span class="text">Retrieving and exploring the dataset</span>
 </h2>
 <p>The MNIST dataset is available for free online. Using <code class="inline">Req</code> we'll download both training images and training labels. Both <code class="inline">train_images</code> and <code class="inline">train_labels</code> are compressed binary data. Fortunately, <code class="inline">Req</code> takes care of the decompression for us.</p><p>You can read more about the format of the ubyte files <a href="http://yann.lecun.com/exdb/mnist/">here</a>. Each file starts with a magic number and some metadata. We can use binary pattern matching to extract the information we want. In this case we extract the raw binary images and labels.</p><pre><code class="makeup elixir" translate="no"><span class="n">base_url</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;https://storage.googleapis.com/cvdf-datasets/mnist/&quot;</span><span class="w">
-</span><span class="p" data-group-id="5784702195-1">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="5784702195-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="5784702195-2">(</span><span class="n">base_url</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="s">&quot;train-images-idx3-ubyte.gz&quot;</span><span class="p" data-group-id="5784702195-2">)</span><span class="w">
-</span><span class="p" data-group-id="5784702195-3">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">train_labels</span><span class="p" data-group-id="5784702195-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="5784702195-4">(</span><span class="n">base_url</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="s">&quot;train-labels-idx1-ubyte.gz&quot;</span><span class="p" data-group-id="5784702195-4">)</span><span class="w">
+</span><span class="p" data-group-id="6200664224-1">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">train_images</span><span class="p" data-group-id="6200664224-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="6200664224-2">(</span><span class="n">base_url</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="s">&quot;train-images-idx3-ubyte.gz&quot;</span><span class="p" data-group-id="6200664224-2">)</span><span class="w">
+</span><span class="p" data-group-id="6200664224-3">%{</span><span class="ss">body</span><span class="p">:</span><span class="w"> </span><span class="n">train_labels</span><span class="p" data-group-id="6200664224-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Req</span><span class="o">.</span><span class="n">get!</span><span class="p" data-group-id="6200664224-4">(</span><span class="n">base_url</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="s">&quot;train-labels-idx1-ubyte.gz&quot;</span><span class="p" data-group-id="6200664224-4">)</span><span class="w">
 
-</span><span class="p" data-group-id="5784702195-5">&lt;&lt;</span><span class="bp">_</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_images</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_rows</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_cols</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">images</span><span class="o">::</span><span class="n">binary</span><span class="p" data-group-id="5784702195-5">&gt;&gt;</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="w">
-</span><span class="p" data-group-id="5784702195-6">&lt;&lt;</span><span class="bp">_</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_labels</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="o">::</span><span class="n">binary</span><span class="p" data-group-id="5784702195-6">&gt;&gt;</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_labels</span></code></pre><p>We can easily read that binary data into a tensor using <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a>. <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a> expects a raw binary and a data type. In this case, both images and labels are stored as unsigned 8-bit integers. We can start by parsing our images:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="p" data-group-id="6200664224-5">&lt;&lt;</span><span class="bp">_</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_images</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_rows</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_cols</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">images</span><span class="o">::</span><span class="n">binary</span><span class="p" data-group-id="6200664224-5">&gt;&gt;</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span><span class="w">
+</span><span class="p" data-group-id="6200664224-6">&lt;&lt;</span><span class="bp">_</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">n_labels</span><span class="o">::</span><span class="mi">32</span><span class="p">,</span><span class="w"> </span><span class="n">labels</span><span class="o">::</span><span class="n">binary</span><span class="p" data-group-id="6200664224-6">&gt;&gt;</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_labels</span></code></pre><p>We can easily read that binary data into a tensor using <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a>. <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a> expects a raw binary and a data type. In this case, both images and labels are stored as unsigned 8-bit integers. We can start by parsing our images:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="5322265818-1">(</span><span class="p" data-group-id="5322265818-2">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5322265818-2">}</span><span class="p" data-group-id="5322265818-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5322265818-3">(</span><span class="p" data-group-id="5322265818-4">{</span><span class="n">n_images</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">n_rows</span><span class="p">,</span><span class="w"> </span><span class="n">n_cols</span><span class="p" data-group-id="5322265818-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5322265818-5">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5322265818-5">]</span><span class="p" data-group-id="5322265818-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5322265818-6">(</span><span class="mi">255</span><span class="p" data-group-id="5322265818-6">)</span></code></pre><p><a href="https://hexdocs.pm/nx/0.7.0/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a> returns a flat tensor. Using <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#reshape/3"><code class="inline">Nx.reshape/3</code></a> we can manipulate this flat tensor into meaningful dimensions. Notice we also <em>normalized</em> the tensor by dividing the input data by 255. This squeezes the data between 0 and 1 which often leads to better behavior when training models. Now, let's see what these images look like:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="p" data-group-id="5698901985-1">[</span><span class="p" data-group-id="5698901985-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">4</span><span class="p" data-group-id="5698901985-2">]</span><span class="p" data-group-id="5698901985-1">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="5698901985-3">(</span><span class="p" data-group-id="5698901985-3">)</span></code></pre><p>In the reshape operation above, we give each dimension of the tensor a name. This makes it much easier to do things like slicing, and helps make your code easier to understand. Here we slice the <code class="inline">images</code> dimension of the images tensor to obtain the first 5 training images. Then, we convert them to a heatmap for easy visualization.</p><p>It's common to train neural networks in batches (actually correctly called minibatches, but you'll see batch and minibatch used interchangeably). We can &quot;batch&quot; our images into batches of 32 like this:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2880579356-1">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="2880579356-1">)</span></code></pre><p>Now, we'll need to get our labels into batches as well, but first we need to <em>one-hot encode</em> the labels. One-hot encoding converts input data from labels such as <code class="inline">3</code>, <code class="inline">5</code>, <code class="inline">7</code>, etc. into vectors of 0's and a single 1 at the correct labels index. As an example, a label of: <code class="inline">3</code> gets converted to: <code class="inline">[0, 0, 0, 1, 0, 0, 0, 0, 0, 0]</code>.</p><pre><code class="makeup elixir" translate="no"><span class="n">targets</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="5813343543-1">(</span><span class="p" data-group-id="5813343543-2">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5813343543-2">}</span><span class="p" data-group-id="5813343543-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5813343543-3">(</span><span class="p" data-group-id="5813343543-4">{</span><span class="n">n_images</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="n">n_rows</span><span class="p">,</span><span class="w"> </span><span class="n">n_cols</span><span class="p" data-group-id="5813343543-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5813343543-5">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5813343543-5">]</span><span class="p" data-group-id="5813343543-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5813343543-6">(</span><span class="mi">255</span><span class="p" data-group-id="5813343543-6">)</span></code></pre><p><a href="https://hexdocs.pm/nx/0.7.0/Nx.html#from_binary/2"><code class="inline">Nx.from_binary/2</code></a> returns a flat tensor. Using <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#reshape/3"><code class="inline">Nx.reshape/3</code></a> we can manipulate this flat tensor into meaningful dimensions. Notice we also <em>normalized</em> the tensor by dividing the input data by 255. This squeezes the data between 0 and 1 which often leads to better behavior when training models. Now, let's see what these images look like:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="p" data-group-id="1596714214-1">[</span><span class="p" data-group-id="1596714214-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">4</span><span class="p" data-group-id="1596714214-2">]</span><span class="p" data-group-id="1596714214-1">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="1596714214-3">(</span><span class="p" data-group-id="1596714214-3">)</span></code></pre><p>In the reshape operation above, we give each dimension of the tensor a name. This makes it much easier to do things like slicing, and helps make your code easier to understand. Here we slice the <code class="inline">images</code> dimension of the images tensor to obtain the first 5 training images. Then, we convert them to a heatmap for easy visualization.</p><p>It's common to train neural networks in batches (actually correctly called minibatches, but you'll see batch and minibatch used interchangeably). We can &quot;batch&quot; our images into batches of 32 like this:</p><pre><code class="makeup elixir" translate="no"><span class="n">images</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="1431320865-1">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="mi">32</span><span class="p" data-group-id="1431320865-1">)</span></code></pre><p>Now, we'll need to get our labels into batches as well, but first we need to <em>one-hot encode</em> the labels. One-hot encoding converts input data from labels such as <code class="inline">3</code>, <code class="inline">5</code>, <code class="inline">7</code>, etc. into vectors of 0's and a single 1 at the correct labels index. As an example, a label of: <code class="inline">3</code> gets converted to: <code class="inline">[0, 0, 0, 1, 0, 0, 0, 0, 0, 0]</code>.</p><pre><code class="makeup elixir" translate="no"><span class="n">targets</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">labels</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="7890359699-1">(</span><span class="p" data-group-id="7890359699-2">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7890359699-2">}</span><span class="p" data-group-id="7890359699-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">new_axis</span><span class="p" data-group-id="7890359699-3">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="7890359699-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="7890359699-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="7890359699-5">(</span><span class="nc">Enum</span><span class="o">.</span><span class="n">to_list</span><span class="p" data-group-id="7890359699-6">(</span><span class="mi">0</span><span class="o">..</span><span class="mi">9</span><span class="p" data-group-id="7890359699-6">)</span><span class="p" data-group-id="7890359699-5">)</span><span class="p" data-group-id="7890359699-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="7890359699-7">(</span><span class="mi">32</span><span class="p" data-group-id="7890359699-7">)</span></code></pre><h2 id="defining-the-model" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="6365304611-1">(</span><span class="p" data-group-id="6365304611-2">{</span><span class="ss">:u</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6365304611-2">}</span><span class="p" data-group-id="6365304611-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">new_axis</span><span class="p" data-group-id="6365304611-3">(</span><span class="o">-</span><span class="mi">1</span><span class="p" data-group-id="6365304611-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">equal</span><span class="p" data-group-id="6365304611-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="6365304611-5">(</span><span class="nc">Enum</span><span class="o">.</span><span class="n">to_list</span><span class="p" data-group-id="6365304611-6">(</span><span class="mi">0</span><span class="o">..</span><span class="mi">9</span><span class="p" data-group-id="6365304611-6">)</span><span class="p" data-group-id="6365304611-5">)</span><span class="p" data-group-id="6365304611-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6365304611-7">(</span><span class="mi">32</span><span class="p" data-group-id="6365304611-7">)</span></code></pre><h2 id="defining-the-model" class="section-heading">
   <a href="#defining-the-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Defining the model</span>
 </h2>
 <p>Let's start by defining a simple model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9149347891-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9149347891-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="9149347891-2">}</span><span class="p" data-group-id="9149347891-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="9149347891-3">(</span><span class="p" data-group-id="9149347891-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9149347891-4">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="9149347891-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9149347891-5">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="9149347891-5">)</span></code></pre><p>All <a href="Axon.html"><code class="inline">Axon</code></a> models start with an input layer to tell subsequent layers what shapes to expect. We then use <a href="Axon.html#flatten/2"><code class="inline">Axon.flatten/2</code></a> which flattens the previous layer by squeezing all dimensions but the first dimension into a single dimension. Our model consists of 2 fully connected layers with 128 and 10 units respectively. The first layer uses <code class="inline">:relu</code> activation which returns <code class="inline">max(0, input)</code> element-wise. The final layer uses <code class="inline">:softmax</code> activation to return a probability distribution over the 10 labels [0 - 9].</p><h2 id="training" class="section-heading">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5843723349-1">(</span><span class="s">&quot;input&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5843723349-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="5843723349-2">}</span><span class="p" data-group-id="5843723349-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="5843723349-3">(</span><span class="p" data-group-id="5843723349-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5843723349-4">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="5843723349-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5843723349-5">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:softmax</span><span class="p" data-group-id="5843723349-5">)</span></code></pre><p>All <a href="Axon.html"><code class="inline">Axon</code></a> models start with an input layer to tell subsequent layers what shapes to expect. We then use <a href="Axon.html#flatten/2"><code class="inline">Axon.flatten/2</code></a> which flattens the previous layer by squeezing all dimensions but the first dimension into a single dimension. Our model consists of 2 fully connected layers with 128 and 10 units respectively. The first layer uses <code class="inline">:relu</code> activation which returns <code class="inline">max(0, input)</code> element-wise. The final layer uses <code class="inline">:softmax</code> activation to return a probability distribution over the 10 labels [0 - 9].</p><h2 id="training" class="section-heading">
   <a href="#training" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -185,18 +185,18 @@ <h1>
 </h2>
 <p>In Axon we express the task of training using a declarative loop API. First, we need to specify a loss function and optimizer, there are many built-in variants to choose from. In this example, we'll use <em>categorical cross-entropy</em> and the <em>Adam</em> optimizer. We will also keep track of the <em>accuracy</em> metric. Finally, we run training loop passing our batched images and labels. We'll train for 10 epochs using the <code class="inline">EXLA</code> compiler.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9345615060-1">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="9345615060-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9345615060-2">(</span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Accuracy&quot;</span><span class="p" data-group-id="9345615060-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9345615060-3">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="9345615060-4">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="9345615060-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9345615060-5">%{</span><span class="p" data-group-id="9345615060-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9345615060-3">)</span></code></pre><h2 id="prediction" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3217330964-1">(</span><span class="ss">:categorical_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:adam</span><span class="p" data-group-id="3217330964-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="3217330964-2">(</span><span class="ss">:accuracy</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Accuracy&quot;</span><span class="p" data-group-id="3217330964-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3217330964-3">(</span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="3217330964-4">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="n">targets</span><span class="p" data-group-id="3217330964-4">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3217330964-5">%{</span><span class="p" data-group-id="3217330964-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3217330964-3">)</span></code></pre><h2 id="prediction" class="section-heading">
   <a href="#prediction" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Prediction</span>
 </h2>
 <p>Now that we have the parameters from the training step, we can use them for predictions.
-For this the <code class="inline">Axon.predict</code> can be used.</p><pre><code class="makeup elixir" translate="no"><span class="n">first_batch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="9333019137-1">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9333019137-1">)</span><span class="w">
+For this the <code class="inline">Axon.predict</code> can be used.</p><pre><code class="makeup elixir" translate="no"><span class="n">first_batch</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="8325798259-1">(</span><span class="n">images</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="8325798259-1">)</span><span class="w">
 
-</span><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="9333019137-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">first_batch</span><span class="p" data-group-id="9333019137-2">)</span></code></pre><p>For each image, the model outputs probability distribution. This informs us how certain the model is about its prediction. Let's see the most probable digit for each image:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">argmax</span><span class="p" data-group-id="2931252404-1">(</span><span class="n">output</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2931252404-1">)</span></code></pre><p>If you look at the original images and you will see the predictions match the data!</p>
+</span><span class="n">output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="8325798259-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">first_batch</span><span class="p" data-group-id="8325798259-2">)</span></code></pre><p>For each image, the model outputs probability distribution. This informs us how certain the model is about its prediction. Let's see the most probable digit for each image:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx</span><span class="o">.</span><span class="n">argmax</span><span class="p" data-group-id="4810820565-1">(</span><span class="n">output</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4810820565-1">)</span></code></pre><p>If you look at the original images and you will see the predictions match the data!</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/mnist_autoencoder_using_kino.html b/mnist_autoencoder_using_kino.html
index ba95bd75..a5a642e1 100644
--- a/mnist_autoencoder_using_kino.html
+++ b/mnist_autoencoder_using_kino.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,16 +136,16 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3127474499-1">(</span><span class="p" data-group-id="3127474499-2">[</span><span class="w">
-  </span><span class="p" data-group-id="3127474499-3">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="3127474499-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3127474499-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3127474499-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3127474499-5">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="3127474499-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3127474499-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="3127474499-6">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3127474499-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="3127474499-7">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3127474499-8">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="3127474499-8">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3127474499-9">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="3127474499-9">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="3127474499-10">{</span><span class="ss">:table_rex</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 3.1.1&quot;</span><span class="p" data-group-id="3127474499-10">}</span><span class="w">
-</span><span class="p" data-group-id="3127474499-2">]</span><span class="p" data-group-id="3127474499-1">)</span></code></pre><h2 id="introduction" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3185320304-1">(</span><span class="p" data-group-id="3185320304-2">[</span><span class="w">
+  </span><span class="p" data-group-id="3185320304-3">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="3185320304-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3185320304-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="3185320304-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3185320304-5">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="3185320304-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3185320304-6">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.1&quot;</span><span class="p" data-group-id="3185320304-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3185320304-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.7.0&quot;</span><span class="p" data-group-id="3185320304-7">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3185320304-8">{</span><span class="ss">:scidata</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.9&quot;</span><span class="p" data-group-id="3185320304-8">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3185320304-9">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.5.2&quot;</span><span class="p" data-group-id="3185320304-9">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="3185320304-10">{</span><span class="ss">:table_rex</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 3.1.1&quot;</span><span class="p" data-group-id="3185320304-10">}</span><span class="w">
+</span><span class="p" data-group-id="3185320304-2">]</span><span class="p" data-group-id="3185320304-1">)</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -158,26 +158,26 @@ <h1>
   <span class="text">Data loading</span>
 </h2>
 <p>An autoencoder learns to recreate data it's seen in the dataset. For this notebook, we're going to try something simple: generating images of digits using the MNIST digit recognition dataset.</p><!-- livebook:{"break_markdown":true} --><p>Following along with the <a href="fashionmnist_autoencoder.html">Fashion MNIST Autoencoder example</a>, we'll use <a href="https://github.com/elixir-nx/scidata">Scidata</a> to download the MNIST dataset and then preprocess the data.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># We&#39;re not going to use the labels so we&#39;ll ignore them</span><span class="w">
-</span><span class="p" data-group-id="8762388323-1">{</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="c">_train_labels</span><span class="p" data-group-id="8762388323-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.MNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="8762388323-2">(</span><span class="p" data-group-id="8762388323-2">)</span><span class="w">
-</span><span class="p" data-group-id="8762388323-3">{</span><span class="n">train_images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="8762388323-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span></code></pre><p>The <code class="inline">shape</code> tells us we have 60,000 images with a single channel of size 28x28.</p><p>According to <a href="http://yann.lecun.com/exdb/mnist/">the MNIST website</a>:</p><blockquote><p>Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).</p></blockquote><p>Let's preprocess and normalize the data accordingly.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="p" data-group-id="4041237586-1">{</span><span class="n">train_images</span><span class="p">,</span><span class="w"> </span><span class="c">_train_labels</span><span class="p" data-group-id="4041237586-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.MNIST</span><span class="o">.</span><span class="n">download</span><span class="p" data-group-id="4041237586-2">(</span><span class="p" data-group-id="4041237586-2">)</span><span class="w">
+</span><span class="p" data-group-id="4041237586-3">{</span><span class="n">train_images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="4041237586-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">train_images</span></code></pre><p>The <code class="inline">shape</code> tells us we have 60,000 images with a single channel of size 28x28.</p><p>According to <a href="http://yann.lecun.com/exdb/mnist/">the MNIST website</a>:</p><blockquote><p>Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).</p></blockquote><p>Let's preprocess and normalize the data accordingly.</p><pre><code class="makeup elixir" translate="no"><span class="n">train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">train_images_binary</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="6905706979-1">(</span><span class="n">type</span><span class="p" data-group-id="6905706979-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="5696997492-1">(</span><span class="n">type</span><span class="p" data-group-id="5696997492-1">)</span><span class="w">
   </span><span class="c1"># Since pixels are organized row-wise, reshape into rows x columns</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="6905706979-2">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6905706979-3">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="6905706979-3">]</span><span class="p" data-group-id="6905706979-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="5696997492-2">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5696997492-3">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5696997492-3">]</span><span class="p" data-group-id="5696997492-2">)</span><span class="w">
   </span><span class="c1"># Normalize the pixel values to be between 0 and 1</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="6905706979-4">(</span><span class="mi">255</span><span class="p" data-group-id="6905706979-4">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># Make sure they look like numbers</span><span class="w">
-</span><span class="n">train_images</span><span class="p" data-group-id="4033735749-1">[</span><span class="p" data-group-id="4033735749-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">2</span><span class="p" data-group-id="4033735749-2">]</span><span class="p" data-group-id="4033735749-1">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="4033735749-3">(</span><span class="p" data-group-id="4033735749-3">)</span></code></pre><p>That looks right! Let's repeat the process for the test set.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0475413464-1">{</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="c">_train_labels</span><span class="p" data-group-id="0475413464-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.MNIST</span><span class="o">.</span><span class="n">download_test</span><span class="p" data-group-id="0475413464-2">(</span><span class="p" data-group-id="0475413464-2">)</span><span class="w">
-</span><span class="p" data-group-id="0475413464-3">{</span><span class="n">test_images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="0475413464-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5696997492-4">(</span><span class="mi">255</span><span class="p" data-group-id="5696997492-4">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="c1"># Make sure they look like numbers</span><span class="w">
+</span><span class="n">train_images</span><span class="p" data-group-id="9243982314-1">[</span><span class="p" data-group-id="9243982314-2">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">2</span><span class="p" data-group-id="9243982314-2">]</span><span class="p" data-group-id="9243982314-1">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="9243982314-3">(</span><span class="p" data-group-id="9243982314-3">)</span></code></pre><p>That looks right! Let's repeat the process for the test set.</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9559708737-1">{</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="c">_train_labels</span><span class="p" data-group-id="9559708737-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Scidata.MNIST</span><span class="o">.</span><span class="n">download_test</span><span class="p" data-group-id="9559708737-2">(</span><span class="p" data-group-id="9559708737-2">)</span><span class="w">
+</span><span class="p" data-group-id="9559708737-3">{</span><span class="n">test_images_binary</span><span class="p">,</span><span class="w"> </span><span class="n">type</span><span class="p">,</span><span class="w"> </span><span class="n">shape</span><span class="p" data-group-id="9559708737-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="w">
 
 </span><span class="n">test_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">test_images_binary</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="0475413464-4">(</span><span class="n">type</span><span class="p" data-group-id="0475413464-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">from_binary</span><span class="p" data-group-id="9559708737-4">(</span><span class="n">type</span><span class="p" data-group-id="9559708737-4">)</span><span class="w">
   </span><span class="c1"># Since pixels are organized row-wise, reshape into rows x columns</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="0475413464-5">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0475413464-6">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="0475413464-6">]</span><span class="p" data-group-id="0475413464-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="9559708737-5">(</span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">names</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9559708737-6">[</span><span class="ss">:images</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="9559708737-6">]</span><span class="p" data-group-id="9559708737-5">)</span><span class="w">
   </span><span class="c1"># Normalize the pixel values to be between 0 and 1</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="0475413464-7">(</span><span class="mi">255</span><span class="p" data-group-id="0475413464-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="9559708737-7">(</span><span class="mi">255</span><span class="p" data-group-id="9559708737-7">)</span><span class="w">
 
-</span><span class="n">test_images</span><span class="p" data-group-id="0475413464-8">[</span><span class="p" data-group-id="0475413464-9">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">2</span><span class="p" data-group-id="0475413464-9">]</span><span class="p" data-group-id="0475413464-8">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="0475413464-10">(</span><span class="p" data-group-id="0475413464-10">)</span></code></pre><h2 id="building-the-model" class="section-heading">
+</span><span class="n">test_images</span><span class="p" data-group-id="9559708737-8">[</span><span class="p" data-group-id="9559708737-9">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="o">..</span><span class="mi">2</span><span class="p" data-group-id="9559708737-9">]</span><span class="p" data-group-id="9559708737-8">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="9559708737-10">(</span><span class="p" data-group-id="9559708737-10">)</span></code></pre><h2 id="building-the-model" class="section-heading">
   <a href="#building-the-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -190,79 +190,79 @@ <h1>
   <span class="text">The model</span>
 </h3>
 <pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7500554835-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7500554835-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="7500554835-2">}</span><span class="p" data-group-id="7500554835-1">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0335375208-1">(</span><span class="s">&quot;image&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0335375208-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="0335375208-2">}</span><span class="p" data-group-id="0335375208-1">)</span><span class="w">
   </span><span class="c1"># This is now 28*28*1 = 784</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="7500554835-3">(</span><span class="p" data-group-id="7500554835-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">flatten</span><span class="p" data-group-id="0335375208-3">(</span><span class="p" data-group-id="0335375208-3">)</span><span class="w">
   </span><span class="c1"># The encoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7500554835-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7500554835-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7500554835-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7500554835-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7500554835-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7500554835-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0335375208-4">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0335375208-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0335375208-5">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0335375208-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0335375208-6">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0335375208-6">)</span><span class="w">
   </span><span class="c1"># Bottleneck layer</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7500554835-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7500554835-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0335375208-7">(</span><span class="mi">10</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0335375208-7">)</span><span class="w">
   </span><span class="c1"># The decoder</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7500554835-8">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7500554835-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7500554835-9">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7500554835-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7500554835-10">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="7500554835-10">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7500554835-11">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="7500554835-11">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0335375208-8">(</span><span class="mi">64</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0335375208-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0335375208-9">(</span><span class="mi">128</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0335375208-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0335375208-10">(</span><span class="mi">256</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0335375208-10">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0335375208-11">(</span><span class="mi">784</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="0335375208-11">)</span><span class="w">
   </span><span class="c1"># Turn it back into a 28x28 single channel image</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="7500554835-12">(</span><span class="p" data-group-id="7500554835-13">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="7500554835-13">}</span><span class="p" data-group-id="7500554835-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="0335375208-12">(</span><span class="p" data-group-id="0335375208-13">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="0335375208-13">}</span><span class="p" data-group-id="0335375208-12">)</span><span class="w">
 
 </span><span class="c1"># We can use Axon.Display to show us what each of the layers would look like</span><span class="w">
 </span><span class="c1"># assuming we send in a batch of 4 images</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="7500554835-14">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="7500554835-15">(</span><span class="p" data-group-id="7500554835-16">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="7500554835-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7500554835-15">)</span><span class="p" data-group-id="7500554835-14">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7500554835-17">(</span><span class="p" data-group-id="7500554835-17">)</span></code></pre><p>Checking our understanding, since the layers are all dense layers, the number of parameters should be <code class="inline">input_features * output_features</code> parameters for the weights + <code class="inline">output_features</code> parameters for the biases for each layer.</p><p>This should match the <code class="inline">Total Parameters</code> output from Axon.Display (486298 parameters)</p><pre><code class="makeup elixir" translate="no"><span class="c1"># encoder</span><span class="w">
-</span><span class="n">encoder_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">784</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="9792040251-1">(</span><span class="mi">256</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">128</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="9792040251-1">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="9792040251-2">(</span><span class="mi">128</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="9792040251-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="9792040251-3">(</span><span class="mi">64</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">10</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="9792040251-3">)</span><span class="w">
-</span><span class="n">decoder_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">10</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="9792040251-4">(</span><span class="mi">64</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">128</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="9792040251-4">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="9792040251-5">(</span><span class="mi">128</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">256</span><span class="p" data-group-id="9792040251-5">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="9792040251-6">(</span><span class="mi">256</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">784</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="9792040251-6">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_table</span><span class="p" data-group-id="0335375208-14">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0335375208-15">(</span><span class="p" data-group-id="0335375208-16">{</span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p">,</span><span class="w"> </span><span class="mi">28</span><span class="p" data-group-id="0335375208-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0335375208-15">)</span><span class="p" data-group-id="0335375208-14">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0335375208-17">(</span><span class="p" data-group-id="0335375208-17">)</span></code></pre><p>Checking our understanding, since the layers are all dense layers, the number of parameters should be <code class="inline">input_features * output_features</code> parameters for the weights + <code class="inline">output_features</code> parameters for the biases for each layer.</p><p>This should match the <code class="inline">Total Parameters</code> output from Axon.Display (486298 parameters)</p><pre><code class="makeup elixir" translate="no"><span class="c1"># encoder</span><span class="w">
+</span><span class="n">encoder_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">784</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="7421122162-1">(</span><span class="mi">256</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">128</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7421122162-1">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="7421122162-2">(</span><span class="mi">128</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">64</span><span class="p" data-group-id="7421122162-2">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="7421122162-3">(</span><span class="mi">64</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">10</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">10</span><span class="p" data-group-id="7421122162-3">)</span><span class="w">
+</span><span class="n">decoder_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">10</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">64</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="7421122162-4">(</span><span class="mi">64</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">128</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">128</span><span class="p" data-group-id="7421122162-4">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="7421122162-5">(</span><span class="mi">128</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">256</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">256</span><span class="p" data-group-id="7421122162-5">)</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p" data-group-id="7421122162-6">(</span><span class="mi">256</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="mi">784</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">784</span><span class="p" data-group-id="7421122162-6">)</span><span class="w">
 </span><span class="n">total_parameters</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">encoder_parameters</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">decoder_parameters</span></code></pre><h3 id="training" class="section-heading">
   <a href="#training" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Training</span>
 </h3>
-<p>With the model set up, we can now try to train the model. We'll use MSE loss to compare our reconstruction with the original</p><!-- livebook:{"break_markdown":true} --><p>We'll create the training input by turning our image list into batches of size 128 and then using the same image as both the input and the target. However, the input image will have noise added to it that the autoencoder will have to remove.</p><p>For validation data, we'll use the test set and look at how the autoencoder does at reconstructing the test set to make sure we're not overfitting</p><!-- livebook:{"break_markdown":true} --><p>The function below adds some noise to the image by adding the image with gaussian noise scaled by a noise factor. We then have to make sure the pixel values are still within the 0..1.0 range.</p><p>We have to define this function using <code class="inline">defn</code> so that <a href="https://hexdocs.pm/nx/0.7.0/Nx.html"><code class="inline">Nx</code></a> can optimize it. If we don't do this, adding noise will take a really long time, making our training loop very slow. See <a href="https://hexdocs.pm/nx/Nx.Defn.html">Nx.defn</a> for more details. <code class="inline">defn</code> can only be used in a module so we'll define a little module to contain it.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Noiser</span><span class="w"> </span><span class="k" data-group-id="2122822956-1">do</span><span class="w">
+<p>With the model set up, we can now try to train the model. We'll use MSE loss to compare our reconstruction with the original</p><!-- livebook:{"break_markdown":true} --><p>We'll create the training input by turning our image list into batches of size 128 and then using the same image as both the input and the target. However, the input image will have noise added to it that the autoencoder will have to remove.</p><p>For validation data, we'll use the test set and look at how the autoencoder does at reconstructing the test set to make sure we're not overfitting</p><!-- livebook:{"break_markdown":true} --><p>The function below adds some noise to the image by adding the image with gaussian noise scaled by a noise factor. We then have to make sure the pixel values are still within the 0..1.0 range.</p><p>We have to define this function using <code class="inline">defn</code> so that <a href="https://hexdocs.pm/nx/0.7.0/Nx.html"><code class="inline">Nx</code></a> can optimize it. If we don't do this, adding noise will take a really long time, making our training loop very slow. See <a href="https://hexdocs.pm/nx/Nx.Defn.html">Nx.defn</a> for more details. <code class="inline">defn</code> can only be used in a module so we'll define a little module to contain it.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Noiser</span><span class="w"> </span><span class="k" data-group-id="1225857448-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
   </span><span class="na">@noise_factor</span><span class="w"> </span><span class="mf">0.4</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">add_noise</span><span class="p" data-group-id="2122822956-2">(</span><span class="n">images</span><span class="p" data-group-id="2122822956-2">)</span><span class="w"> </span><span class="k" data-group-id="2122822956-3">do</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">add_noise</span><span class="p" data-group-id="1225857448-2">(</span><span class="n">images</span><span class="p" data-group-id="1225857448-2">)</span><span class="w"> </span><span class="k" data-group-id="1225857448-3">do</span><span class="w">
     </span><span class="na">@noise_factor</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="2122822956-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="2122822956-5">(</span><span class="n">images</span><span class="p" data-group-id="2122822956-5">)</span><span class="p" data-group-id="2122822956-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="2122822956-6">(</span><span class="n">images</span><span class="p" data-group-id="2122822956-6">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">clip</span><span class="p" data-group-id="2122822956-7">(</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="2122822956-7">)</span><span class="w">
-  </span><span class="k" data-group-id="2122822956-3">end</span><span class="w">
-</span><span class="k" data-group-id="2122822956-1">end</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="1225857448-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_normal</span><span class="p" data-group-id="1225857448-5">(</span><span class="n">images</span><span class="p" data-group-id="1225857448-5">)</span><span class="p" data-group-id="1225857448-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="1225857448-6">(</span><span class="n">images</span><span class="p" data-group-id="1225857448-6">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">clip</span><span class="p" data-group-id="1225857448-7">(</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p" data-group-id="1225857448-7">)</span><span class="w">
+  </span><span class="k" data-group-id="1225857448-3">end</span><span class="w">
+</span><span class="k" data-group-id="1225857448-1">end</span><span class="w">
 
-</span><span class="n">add_noise</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="2122822956-8">(</span><span class="o">&amp;</span><span class="nc">Noiser</span><span class="o">.</span><span class="n">add_noise</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2122822956-8">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
+</span><span class="n">add_noise</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">jit</span><span class="p" data-group-id="1225857448-8">(</span><span class="o">&amp;</span><span class="nc">Noiser</span><span class="o">.</span><span class="n">add_noise</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1225857448-8">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">128</span><span class="w">
 
 </span><span class="c1"># The original image which is the target the network will trying to match</span><span class="w">
 </span><span class="n">batched_train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">train_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2577642659-1">(</span><span class="n">batch_size</span><span class="p" data-group-id="2577642659-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="4080646844-1">(</span><span class="n">batch_size</span><span class="p" data-group-id="4080646844-1">)</span><span class="w">
 
 </span><span class="n">batched_noisy_train_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">train_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2577642659-2">(</span><span class="n">batch_size</span><span class="p" data-group-id="2577642659-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="4080646844-2">(</span><span class="n">batch_size</span><span class="p" data-group-id="4080646844-2">)</span><span class="w">
   </span><span class="c1"># goes after to_batched so the noise is different every time</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="2577642659-3">(</span><span class="n">add_noise</span><span class="p" data-group-id="2577642659-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="4080646844-3">(</span><span class="n">add_noise</span><span class="p" data-group-id="4080646844-3">)</span><span class="w">
 
 </span><span class="c1"># The noisy image is the input to the network</span><span class="w">
 </span><span class="c1"># and the original image is the target it&#39;s trying to match</span><span class="w">
-</span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="2577642659-4">(</span><span class="n">batched_noisy_train_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_train_images</span><span class="p" data-group-id="2577642659-4">)</span><span class="w">
+</span><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="4080646844-4">(</span><span class="n">batched_noisy_train_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_train_images</span><span class="p" data-group-id="4080646844-4">)</span><span class="w">
 
 </span><span class="n">batched_test_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">test_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2577642659-5">(</span><span class="n">batch_size</span><span class="p" data-group-id="2577642659-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="4080646844-5">(</span><span class="n">batch_size</span><span class="p" data-group-id="4080646844-5">)</span><span class="w">
 
 </span><span class="n">batched_noisy_test_images</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">test_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2577642659-6">(</span><span class="n">batch_size</span><span class="p" data-group-id="2577642659-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="2577642659-7">(</span><span class="n">add_noise</span><span class="p" data-group-id="2577642659-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="4080646844-6">(</span><span class="n">batch_size</span><span class="p" data-group-id="4080646844-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="4080646844-7">(</span><span class="n">add_noise</span><span class="p" data-group-id="4080646844-7">)</span><span class="w">
 
-</span><span class="n">test_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="2577642659-8">(</span><span class="n">batched_noisy_test_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_test_images</span><span class="p" data-group-id="2577642659-8">)</span></code></pre><p>Let's see what an element of the input and target look like</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1368870324-1">{</span><span class="n">input_batch</span><span class="p">,</span><span class="w"> </span><span class="n">target_batch</span><span class="p" data-group-id="1368870324-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="1368870324-2">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1368870324-2">)</span><span class="w">
-</span><span class="p" data-group-id="1368870324-3">{</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="1368870324-4">(</span><span class="n">input_batch</span><span class="p" data-group-id="1368870324-5">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1368870324-5">]</span><span class="p" data-group-id="1368870324-4">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="1368870324-6">(</span><span class="n">target_batch</span><span class="p" data-group-id="1368870324-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="1368870324-7">]</span><span class="p" data-group-id="1368870324-6">)</span><span class="p" data-group-id="1368870324-3">}</span></code></pre><p>Looks right (and tricky). Let's see how the model does.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="n">test_data</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="4080646844-8">(</span><span class="n">batched_noisy_test_images</span><span class="p">,</span><span class="w"> </span><span class="n">batched_test_images</span><span class="p" data-group-id="4080646844-8">)</span></code></pre><p>Let's see what an element of the input and target look like</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6055426548-1">{</span><span class="n">input_batch</span><span class="p">,</span><span class="w"> </span><span class="n">target_batch</span><span class="p" data-group-id="6055426548-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="6055426548-2">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6055426548-2">)</span><span class="w">
+</span><span class="p" data-group-id="6055426548-3">{</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="6055426548-4">(</span><span class="n">input_batch</span><span class="p" data-group-id="6055426548-5">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6055426548-5">]</span><span class="p" data-group-id="6055426548-4">)</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="6055426548-6">(</span><span class="n">target_batch</span><span class="p" data-group-id="6055426548-7">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6055426548-7">]</span><span class="p" data-group-id="6055426548-6">)</span><span class="p" data-group-id="6055426548-3">}</span></code></pre><p>Looks right (and tricky). Let's see how the model does.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7301909905-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="7301909905-2">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="7301909905-2">)</span><span class="p" data-group-id="7301909905-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="7301909905-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="7301909905-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7301909905-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7301909905-5">%{</span><span class="p" data-group-id="7301909905-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="7301909905-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1405259444-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="1405259444-2">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="1405259444-2">)</span><span class="p" data-group-id="1405259444-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="1405259444-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="1405259444-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1405259444-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1405259444-5">%{</span><span class="p" data-group-id="1405259444-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="1405259444-4">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><p>Now that we have a model that theoretically has learned <em>something</em>, we'll see what it's learned by running it on some images from the test set. We'll use Kino to allow us to select the image from the test set to run the model against. To avoid losing the params that took a while to train, we'll create another branch so we can experiment with the params and stop execution when needed without having to retrain.</p><!-- livebook:{"branch_parent_index":2} --><h2 id="evaluation" class="section-heading">
   <a href="#evaluation" class="hover-link">
@@ -271,70 +271,70 @@ <h1>
   <span class="text">Evaluation</span>
 </h2>
 <p><strong>A note on branching</strong></p><p>By default, everything in Livebook runs sequentially in a single process. Stopping a running cell aborts that process and consequently all its state is lost. A <strong>branching section</strong> copies everything from its parent and runs in a separate process. Thanks to this <strong>isolation</strong>, when we stop a cell in a branching section, only the state within that section is gone.</p><p>Since we just spent a bunch of time training the model and don't want to lose that memory state as we continue to experiment, we create a branching section. This does add some memory overhead, but it's worth it so we can experiment without fear!</p><!-- livebook:{"break_markdown":true} --><p>To use <a href="https://hexdocs.pm/kino/0.12.3/Kino.html"><code class="inline">Kino</code></a> to give us an interactive tool to evaluate the model, we'll create a <a href="https://hexdocs.pm/kino/0.12.3/Kino.Frame.html"><code class="inline">Kino.Frame</code></a> that we can dynamically update. We'll also create a form using <a href="https://hexdocs.pm/kino/0.12.3/Kino.Control.html"><code class="inline">Kino.Control</code></a> to allow the user to select which image from the test set they'd like to evaluate the model on. Finally <code class="inline">Kino.Control.stream</code> enables us to respond to changes in the user's selection when the user clicks the &quot;Render&quot; button.</p><p>We can use <code class="inline">Nx.concatenate</code> to stack the images side by side for a prettier output.</p><pre><code class="makeup elixir" translate="no"><span class="n">form</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">form</span><span class="p" data-group-id="2029894071-1">(</span><span class="w">
-    </span><span class="p" data-group-id="2029894071-2">[</span><span class="w">
-      </span><span class="ss">test_image_index</span><span class="p">:</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">number</span><span class="p" data-group-id="2029894071-3">(</span><span class="s">&quot;Test Image Index&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">default</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2029894071-3">)</span><span class="w">
-    </span><span class="p" data-group-id="2029894071-2">]</span><span class="p">,</span><span class="w">
+  </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">form</span><span class="p" data-group-id="2639919628-1">(</span><span class="w">
+    </span><span class="p" data-group-id="2639919628-2">[</span><span class="w">
+      </span><span class="ss">test_image_index</span><span class="p">:</span><span class="w"> </span><span class="nc">Kino.Input</span><span class="o">.</span><span class="n">number</span><span class="p" data-group-id="2639919628-3">(</span><span class="s">&quot;Test Image Index&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">default</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="2639919628-3">)</span><span class="w">
+    </span><span class="p" data-group-id="2639919628-2">]</span><span class="p">,</span><span class="w">
     </span><span class="ss">submit</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;Render&quot;</span><span class="w">
-  </span><span class="p" data-group-id="2029894071-1">)</span><span class="w">
+  </span><span class="p" data-group-id="2639919628-1">)</span><span class="w">
 
-</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2029894071-4">(</span><span class="n">form</span><span class="p" data-group-id="2029894071-4">)</span><span class="w">
+</span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="2639919628-4">(</span><span class="n">form</span><span class="p" data-group-id="2639919628-4">)</span><span class="w">
 
 </span><span class="n">form</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">stream</span><span class="p" data-group-id="2029894071-5">(</span><span class="p" data-group-id="2029894071-5">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="2029894071-6">(</span><span class="k" data-group-id="2029894071-7">fn</span><span class="w"> </span><span class="p" data-group-id="2029894071-8">%{</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2029894071-9">%{</span><span class="ss">test_image_index</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="2029894071-9">}</span><span class="p" data-group-id="2029894071-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="2029894071-10">[</span><span class="p" data-group-id="2029894071-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="2029894071-11">]</span><span class="p" data-group-id="2029894071-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">add_noise</span><span class="o">.</span><span class="p" data-group-id="2029894071-12">(</span><span class="p" data-group-id="2029894071-12">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Control</span><span class="o">.</span><span class="n">stream</span><span class="p" data-group-id="2639919628-5">(</span><span class="p" data-group-id="2639919628-5">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">animate</span><span class="p" data-group-id="2639919628-6">(</span><span class="k" data-group-id="2639919628-7">fn</span><span class="w"> </span><span class="p" data-group-id="2639919628-8">%{</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2639919628-9">%{</span><span class="ss">test_image_index</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="2639919628-9">}</span><span class="p" data-group-id="2639919628-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="2639919628-10">[</span><span class="p" data-group-id="2639919628-11">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="2639919628-11">]</span><span class="p" data-group-id="2639919628-10">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">add_noise</span><span class="o">.</span><span class="p" data-group-id="2639919628-12">(</span><span class="p" data-group-id="2639919628-12">)</span><span class="w">
 
   </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w">
     </span><span class="n">model</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="2029894071-13">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="2029894071-13">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="2639919628-13">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="2639919628-13">)</span><span class="w">
     </span><span class="c1"># Get rid of the batch dimension</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="2029894071-14">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2029894071-15">[</span><span class="mi">0</span><span class="p" data-group-id="2029894071-15">]</span><span class="p" data-group-id="2029894071-14">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="2639919628-14">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2639919628-15">[</span><span class="mi">0</span><span class="p" data-group-id="2639919628-15">]</span><span class="p" data-group-id="2639919628-14">)</span><span class="w">
 
-  </span><span class="n">combined_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="2029894071-16">(</span><span class="p" data-group-id="2029894071-17">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="2029894071-17">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="2029894071-16">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="2029894071-18">(</span><span class="n">combined_image</span><span class="p" data-group-id="2029894071-18">)</span><span class="w">
-</span><span class="k" data-group-id="2029894071-7">end</span><span class="p" data-group-id="2029894071-6">)</span></code></pre><p>That looks pretty good!</p><p>Note we used <a href="https://hexdocs.pm/kino/0.12.3/Kino.html#animate/2"><code class="inline">Kino.animate/2</code></a> which runs asynchronously so we don't block execution of the rest of the notebook.</p><!-- livebook:{"branch_parent_index":2} --><h2 id="a-better-training-loop" class="section-heading">
+  </span><span class="n">combined_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="2639919628-16">(</span><span class="p" data-group-id="2639919628-17">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="2639919628-17">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="2639919628-16">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="2639919628-18">(</span><span class="n">combined_image</span><span class="p" data-group-id="2639919628-18">)</span><span class="w">
+</span><span class="k" data-group-id="2639919628-7">end</span><span class="p" data-group-id="2639919628-6">)</span></code></pre><p>That looks pretty good!</p><p>Note we used <a href="https://hexdocs.pm/kino/0.12.3/Kino.html#animate/2"><code class="inline">Kino.animate/2</code></a> which runs asynchronously so we don't block execution of the rest of the notebook.</p><!-- livebook:{"branch_parent_index":2} --><h2 id="a-better-training-loop" class="section-heading">
   <a href="#a-better-training-loop" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">A better training loop</span>
 </h2>
 <p><em>Note that we branch from the &quot;Building a model&quot; section since we only need the model definition for this section and not the previously trained model.</em></p><!-- livebook:{"break_markdown":true} --><p>It'd be nice to see how the model improves as it trains. In this section (also a branch since I plan to experiment and don't want to lose the execution state) we'll improve the training loop to use <a href="https://hexdocs.pm/kino/0.12.3/Kino.html"><code class="inline">Kino</code></a> to show us how it's doing.</p><p><a href="https://hexdocs.pm/axon/Axon.Loop.html#handle/4">Axon.Loop.handle</a> gives us a hook into various points of the training loop. We'll can use it with the <code class="inline">:iteration_completed</code> event to get a copy of the state of the params after some number of completed iterations of the training loop. By using those params to render an image in the test set, we can get a live view of the autoencoder learning to reconstruct its inputs.</p><pre><code class="makeup elixir" translate="no"><span class="c1"># A helper function to display the input and output side by side</span><span class="w">
-</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="5353683643-1">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="5353683643-2">[</span><span class="p" data-group-id="5353683643-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="5353683643-3">]</span><span class="p" data-group-id="5353683643-2">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">add_noise</span><span class="o">.</span><span class="p" data-group-id="5353683643-4">(</span><span class="p" data-group-id="5353683643-4">)</span><span class="w">
-  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="5353683643-5">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="5353683643-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="5353683643-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5353683643-7">[</span><span class="mi">0</span><span class="p" data-group-id="5353683643-7">]</span><span class="p" data-group-id="5353683643-6">)</span><span class="w">
-  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="5353683643-8">(</span><span class="p" data-group-id="5353683643-9">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="5353683643-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5353683643-8">)</span><span class="w">
-</span><span class="k" data-group-id="5353683643-1">end</span><span class="w">
+</span><span class="n">combined_input_output</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4642217160-1">fn</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="n">test_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_images</span><span class="p" data-group-id="4642217160-2">[</span><span class="p" data-group-id="4642217160-3">[</span><span class="ss">images</span><span class="p">:</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4642217160-3">]</span><span class="p" data-group-id="4642217160-2">]</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">add_noise</span><span class="o">.</span><span class="p" data-group-id="4642217160-4">(</span><span class="p" data-group-id="4642217160-4">)</span><span class="w">
+  </span><span class="n">reconstructed_image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4642217160-5">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">test_image</span><span class="p" data-group-id="4642217160-5">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">squeeze</span><span class="p" data-group-id="4642217160-6">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4642217160-7">[</span><span class="mi">0</span><span class="p" data-group-id="4642217160-7">]</span><span class="p" data-group-id="4642217160-6">)</span><span class="w">
+  </span><span class="nc">Nx</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="4642217160-8">(</span><span class="p" data-group-id="4642217160-9">[</span><span class="n">test_image</span><span class="p">,</span><span class="w"> </span><span class="n">reconstructed_image</span><span class="p" data-group-id="4642217160-9">]</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="4642217160-8">)</span><span class="w">
+</span><span class="k" data-group-id="4642217160-1">end</span><span class="w">
 
-</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="5353683643-10">(</span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="5353683643-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="5353683643-11">)</span><span class="p" data-group-id="5353683643-10">)</span></code></pre><p>It'd also be nice to have a prettier version of the output. Let's convert the heatmap to a png to make that happen.</p><pre><code class="makeup elixir" translate="no"><span class="n">image_to_kino</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3035704095-1">fn</span><span class="w"> </span><span class="n">image</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+</span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_heatmap</span><span class="p" data-group-id="4642217160-10">(</span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="4642217160-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4642217160-11">)</span><span class="p" data-group-id="4642217160-10">)</span></code></pre><p>It'd also be nice to have a prettier version of the output. Let's convert the heatmap to a png to make that happen.</p><pre><code class="makeup elixir" translate="no"><span class="n">image_to_kino</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9271479004-1">fn</span><span class="w"> </span><span class="n">image</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
   </span><span class="n">image</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="3035704095-2">(</span><span class="mi">255</span><span class="p" data-group-id="3035704095-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">as_type</span><span class="p" data-group-id="3035704095-3">(</span><span class="ss">:u8</span><span class="p" data-group-id="3035704095-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="3035704095-4">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3035704095-5">[</span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p" data-group-id="3035704095-5">]</span><span class="p" data-group-id="3035704095-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">from_nx</span><span class="p" data-group-id="3035704095-6">(</span><span class="p" data-group-id="3035704095-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="3035704095-7">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="3035704095-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_binary</span><span class="p" data-group-id="3035704095-8">(</span><span class="ss">:png</span><span class="p" data-group-id="3035704095-8">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3035704095-9">(</span><span class="ss">:png</span><span class="p" data-group-id="3035704095-9">)</span><span class="w">
-</span><span class="k" data-group-id="3035704095-1">end</span><span class="w">
-
-</span><span class="n">image_to_kino</span><span class="o">.</span><span class="p" data-group-id="3035704095-10">(</span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="3035704095-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3035704095-11">)</span><span class="p" data-group-id="3035704095-10">)</span></code></pre><p>Much nicer!</p><p>Once again we'll use <a href="https://hexdocs.pm/kino/0.12.3/Kino.Frame.html"><code class="inline">Kino.Frame</code></a> for dynamically updating output:</p><pre><code class="makeup elixir" translate="no"><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="4563925338-1">(</span><span class="p" data-group-id="4563925338-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="4563925338-2">(</span><span class="p" data-group-id="4563925338-2">)</span><span class="w">
-
-</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="4563925338-3">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="4563925338-4">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="4563925338-5">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="4563925338-5">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="4563925338-6">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="4563925338-6">}</span><span class="s">&quot;</span><span class="p" data-group-id="4563925338-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">multiply</span><span class="p" data-group-id="9271479004-2">(</span><span class="mi">255</span><span class="p" data-group-id="9271479004-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">as_type</span><span class="p" data-group-id="9271479004-3">(</span><span class="ss">:u8</span><span class="p" data-group-id="9271479004-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="9271479004-4">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9271479004-5">[</span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p" data-group-id="9271479004-5">]</span><span class="p" data-group-id="9271479004-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">from_nx</span><span class="p" data-group-id="9271479004-6">(</span><span class="p" data-group-id="9271479004-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="9271479004-7">(</span><span class="mi">200</span><span class="p">,</span><span class="w"> </span><span class="mi">400</span><span class="p" data-group-id="9271479004-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_binary</span><span class="p" data-group-id="9271479004-8">(</span><span class="ss">:png</span><span class="p" data-group-id="9271479004-8">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="9271479004-9">(</span><span class="ss">:png</span><span class="p" data-group-id="9271479004-9">)</span><span class="w">
+</span><span class="k" data-group-id="9271479004-1">end</span><span class="w">
+
+</span><span class="n">image_to_kino</span><span class="o">.</span><span class="p" data-group-id="9271479004-10">(</span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="9271479004-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="9271479004-11">)</span><span class="p" data-group-id="9271479004-10">)</span></code></pre><p>Much nicer!</p><p>Once again we'll use <a href="https://hexdocs.pm/kino/0.12.3/Kino.Frame.html"><code class="inline">Kino.Frame</code></a> for dynamically updating output:</p><pre><code class="makeup elixir" translate="no"><span class="n">frame</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="3582358392-1">(</span><span class="p" data-group-id="3582358392-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino</span><span class="o">.</span><span class="n">render</span><span class="p" data-group-id="3582358392-2">(</span><span class="p" data-group-id="3582358392-2">)</span><span class="w">
+
+</span><span class="n">render_example_handler</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="3582358392-3">fn</span><span class="w"> </span><span class="n">state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="3582358392-4">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;Epoch: </span><span class="si" data-group-id="3582358392-5">#{</span><span class="n">state</span><span class="o">.</span><span class="n">epoch</span><span class="si" data-group-id="3582358392-5">}</span><span class="s">, Iteration: </span><span class="si" data-group-id="3582358392-6">#{</span><span class="n">state</span><span class="o">.</span><span class="n">iteration</span><span class="si" data-group-id="3582358392-6">}</span><span class="s">&quot;</span><span class="p" data-group-id="3582358392-4">)</span><span class="w">
   </span><span class="c1"># state.step_state[:model_state] contains the model params when this event is fired</span><span class="w">
-  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="4563925338-7">[</span><span class="ss">:model_state</span><span class="p" data-group-id="4563925338-7">]</span><span class="w">
-  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="4563925338-8">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="4563925338-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="4563925338-10">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="4563925338-10">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4563925338-9">)</span><span class="p" data-group-id="4563925338-8">)</span><span class="w">
-  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="4563925338-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="4563925338-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">image_to_kino</span><span class="o">.</span><span class="p" data-group-id="4563925338-12">(</span><span class="p" data-group-id="4563925338-12">)</span><span class="w">
-  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="4563925338-13">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="4563925338-13">)</span><span class="w">
-  </span><span class="p" data-group-id="4563925338-14">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="4563925338-14">}</span><span class="w">
-</span><span class="k" data-group-id="4563925338-3">end</span><span class="w">
+  </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="o">.</span><span class="n">step_state</span><span class="p" data-group-id="3582358392-7">[</span><span class="ss">:model_state</span><span class="p" data-group-id="3582358392-7">]</span><span class="w">
+  </span><span class="n">image_index</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">random</span><span class="p" data-group-id="3582358392-8">(</span><span class="mi">0</span><span class="o">..</span><span class="p" data-group-id="3582358392-9">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">axis_size</span><span class="p" data-group-id="3582358392-10">(</span><span class="n">test_images</span><span class="p">,</span><span class="w"> </span><span class="ss">:images</span><span class="p" data-group-id="3582358392-10">)</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3582358392-9">)</span><span class="p" data-group-id="3582358392-8">)</span><span class="w">
+  </span><span class="n">image</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">combined_input_output</span><span class="o">.</span><span class="p" data-group-id="3582358392-11">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">image_index</span><span class="p" data-group-id="3582358392-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="n">image_to_kino</span><span class="o">.</span><span class="p" data-group-id="3582358392-12">(</span><span class="p" data-group-id="3582358392-12">)</span><span class="w">
+  </span><span class="nc">Kino.Frame</span><span class="o">.</span><span class="n">append</span><span class="p" data-group-id="3582358392-13">(</span><span class="n">frame</span><span class="p">,</span><span class="w"> </span><span class="n">image</span><span class="p" data-group-id="3582358392-13">)</span><span class="w">
+  </span><span class="p" data-group-id="3582358392-14">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="3582358392-14">}</span><span class="w">
+</span><span class="k" data-group-id="3582358392-3">end</span><span class="w">
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="4563925338-15">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="4563925338-16">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="4563925338-16">)</span><span class="p" data-group-id="4563925338-15">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="4563925338-17">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p" data-group-id="4563925338-17">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="4563925338-18">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="4563925338-18">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="4563925338-19">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4563925338-20">%{</span><span class="p" data-group-id="4563925338-20">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="4563925338-19">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3582358392-15">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="nc">Polaris.Optimizers</span><span class="o">.</span><span class="n">adamw</span><span class="p" data-group-id="3582358392-16">(</span><span class="ss">learning_rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.001</span><span class="p" data-group-id="3582358392-16">)</span><span class="p" data-group-id="3582358392-15">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle</span><span class="p" data-group-id="3582358392-17">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="n">render_example_handler</span><span class="p">,</span><span class="w"> </span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p" data-group-id="3582358392-17">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">validate</span><span class="p" data-group-id="3582358392-18">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">test_data</span><span class="p" data-group-id="3582358392-18">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3582358392-19">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3582358392-20">%{</span><span class="p" data-group-id="3582358392-20">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">20</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="3582358392-19">)</span><span class="w">
 
 </span><span class="ss">:ok</span></code></pre><p>Awesome! We have a working denoising autoencoder that we can visualize getting better in 20 epochs!</p>
 <div class="bottom-actions">
diff --git a/model_hooks.html b/model_hooks.html
index ebc236cc..3e68bdef 100644
--- a/model_hooks.html
+++ b/model_hooks.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,289 +136,289 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="9737320484-1">(</span><span class="p" data-group-id="9737320484-2">[</span><span class="w">
-  </span><span class="p" data-group-id="9737320484-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="9737320484-3">}</span><span class="w">
-</span><span class="p" data-group-id="9737320484-2">]</span><span class="p" data-group-id="9737320484-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-models-with-hooks" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3697630553-1">(</span><span class="p" data-group-id="3697630553-2">[</span><span class="w">
+  </span><span class="p" data-group-id="3697630553-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3697630553-3">}</span><span class="w">
+</span><span class="p" data-group-id="3697630553-2">]</span><span class="p" data-group-id="3697630553-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-models-with-hooks" class="section-heading">
   <a href="#creating-models-with-hooks" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Creating models with hooks</span>
 </h2>
 <p>Sometimes it's useful to inspect or visualize the values of intermediate layers in your model during the forward or backward pass. For example, it's common to visualize the gradients of activation functions to ensure your model is learning in a stable manner. Axon supports this functionality via model hooks.</p><p>Model hooks are a means of unidirectional communication with an executing model. Hooks are unidirectional in the sense that you can only <strong>receive</strong> information from your model, and not send information back.</p><p>Hooks are attached per-layer and can execute at 4 different points in model execution: on the pre-forward, forward, or backward pass of the model or during model initialization. You can also configure the same hook to execute on all 3 events. You can attach hooks to models using <a href="Axon.html#attach_hook/3"><code class="inline">Axon.attach_hook/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3475374104-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3475374104-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3475374104-2">(</span><span class="mi">8</span><span class="p" data-group-id="3475374104-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="3475374104-3">(</span><span class="k" data-group-id="3475374104-4">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="3475374104-5">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:dense_forward</span><span class="p" data-group-id="3475374104-5">)</span><span class="w"> </span><span class="k" data-group-id="3475374104-4">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="3475374104-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="3475374104-6">(</span><span class="k" data-group-id="3475374104-7">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="3475374104-8">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:dense_init</span><span class="p" data-group-id="3475374104-8">)</span><span class="w"> </span><span class="k" data-group-id="3475374104-7">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:initialize</span><span class="p" data-group-id="3475374104-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3475374104-9">(</span><span class="p" data-group-id="3475374104-9">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="3475374104-10">(</span><span class="k" data-group-id="3475374104-11">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="3475374104-12">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="3475374104-12">)</span><span class="w"> </span><span class="k" data-group-id="3475374104-11">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="3475374104-10">)</span><span class="w">
-
-</span><span class="p" data-group-id="3475374104-13">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="3475374104-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="3475374104-14">(</span><span class="n">model</span><span class="p" data-group-id="3475374104-14">)</span><span class="w">
-
-</span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="3475374104-15">(</span><span class="p" data-group-id="3475374104-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="3475374104-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3475374104-15">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="3475374104-17">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3475374104-18">%{</span><span class="p" data-group-id="3475374104-18">}</span><span class="p" data-group-id="3475374104-17">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">dense_init</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8909302096-1">%{</span><span class="w">
-  </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8909302096-2">#</span><span class="nc" data-group-id="8909302096-2">Nx.Tensor</span><span class="p" data-group-id="8909302096-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="8909302096-3">[</span><span class="mi">8</span><span class="p" data-group-id="8909302096-3">]</span><span class="w">
-    </span><span class="p" data-group-id="8909302096-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8909302096-4">]</span><span class="w">
-  </span><span class="p" data-group-id="8909302096-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8909302096-5">#</span><span class="nc" data-group-id="8909302096-5">Nx.Tensor</span><span class="p" data-group-id="8909302096-5">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="8909302096-6">[</span><span class="mi">4</span><span class="p" data-group-id="8909302096-6">]</span><span class="p" data-group-id="8909302096-7">[</span><span class="mi">8</span><span class="p" data-group-id="8909302096-7">]</span><span class="w">
-    </span><span class="p" data-group-id="8909302096-8">[</span><span class="w">
-      </span><span class="p" data-group-id="8909302096-9">[</span><span class="mf">0.6067318320274353</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5483129620552063</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05663269758224487</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48249542713165283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18357598781585693</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6496620774269104</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4919115900993347</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08380156755447388</span><span class="p" data-group-id="8909302096-9">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8909302096-10">[</span><span class="o">-</span><span class="mf">0.19745409488677979</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10483592748641968</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43387970328330994</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1041460633277893</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4129607081413269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6482449769973755</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6696910262107849</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4690167307853699</span><span class="p" data-group-id="8909302096-10">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8909302096-11">[</span><span class="o">-</span><span class="mf">0.18194729089736938</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4856645464897156</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39400774240493774</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28496378660202026</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32120805978775024</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41854584217071533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5671316981315613</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21937215328216553</span><span class="p" data-group-id="8909302096-11">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8909302096-12">[</span><span class="mf">0.4516749978065491</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23585206270217896</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6682141423225403</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4286096692085266</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14930623769760132</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3825327157974243</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2700549364089966</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3888852596282959</span><span class="p" data-group-id="8909302096-12">]</span><span class="w">
-    </span><span class="p" data-group-id="8909302096-8">]</span><span class="w">
-  </span><span class="p" data-group-id="8909302096-5">&gt;</span><span class="w">
-</span><span class="p" data-group-id="8909302096-1">}</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2333632039-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2333632039-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2333632039-3">#</span><span class="nc" data-group-id="2333632039-3">Nx.Tensor</span><span class="p" data-group-id="2333632039-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2333632039-4">[</span><span class="mi">8</span><span class="p" data-group-id="2333632039-4">]</span><span class="w">
-      </span><span class="p" data-group-id="2333632039-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2333632039-5">]</span><span class="w">
-    </span><span class="p" data-group-id="2333632039-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2333632039-6">#</span><span class="nc" data-group-id="2333632039-6">Nx.Tensor</span><span class="p" data-group-id="2333632039-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2333632039-7">[</span><span class="mi">4</span><span class="p" data-group-id="2333632039-7">]</span><span class="p" data-group-id="2333632039-8">[</span><span class="mi">8</span><span class="p" data-group-id="2333632039-8">]</span><span class="w">
-      </span><span class="p" data-group-id="2333632039-9">[</span><span class="w">
-        </span><span class="p" data-group-id="2333632039-10">[</span><span class="mf">0.6067318320274353</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5483129620552063</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05663269758224487</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48249542713165283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18357598781585693</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6496620774269104</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4919115900993347</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08380156755447388</span><span class="p" data-group-id="2333632039-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2333632039-11">[</span><span class="o">-</span><span class="mf">0.19745409488677979</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10483592748641968</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43387970328330994</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1041460633277893</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4129607081413269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6482449769973755</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6696910262107849</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4690167307853699</span><span class="p" data-group-id="2333632039-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2333632039-12">[</span><span class="o">-</span><span class="mf">0.18194729089736938</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4856645464897156</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39400774240493774</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28496378660202026</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32120805978775024</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41854584217071533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5671316981315613</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21937215328216553</span><span class="p" data-group-id="2333632039-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2333632039-13">[</span><span class="mf">0.4516749978065491</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23585206270217896</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6682141423225403</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4286096692085266</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14930623769760132</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3825327157974243</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2700549364089966</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3888852596282959</span><span class="p" data-group-id="2333632039-13">]</span><span class="w">
-      </span><span class="p" data-group-id="2333632039-9">]</span><span class="w">
-    </span><span class="p" data-group-id="2333632039-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2333632039-2">}</span><span class="w">
-</span><span class="p" data-group-id="2333632039-1">}</span></code></pre><p>Notice how during initialization the <code class="inline">:dense_init</code> hook fired and inspected the layer's parameters. Now when executing, you'll see outputs for <code class="inline">:dense</code> and <code class="inline">:relu</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="1882704635-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="1882704635-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">relu</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5720642866-1">#</span><span class="nc" data-group-id="5720642866-1">Nx.Tensor</span><span class="p" data-group-id="5720642866-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="5720642866-2">[</span><span class="mi">2</span><span class="p" data-group-id="5720642866-2">]</span><span class="p" data-group-id="5720642866-3">[</span><span class="mi">8</span><span class="p" data-group-id="5720642866-3">]</span><span class="w">
-  </span><span class="p" data-group-id="5720642866-4">[</span><span class="w">
-    </span><span class="p" data-group-id="5720642866-5">[</span><span class="mf">0.7936763167381287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.61175537109375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.614119291305542</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5720642866-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="5720642866-6">[</span><span class="mf">3.5096981525421143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.609275817871094</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5720642866-6">]</span><span class="w">
-  </span><span class="p" data-group-id="5720642866-4">]</span><span class="w">
-</span><span class="p" data-group-id="5720642866-1">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1548635943-1">#</span><span class="nc" data-group-id="1548635943-1">Nx.Tensor</span><span class="p" data-group-id="1548635943-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1548635943-2">[</span><span class="mi">2</span><span class="p" data-group-id="1548635943-2">]</span><span class="p" data-group-id="1548635943-3">[</span><span class="mi">8</span><span class="p" data-group-id="1548635943-3">]</span><span class="w">
-  </span><span class="p" data-group-id="1548635943-4">[</span><span class="w">
-    </span><span class="p" data-group-id="1548635943-5">[</span><span class="mf">0.7936763167381287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.61175537109375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.614119291305542</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1548635943-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1548635943-6">[</span><span class="mf">3.5096981525421143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.609275817871094</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1548635943-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1548635943-4">]</span><span class="w">
-</span><span class="p" data-group-id="1548635943-1">&gt;</span></code></pre><p>It's important to note that hooks execute in the order they were attached to a layer. If you attach 2 hooks to the same layer which execute different functions on the same event, they will run in order:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8672625623-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8672625623-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8672625623-2">(</span><span class="mi">8</span><span class="p" data-group-id="8672625623-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="8672625623-3">(</span><span class="k" data-group-id="8672625623-4">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="8672625623-5">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:hook1</span><span class="p" data-group-id="8672625623-5">)</span><span class="w"> </span><span class="k" data-group-id="8672625623-4">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="8672625623-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="8672625623-6">(</span><span class="k" data-group-id="8672625623-7">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="8672625623-8">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:hook2</span><span class="p" data-group-id="8672625623-8">)</span><span class="w"> </span><span class="k" data-group-id="8672625623-7">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="8672625623-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8672625623-9">(</span><span class="p" data-group-id="8672625623-9">)</span><span class="w">
-
-</span><span class="p" data-group-id="8672625623-10">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8672625623-10">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8672625623-11">(</span><span class="n">model</span><span class="p" data-group-id="8672625623-11">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8672625623-12">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8672625623-13">%{</span><span class="p" data-group-id="8672625623-13">}</span><span class="p" data-group-id="8672625623-12">)</span><span class="w">
-
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8672625623-14">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8672625623-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">hook2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1402047510-1">#</span><span class="nc" data-group-id="1402047510-1">Nx.Tensor</span><span class="p" data-group-id="1402047510-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1402047510-2">[</span><span class="mi">2</span><span class="p" data-group-id="1402047510-2">]</span><span class="p" data-group-id="1402047510-3">[</span><span class="mi">8</span><span class="p" data-group-id="1402047510-3">]</span><span class="w">
-  </span><span class="p" data-group-id="1402047510-4">[</span><span class="w">
-    </span><span class="p" data-group-id="1402047510-5">[</span><span class="o">-</span><span class="mf">0.6567458510398865</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2303993701934814</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.540865421295166</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.873536229133606</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.386439085006714</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.248870849609375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9092607498168945</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1976098120212555</span><span class="p" data-group-id="1402047510-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1402047510-6">[</span><span class="mf">2.4088101387023926</span><span class="p">,</span><span class="w"> </span><span class="mf">5.939034461975098</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.024522066116333</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">7.58249568939209</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">10.193460464477539</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33839887380599976</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">10.836882591247559</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8173918724060059</span><span class="p" data-group-id="1402047510-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1402047510-4">]</span><span class="w">
-</span><span class="p" data-group-id="1402047510-1">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7867851482-1">#</span><span class="nc" data-group-id="7867851482-1">Nx.Tensor</span><span class="p" data-group-id="7867851482-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7867851482-2">[</span><span class="mi">2</span><span class="p" data-group-id="7867851482-2">]</span><span class="p" data-group-id="7867851482-3">[</span><span class="mi">8</span><span class="p" data-group-id="7867851482-3">]</span><span class="w">
-  </span><span class="p" data-group-id="7867851482-4">[</span><span class="w">
-    </span><span class="p" data-group-id="7867851482-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2303993701934814</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7867851482-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7867851482-6">[</span><span class="mf">2.4088101387023926</span><span class="p">,</span><span class="w"> </span><span class="mf">5.939034461975098</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33839887380599976</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8173918724060059</span><span class="p" data-group-id="7867851482-6">]</span><span class="w">
-  </span><span class="p" data-group-id="7867851482-4">]</span><span class="w">
-</span><span class="p" data-group-id="7867851482-1">&gt;</span></code></pre><p>Notice that <code class="inline">:hook1</code> fires before <code class="inline">:hook2</code>.</p><p>You can also specify a hook to fire on all events:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5156745536-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5156745536-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5156745536-2">(</span><span class="mi">8</span><span class="p" data-group-id="5156745536-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="5156745536-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:all</span><span class="p" data-group-id="5156745536-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5156745536-4">(</span><span class="p" data-group-id="5156745536-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5156745536-5">(</span><span class="mi">1</span><span class="p" data-group-id="5156745536-5">)</span><span class="w">
-
-</span><span class="p" data-group-id="5156745536-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5156745536-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5156745536-7">(</span><span class="n">model</span><span class="p" data-group-id="5156745536-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3848621517-1">{</span><span class="p" data-group-id="3848621517-2">#</span><span class="nc" data-group-id="3848621517-2">Function</span><span class="p" data-group-id="3848621517-2">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="3848621517-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="3848621517-3">#</span><span class="nc" data-group-id="3848621517-3">Function</span><span class="p" data-group-id="3848621517-3">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="3848621517-3">&gt;</span><span class="p" data-group-id="3848621517-1">}</span></code></pre><p>On initialization:</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0682112901-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0682112901-2">%{</span><span class="p" data-group-id="0682112901-2">}</span><span class="p" data-group-id="0682112901-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8001862374-1">%{</span><span class="w">
-  </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8001862374-2">#</span><span class="nc" data-group-id="8001862374-2">Nx.Tensor</span><span class="p" data-group-id="8001862374-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="8001862374-3">[</span><span class="mi">8</span><span class="p" data-group-id="8001862374-3">]</span><span class="w">
-    </span><span class="p" data-group-id="8001862374-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8001862374-4">]</span><span class="w">
-  </span><span class="p" data-group-id="8001862374-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8001862374-5">#</span><span class="nc" data-group-id="8001862374-5">Nx.Tensor</span><span class="p" data-group-id="8001862374-5">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="8001862374-6">[</span><span class="mi">4</span><span class="p" data-group-id="8001862374-6">]</span><span class="p" data-group-id="8001862374-7">[</span><span class="mi">8</span><span class="p" data-group-id="8001862374-7">]</span><span class="w">
-    </span><span class="p" data-group-id="8001862374-8">[</span><span class="w">
-      </span><span class="p" data-group-id="8001862374-9">[</span><span class="mf">0.2199305295944214</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05434012413024902</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07989239692687988</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4456246793270111</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2792319655418396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1601254940032959</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6115692853927612</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37740427255630493</span><span class="p" data-group-id="8001862374-9">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8001862374-10">[</span><span class="o">-</span><span class="mf">0.3606935739517212</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6091846823692322</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3203054368495941</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6252920031547546</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41500264406204224</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20729252696037292</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6763507127761841</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6776859164237976</span><span class="p" data-group-id="8001862374-10">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8001862374-11">[</span><span class="mf">0.659041702747345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.615885317325592</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45865312218666077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18774819374084473</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31994110345840454</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3055777847766876</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3537192642688751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4297131896018982</span><span class="p" data-group-id="8001862374-11">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8001862374-12">[</span><span class="mf">0.06112170219421387</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13321959972381592</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5566524863243103</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1115691065788269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3557875156402588</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03118818998336792</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5788122415542603</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6988758444786072</span><span class="p" data-group-id="8001862374-12">]</span><span class="w">
-    </span><span class="p" data-group-id="8001862374-8">]</span><span class="w">
-  </span><span class="p" data-group-id="8001862374-5">&gt;</span><span class="w">
-</span><span class="p" data-group-id="8001862374-1">}</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9272297079-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9272297079-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9272297079-3">#</span><span class="nc" data-group-id="9272297079-3">Nx.Tensor</span><span class="p" data-group-id="9272297079-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9272297079-4">[</span><span class="mi">8</span><span class="p" data-group-id="9272297079-4">]</span><span class="w">
-      </span><span class="p" data-group-id="9272297079-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9272297079-5">]</span><span class="w">
-    </span><span class="p" data-group-id="9272297079-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9272297079-6">#</span><span class="nc" data-group-id="9272297079-6">Nx.Tensor</span><span class="p" data-group-id="9272297079-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9272297079-7">[</span><span class="mi">4</span><span class="p" data-group-id="9272297079-7">]</span><span class="p" data-group-id="9272297079-8">[</span><span class="mi">8</span><span class="p" data-group-id="9272297079-8">]</span><span class="w">
-      </span><span class="p" data-group-id="9272297079-9">[</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-10">[</span><span class="mf">0.2199305295944214</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05434012413024902</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07989239692687988</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4456246793270111</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2792319655418396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1601254940032959</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6115692853927612</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37740427255630493</span><span class="p" data-group-id="9272297079-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-11">[</span><span class="o">-</span><span class="mf">0.3606935739517212</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6091846823692322</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3203054368495941</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6252920031547546</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41500264406204224</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20729252696037292</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6763507127761841</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6776859164237976</span><span class="p" data-group-id="9272297079-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-12">[</span><span class="mf">0.659041702747345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.615885317325592</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45865312218666077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18774819374084473</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31994110345840454</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3055777847766876</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3537192642688751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4297131896018982</span><span class="p" data-group-id="9272297079-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-13">[</span><span class="mf">0.06112170219421387</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13321959972381592</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5566524863243103</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1115691065788269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3557875156402588</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03118818998336792</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5788122415542603</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6988758444786072</span><span class="p" data-group-id="9272297079-13">]</span><span class="w">
-      </span><span class="p" data-group-id="9272297079-9">]</span><span class="w">
-    </span><span class="p" data-group-id="9272297079-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9272297079-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9272297079-14">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9272297079-15">#</span><span class="nc" data-group-id="9272297079-15">Nx.Tensor</span><span class="p" data-group-id="9272297079-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9272297079-16">[</span><span class="mi">1</span><span class="p" data-group-id="9272297079-16">]</span><span class="w">
-      </span><span class="p" data-group-id="9272297079-17">[</span><span class="mf">0.0</span><span class="p" data-group-id="9272297079-17">]</span><span class="w">
-    </span><span class="p" data-group-id="9272297079-15">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9272297079-18">#</span><span class="nc" data-group-id="9272297079-18">Nx.Tensor</span><span class="p" data-group-id="9272297079-18">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9272297079-19">[</span><span class="mi">8</span><span class="p" data-group-id="9272297079-19">]</span><span class="p" data-group-id="9272297079-20">[</span><span class="mi">1</span><span class="p" data-group-id="9272297079-20">]</span><span class="w">
-      </span><span class="p" data-group-id="9272297079-21">[</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-22">[</span><span class="mf">0.3259686231613159</span><span class="p" data-group-id="9272297079-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-23">[</span><span class="mf">0.4874255657196045</span><span class="p" data-group-id="9272297079-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-24">[</span><span class="mf">0.6338149309158325</span><span class="p" data-group-id="9272297079-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-25">[</span><span class="mf">0.4437469244003296</span><span class="p" data-group-id="9272297079-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-26">[</span><span class="o">-</span><span class="mf">0.22870665788650513</span><span class="p" data-group-id="9272297079-26">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-27">[</span><span class="mf">0.8108665943145752</span><span class="p" data-group-id="9272297079-27">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-28">[</span><span class="mf">7.919073104858398e-4</span><span class="p" data-group-id="9272297079-28">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9272297079-29">[</span><span class="mf">0.4469025135040283</span><span class="p" data-group-id="9272297079-29">]</span><span class="w">
-      </span><span class="p" data-group-id="9272297079-21">]</span><span class="w">
-    </span><span class="p" data-group-id="9272297079-18">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9272297079-14">}</span><span class="w">
-</span><span class="p" data-group-id="9272297079-1">}</span></code></pre><p>On pre-forward and forward:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="2410847080-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="2410847080-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7952557819-1">#</span><span class="nc" data-group-id="7952557819-1">Nx.Tensor</span><span class="p" data-group-id="7952557819-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7952557819-2">[</span><span class="mi">2</span><span class="p" data-group-id="7952557819-2">]</span><span class="p" data-group-id="7952557819-3">[</span><span class="mi">4</span><span class="p" data-group-id="7952557819-3">]</span><span class="w">
-  </span><span class="p" data-group-id="7952557819-4">[</span><span class="w">
-    </span><span class="p" data-group-id="7952557819-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="7952557819-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7952557819-6">[</span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="7952557819-6">]</span><span class="w">
-  </span><span class="p" data-group-id="7952557819-4">]</span><span class="w">
-</span><span class="p" data-group-id="7952557819-1">&gt;</span><span class="w">
-</span><span class="p" data-group-id="7952557819-7">#</span><span class="nc" data-group-id="7952557819-7">Nx.Tensor</span><span class="p" data-group-id="7952557819-7">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7952557819-8">[</span><span class="mi">2</span><span class="p" data-group-id="7952557819-8">]</span><span class="p" data-group-id="7952557819-9">[</span><span class="mi">8</span><span class="p" data-group-id="7952557819-9">]</span><span class="w">
-  </span><span class="p" data-group-id="7952557819-10">[</span><span class="w">
-    </span><span class="p" data-group-id="7952557819-11">[</span><span class="mf">1.1407549381256104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22292715311050415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43234577775001526</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5845029354095459</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8424829840660095</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9120126962661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1202259063720703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9148870706558228</span><span class="p" data-group-id="7952557819-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7952557819-12">[</span><span class="mf">3.4583563804626465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06578820943832397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776448130607605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.563453197479248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7628071308135986</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7287485599517822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.002032279968262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.19266414642334</span><span class="p" data-group-id="7952557819-12">]</span><span class="w">
-  </span><span class="p" data-group-id="7952557819-10">]</span><span class="w">
-</span><span class="p" data-group-id="7952557819-7">&gt;</span><span class="w">
-</span><span class="p" data-group-id="7952557819-13">#</span><span class="nc" data-group-id="7952557819-13">Nx.Tensor</span><span class="p" data-group-id="7952557819-13">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7952557819-14">[</span><span class="mi">2</span><span class="p" data-group-id="7952557819-14">]</span><span class="p" data-group-id="7952557819-15">[</span><span class="mi">8</span><span class="p" data-group-id="7952557819-15">]</span><span class="w">
-  </span><span class="p" data-group-id="7952557819-16">[</span><span class="w">
-    </span><span class="p" data-group-id="7952557819-17">[</span><span class="mf">1.1407549381256104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22292715311050415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43234577775001526</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5845029354095459</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8424829840660095</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9120126962661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1202259063720703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9148870706558228</span><span class="p" data-group-id="7952557819-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7952557819-18">[</span><span class="mf">3.4583563804626465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06578820943832397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776448130607605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.563453197479248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7628071308135986</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7287485599517822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.002032279968262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.19266414642334</span><span class="p" data-group-id="7952557819-18">]</span><span class="w">
-  </span><span class="p" data-group-id="7952557819-16">]</span><span class="w">
-</span><span class="p" data-group-id="7952557819-13">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1650323317-1">#</span><span class="nc" data-group-id="1650323317-1">Nx.Tensor</span><span class="p" data-group-id="1650323317-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1650323317-2">[</span><span class="mi">2</span><span class="p" data-group-id="1650323317-2">]</span><span class="p" data-group-id="1650323317-3">[</span><span class="mi">1</span><span class="p" data-group-id="1650323317-3">]</span><span class="w">
-  </span><span class="p" data-group-id="1650323317-4">[</span><span class="w">
-    </span><span class="p" data-group-id="1650323317-5">[</span><span class="mf">0.6458775401115417</span><span class="p" data-group-id="1650323317-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1650323317-6">[</span><span class="mf">1.1593825817108154</span><span class="p" data-group-id="1650323317-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1650323317-4">]</span><span class="w">
-</span><span class="p" data-group-id="1650323317-1">&gt;</span></code></pre><p>And on backwards:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">grad</span><span class="p" data-group-id="9154265776-1">(</span><span class="k" data-group-id="9154265776-2">fn</span><span class="w"> </span><span class="n">params</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="9154265776-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="9154265776-3">)</span><span class="w"> </span><span class="k" data-group-id="9154265776-2">end</span><span class="p" data-group-id="9154265776-1">)</span><span class="o">.</span><span class="p" data-group-id="9154265776-4">(</span><span class="n">params</span><span class="p" data-group-id="9154265776-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9649228591-1">#</span><span class="nc" data-group-id="9649228591-1">Nx.Tensor</span><span class="p" data-group-id="9649228591-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9649228591-2">[</span><span class="mi">2</span><span class="p" data-group-id="9649228591-2">]</span><span class="p" data-group-id="9649228591-3">[</span><span class="mi">4</span><span class="p" data-group-id="9649228591-3">]</span><span class="w">
-  </span><span class="p" data-group-id="9649228591-4">[</span><span class="w">
-    </span><span class="p" data-group-id="9649228591-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="9649228591-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9649228591-6">[</span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="9649228591-6">]</span><span class="w">
-  </span><span class="p" data-group-id="9649228591-4">]</span><span class="w">
-</span><span class="p" data-group-id="9649228591-1">&gt;</span><span class="w">
-</span><span class="p" data-group-id="9649228591-7">#</span><span class="nc" data-group-id="9649228591-7">Nx.Tensor</span><span class="p" data-group-id="9649228591-7">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9649228591-8">[</span><span class="mi">2</span><span class="p" data-group-id="9649228591-8">]</span><span class="p" data-group-id="9649228591-9">[</span><span class="mi">8</span><span class="p" data-group-id="9649228591-9">]</span><span class="w">
-  </span><span class="p" data-group-id="9649228591-10">[</span><span class="w">
-    </span><span class="p" data-group-id="9649228591-11">[</span><span class="mf">1.1407549381256104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22292715311050415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43234577775001526</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5845029354095459</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8424829840660095</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9120126962661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1202259063720703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9148870706558228</span><span class="p" data-group-id="9649228591-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9649228591-12">[</span><span class="mf">3.4583563804626465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06578820943832397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776448130607605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.563453197479248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7628071308135986</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7287485599517822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.002032279968262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.19266414642334</span><span class="p" data-group-id="9649228591-12">]</span><span class="w">
-  </span><span class="p" data-group-id="9649228591-10">]</span><span class="w">
-</span><span class="p" data-group-id="9649228591-7">&gt;</span><span class="w">
-</span><span class="p" data-group-id="9649228591-13">#</span><span class="nc" data-group-id="9649228591-13">Nx.Tensor</span><span class="p" data-group-id="9649228591-13">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9649228591-14">[</span><span class="mi">2</span><span class="p" data-group-id="9649228591-14">]</span><span class="p" data-group-id="9649228591-15">[</span><span class="mi">8</span><span class="p" data-group-id="9649228591-15">]</span><span class="w">
-  </span><span class="p" data-group-id="9649228591-16">[</span><span class="w">
-    </span><span class="p" data-group-id="9649228591-17">[</span><span class="mf">1.1407549381256104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22292715311050415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43234577775001526</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5845029354095459</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8424829840660095</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9120126962661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1202259063720703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9148870706558228</span><span class="p" data-group-id="9649228591-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9649228591-18">[</span><span class="mf">3.4583563804626465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06578820943832397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776448130607605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.563453197479248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7628071308135986</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7287485599517822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.002032279968262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.19266414642334</span><span class="p" data-group-id="9649228591-18">]</span><span class="w">
-  </span><span class="p" data-group-id="9649228591-16">]</span><span class="w">
-</span><span class="p" data-group-id="9649228591-13">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1565121937-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1565121937-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1565121937-3">#</span><span class="nc" data-group-id="1565121937-3">Nx.Tensor</span><span class="p" data-group-id="1565121937-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1565121937-4">[</span><span class="mi">8</span><span class="p" data-group-id="1565121937-4">]</span><span class="w">
-      </span><span class="p" data-group-id="1565121937-5">[</span><span class="mf">0.6519372463226318</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4874255657196045</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6338149309158325</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-5">]</span><span class="w">
-    </span><span class="p" data-group-id="1565121937-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1565121937-6">#</span><span class="nc" data-group-id="1565121937-6">Nx.Tensor</span><span class="p" data-group-id="1565121937-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1565121937-7">[</span><span class="mi">4</span><span class="p" data-group-id="1565121937-7">]</span><span class="p" data-group-id="1565121937-8">[</span><span class="mi">8</span><span class="p" data-group-id="1565121937-8">]</span><span class="w">
-      </span><span class="p" data-group-id="1565121937-9">[</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-10">[</span><span class="mf">1.3038744926452637</span><span class="p">,</span><span class="w"> </span><span class="mf">1.949702262878418</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-11">[</span><span class="mf">1.9558117389678955</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4371278285980225</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6338149309158325</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-12">[</span><span class="mf">2.6077489852905273</span><span class="p">,</span><span class="w"> </span><span class="mf">2.924553394317627</span><span class="p">,</span><span class="w"> </span><span class="mf">1.267629861831665</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-13">[</span><span class="mf">3.259686231613159</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4119789600372314</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9014447927474976</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-13">]</span><span class="w">
-      </span><span class="p" data-group-id="1565121937-9">]</span><span class="w">
-    </span><span class="p" data-group-id="1565121937-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1565121937-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1565121937-14">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1565121937-15">#</span><span class="nc" data-group-id="1565121937-15">Nx.Tensor</span><span class="p" data-group-id="1565121937-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1565121937-16">[</span><span class="mi">1</span><span class="p" data-group-id="1565121937-16">]</span><span class="w">
-      </span><span class="p" data-group-id="1565121937-17">[</span><span class="mf">2.0</span><span class="p" data-group-id="1565121937-17">]</span><span class="w">
-    </span><span class="p" data-group-id="1565121937-15">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1565121937-18">#</span><span class="nc" data-group-id="1565121937-18">Nx.Tensor</span><span class="p" data-group-id="1565121937-18">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1565121937-19">[</span><span class="mi">8</span><span class="p" data-group-id="1565121937-19">]</span><span class="p" data-group-id="1565121937-20">[</span><span class="mi">1</span><span class="p" data-group-id="1565121937-20">]</span><span class="w">
-      </span><span class="p" data-group-id="1565121937-21">[</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-22">[</span><span class="mf">4.599111557006836</span><span class="p" data-group-id="1565121937-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-23">[</span><span class="mf">0.06578820943832397</span><span class="p" data-group-id="1565121937-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-24">[</span><span class="mf">0.43234577775001526</span><span class="p" data-group-id="1565121937-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-25">[</span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-26">[</span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-26">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-27">[</span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-27">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-28">[</span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-28">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1565121937-29">[</span><span class="mf">0.0</span><span class="p" data-group-id="1565121937-29">]</span><span class="w">
-      </span><span class="p" data-group-id="1565121937-21">]</span><span class="w">
-    </span><span class="p" data-group-id="1565121937-18">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1565121937-14">}</span><span class="w">
-</span><span class="p" data-group-id="1565121937-1">}</span></code></pre><p>Finally, you can specify hooks to only run when the model is built in a certain mode such as training and inference mode. You can read more about training and inference mode in <a href="training_and_inference_mode.html">Training and inference mode</a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1046281208-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="1046281208-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1046281208-2">(</span><span class="mi">8</span><span class="p" data-group-id="1046281208-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="1046281208-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="1046281208-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1046281208-4">(</span><span class="p" data-group-id="1046281208-4">)</span><span class="w">
-
-</span><span class="p" data-group-id="1046281208-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="1046281208-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="1046281208-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="1046281208-6">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="1046281208-7">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1046281208-8">%{</span><span class="p" data-group-id="1046281208-8">}</span><span class="p" data-group-id="1046281208-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5595660774-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5595660774-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5595660774-3">#</span><span class="nc" data-group-id="5595660774-3">Nx.Tensor</span><span class="p" data-group-id="5595660774-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5595660774-4">[</span><span class="mi">8</span><span class="p" data-group-id="5595660774-4">]</span><span class="w">
-      </span><span class="p" data-group-id="5595660774-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5595660774-5">]</span><span class="w">
-    </span><span class="p" data-group-id="5595660774-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5595660774-6">#</span><span class="nc" data-group-id="5595660774-6">Nx.Tensor</span><span class="p" data-group-id="5595660774-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5595660774-7">[</span><span class="mi">4</span><span class="p" data-group-id="5595660774-7">]</span><span class="p" data-group-id="5595660774-8">[</span><span class="mi">8</span><span class="p" data-group-id="5595660774-8">]</span><span class="w">
-      </span><span class="p" data-group-id="5595660774-9">[</span><span class="w">
-        </span><span class="p" data-group-id="5595660774-10">[</span><span class="o">-</span><span class="mf">0.13241732120513916</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6946331858634949</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6328000426292419</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.684409499168396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39569517970085144</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10005003213882446</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2501150965690613</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14561182260513306</span><span class="p" data-group-id="5595660774-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5595660774-11">[</span><span class="o">-</span><span class="mf">0.5495109558105469</span><span class="p">,</span><span class="w"> </span><span class="mf">0.459137499332428</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4059434235095978</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4489462077617645</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6331832408905029</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05011630058288574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.35836488008499146</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2661571800708771</span><span class="p" data-group-id="5595660774-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5595660774-12">[</span><span class="mf">0.29260867834091187</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42186349630355835</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32596689462661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12340176105499268</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6767188906669617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2658537030220032</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5745270848274231</span><span class="p">,</span><span class="w"> </span><span class="mf">6.475448608398438e-4</span><span class="p" data-group-id="5595660774-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5595660774-13">[</span><span class="mf">0.16781508922576904</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23747843503952026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5311254858970642</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22617805004119873</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5153165459632874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19729173183441162</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5706893801689148</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5531126260757446</span><span class="p" data-group-id="5595660774-13">]</span><span class="w">
-      </span><span class="p" data-group-id="5595660774-9">]</span><span class="w">
-    </span><span class="p" data-group-id="5595660774-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5595660774-2">}</span><span class="w">
-</span><span class="p" data-group-id="5595660774-1">}</span></code></pre><p>The model was built in training mode so the hook will run:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6181378007-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="6181378007-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3969682926-1">#</span><span class="nc" data-group-id="3969682926-1">Nx.Tensor</span><span class="p" data-group-id="3969682926-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="3969682926-2">[</span><span class="mi">2</span><span class="p" data-group-id="3969682926-2">]</span><span class="p" data-group-id="3969682926-3">[</span><span class="mi">8</span><span class="p" data-group-id="3969682926-3">]</span><span class="w">
-  </span><span class="p" data-group-id="3969682926-4">[</span><span class="w">
-    </span><span class="p" data-group-id="3969682926-5">[</span><span class="mf">0.539151668548584</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0152997970581055</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.347386121749878</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.017215579748153687</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8256950974464417</span><span class="p">,</span><span class="w"> </span><span class="mf">1.173698902130127</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9213788509368896</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9241999387741089</span><span class="p" data-group-id="3969682926-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="3969682926-6">[</span><span class="o">-</span><span class="mf">0.3468663692474365</span><span class="p">,</span><span class="w"> </span><span class="mf">9.267749786376953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">6.322994232177734</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.139533042907715</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.295599460601807</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8265457153320312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3390271663665771</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.616241931915283</span><span class="p" data-group-id="3969682926-6">]</span><span class="w">
-  </span><span class="p" data-group-id="3969682926-4">]</span><span class="w">
-</span><span class="p" data-group-id="3969682926-1">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5587805775-1">%{</span><span class="w">
-  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5587805775-2">#</span><span class="nc" data-group-id="5587805775-2">Nx.Tensor</span><span class="p" data-group-id="5587805775-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="5587805775-3">[</span><span class="mi">2</span><span class="p" data-group-id="5587805775-3">]</span><span class="p" data-group-id="5587805775-4">[</span><span class="mi">8</span><span class="p" data-group-id="5587805775-4">]</span><span class="w">
-    </span><span class="p" data-group-id="5587805775-5">[</span><span class="w">
-      </span><span class="p" data-group-id="5587805775-6">[</span><span class="mf">0.539151668548584</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0152997970581055</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.173698902130127</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5587805775-6">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5587805775-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">9.267749786376953</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8265457153320312</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5587805775-7">]</span><span class="w">
-    </span><span class="p" data-group-id="5587805775-5">]</span><span class="w">
-  </span><span class="p" data-group-id="5587805775-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5587805775-8">%{</span><span class="p" data-group-id="5587805775-8">}</span><span class="w">
-</span><span class="p" data-group-id="5587805775-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="9993098709-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9993098709-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9993098709-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:inference</span><span class="p" data-group-id="9993098709-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9993098709-3">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9993098709-4">%{</span><span class="p" data-group-id="9993098709-4">}</span><span class="p" data-group-id="9993098709-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9668770474-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9668770474-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9668770474-3">#</span><span class="nc" data-group-id="9668770474-3">Nx.Tensor</span><span class="p" data-group-id="9668770474-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9668770474-4">[</span><span class="mi">8</span><span class="p" data-group-id="9668770474-4">]</span><span class="w">
-      </span><span class="p" data-group-id="9668770474-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9668770474-5">]</span><span class="w">
-    </span><span class="p" data-group-id="9668770474-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9668770474-6">#</span><span class="nc" data-group-id="9668770474-6">Nx.Tensor</span><span class="p" data-group-id="9668770474-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9668770474-7">[</span><span class="mi">4</span><span class="p" data-group-id="9668770474-7">]</span><span class="p" data-group-id="9668770474-8">[</span><span class="mi">8</span><span class="p" data-group-id="9668770474-8">]</span><span class="w">
-      </span><span class="p" data-group-id="9668770474-9">[</span><span class="w">
-        </span><span class="p" data-group-id="9668770474-10">[</span><span class="mf">0.02683490514755249</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28041765093803406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15839070081710815</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16674137115478516</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5444575548171997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34951671957969666</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08247309923171997</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6700448393821716</span><span class="p" data-group-id="9668770474-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9668770474-11">[</span><span class="mf">0.6001952290534973</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26907777786254883</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4580194354057312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.060002803802490234</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5385662317276001</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46773862838745117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25804388523101807</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6824946999549866</span><span class="p" data-group-id="9668770474-11">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9668770474-12">[</span><span class="mf">0.13328874111175537</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46421635150909424</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5192649960517883</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0429919958114624</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0771912932395935</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.447194904088974</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30910569429397583</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6105270981788635</span><span class="p" data-group-id="9668770474-12">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9668770474-13">[</span><span class="mf">0.5253992676734924</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41786473989486694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6903378367424011</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6038702130317688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06673228740692139</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4242702126502991</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6737087368965149</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6956207156181335</span><span class="p" data-group-id="9668770474-13">]</span><span class="w">
-      </span><span class="p" data-group-id="9668770474-9">]</span><span class="w">
-    </span><span class="p" data-group-id="9668770474-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9668770474-2">}</span><span class="w">
-</span><span class="p" data-group-id="9668770474-1">}</span></code></pre><p>The model was built in inference mode so the hook will not run:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4714242077-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="4714242077-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0629729759-1">#</span><span class="nc" data-group-id="0629729759-1">Nx.Tensor</span><span class="p" data-group-id="0629729759-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="0629729759-2">[</span><span class="mi">2</span><span class="p" data-group-id="0629729759-2">]</span><span class="p" data-group-id="0629729759-3">[</span><span class="mi">8</span><span class="p" data-group-id="0629729759-3">]</span><span class="w">
-  </span><span class="p" data-group-id="0629729759-4">[</span><span class="w">
-    </span><span class="p" data-group-id="0629729759-5">[</span><span class="mf">2.4429705142974854</span><span class="p">,</span><span class="w"> </span><span class="mf">0.056083738803863525</span><span class="p">,</span><span class="w"> </span><span class="mf">1.490502953529358</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6656239032745361</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0629729759-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="0629729759-6">[</span><span class="mf">7.585843086242676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.640434741973877</span><span class="p">,</span><span class="w"> </span><span class="mf">4.336091041564941</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0629729759-6">]</span><span class="w">
-  </span><span class="p" data-group-id="0629729759-4">]</span><span class="w">
-</span><span class="p" data-group-id="0629729759-1">&gt;</span></code></pre>
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0479087823-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0479087823-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0479087823-2">(</span><span class="mi">8</span><span class="p" data-group-id="0479087823-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0479087823-3">(</span><span class="k" data-group-id="0479087823-4">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0479087823-5">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:dense_forward</span><span class="p" data-group-id="0479087823-5">)</span><span class="w"> </span><span class="k" data-group-id="0479087823-4">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="0479087823-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0479087823-6">(</span><span class="k" data-group-id="0479087823-7">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0479087823-8">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:dense_init</span><span class="p" data-group-id="0479087823-8">)</span><span class="w"> </span><span class="k" data-group-id="0479087823-7">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:initialize</span><span class="p" data-group-id="0479087823-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0479087823-9">(</span><span class="p" data-group-id="0479087823-9">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0479087823-10">(</span><span class="k" data-group-id="0479087823-11">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0479087823-12">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:relu</span><span class="p" data-group-id="0479087823-12">)</span><span class="w"> </span><span class="k" data-group-id="0479087823-11">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="0479087823-10">)</span><span class="w">
+
+</span><span class="p" data-group-id="0479087823-13">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0479087823-13">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0479087823-14">(</span><span class="n">model</span><span class="p" data-group-id="0479087823-14">)</span><span class="w">
+
+</span><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0479087823-15">(</span><span class="p" data-group-id="0479087823-16">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">4</span><span class="p" data-group-id="0479087823-16">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0479087823-15">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0479087823-17">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0479087823-18">%{</span><span class="p" data-group-id="0479087823-18">}</span><span class="p" data-group-id="0479087823-17">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">dense_init</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1261679094-1">%{</span><span class="w">
+  </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1261679094-2">#</span><span class="nc" data-group-id="1261679094-2">Nx.Tensor</span><span class="p" data-group-id="1261679094-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="1261679094-3">[</span><span class="mi">8</span><span class="p" data-group-id="1261679094-3">]</span><span class="w">
+    </span><span class="p" data-group-id="1261679094-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1261679094-4">]</span><span class="w">
+  </span><span class="p" data-group-id="1261679094-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1261679094-5">#</span><span class="nc" data-group-id="1261679094-5">Nx.Tensor</span><span class="p" data-group-id="1261679094-5">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="1261679094-6">[</span><span class="mi">4</span><span class="p" data-group-id="1261679094-6">]</span><span class="p" data-group-id="1261679094-7">[</span><span class="mi">8</span><span class="p" data-group-id="1261679094-7">]</span><span class="w">
+    </span><span class="p" data-group-id="1261679094-8">[</span><span class="w">
+      </span><span class="p" data-group-id="1261679094-9">[</span><span class="mf">0.6067318320274353</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5483129620552063</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05663269758224487</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48249542713165283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18357598781585693</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6496620774269104</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4919115900993347</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08380156755447388</span><span class="p" data-group-id="1261679094-9">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1261679094-10">[</span><span class="o">-</span><span class="mf">0.19745409488677979</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10483592748641968</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43387970328330994</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1041460633277893</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4129607081413269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6482449769973755</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6696910262107849</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4690167307853699</span><span class="p" data-group-id="1261679094-10">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1261679094-11">[</span><span class="o">-</span><span class="mf">0.18194729089736938</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4856645464897156</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39400774240493774</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28496378660202026</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32120805978775024</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41854584217071533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5671316981315613</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21937215328216553</span><span class="p" data-group-id="1261679094-11">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1261679094-12">[</span><span class="mf">0.4516749978065491</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23585206270217896</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6682141423225403</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4286096692085266</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14930623769760132</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3825327157974243</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2700549364089966</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3888852596282959</span><span class="p" data-group-id="1261679094-12">]</span><span class="w">
+    </span><span class="p" data-group-id="1261679094-8">]</span><span class="w">
+  </span><span class="p" data-group-id="1261679094-5">&gt;</span><span class="w">
+</span><span class="p" data-group-id="1261679094-1">}</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5495160301-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5495160301-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5495160301-3">#</span><span class="nc" data-group-id="5495160301-3">Nx.Tensor</span><span class="p" data-group-id="5495160301-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5495160301-4">[</span><span class="mi">8</span><span class="p" data-group-id="5495160301-4">]</span><span class="w">
+      </span><span class="p" data-group-id="5495160301-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5495160301-5">]</span><span class="w">
+    </span><span class="p" data-group-id="5495160301-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5495160301-6">#</span><span class="nc" data-group-id="5495160301-6">Nx.Tensor</span><span class="p" data-group-id="5495160301-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="5495160301-7">[</span><span class="mi">4</span><span class="p" data-group-id="5495160301-7">]</span><span class="p" data-group-id="5495160301-8">[</span><span class="mi">8</span><span class="p" data-group-id="5495160301-8">]</span><span class="w">
+      </span><span class="p" data-group-id="5495160301-9">[</span><span class="w">
+        </span><span class="p" data-group-id="5495160301-10">[</span><span class="mf">0.6067318320274353</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5483129620552063</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05663269758224487</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.48249542713165283</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18357598781585693</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6496620774269104</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4919115900993347</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08380156755447388</span><span class="p" data-group-id="5495160301-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5495160301-11">[</span><span class="o">-</span><span class="mf">0.19745409488677979</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10483592748641968</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43387970328330994</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1041460633277893</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4129607081413269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6482449769973755</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6696910262107849</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4690167307853699</span><span class="p" data-group-id="5495160301-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5495160301-12">[</span><span class="o">-</span><span class="mf">0.18194729089736938</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4856645464897156</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39400774240493774</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28496378660202026</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32120805978775024</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41854584217071533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5671316981315613</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21937215328216553</span><span class="p" data-group-id="5495160301-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="5495160301-13">[</span><span class="mf">0.4516749978065491</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23585206270217896</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6682141423225403</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4286096692085266</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14930623769760132</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3825327157974243</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2700549364089966</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3888852596282959</span><span class="p" data-group-id="5495160301-13">]</span><span class="w">
+      </span><span class="p" data-group-id="5495160301-9">]</span><span class="w">
+    </span><span class="p" data-group-id="5495160301-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="5495160301-2">}</span><span class="w">
+</span><span class="p" data-group-id="5495160301-1">}</span></code></pre><p>Notice how during initialization the <code class="inline">:dense_init</code> hook fired and inspected the layer's parameters. Now when executing, you'll see outputs for <code class="inline">:dense</code> and <code class="inline">:relu</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7101916719-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="7101916719-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">relu</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4570655518-1">#</span><span class="nc" data-group-id="4570655518-1">Nx.Tensor</span><span class="p" data-group-id="4570655518-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4570655518-2">[</span><span class="mi">2</span><span class="p" data-group-id="4570655518-2">]</span><span class="p" data-group-id="4570655518-3">[</span><span class="mi">8</span><span class="p" data-group-id="4570655518-3">]</span><span class="w">
+  </span><span class="p" data-group-id="4570655518-4">[</span><span class="w">
+    </span><span class="p" data-group-id="4570655518-5">[</span><span class="mf">0.7936763167381287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.61175537109375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.614119291305542</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4570655518-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4570655518-6">[</span><span class="mf">3.5096981525421143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.609275817871094</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4570655518-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4570655518-4">]</span><span class="w">
+</span><span class="p" data-group-id="4570655518-1">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0906149908-1">#</span><span class="nc" data-group-id="0906149908-1">Nx.Tensor</span><span class="p" data-group-id="0906149908-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0906149908-2">[</span><span class="mi">2</span><span class="p" data-group-id="0906149908-2">]</span><span class="p" data-group-id="0906149908-3">[</span><span class="mi">8</span><span class="p" data-group-id="0906149908-3">]</span><span class="w">
+  </span><span class="p" data-group-id="0906149908-4">[</span><span class="w">
+    </span><span class="p" data-group-id="0906149908-5">[</span><span class="mf">0.7936763167381287</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.61175537109375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.614119291305542</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0906149908-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0906149908-6">[</span><span class="mf">3.5096981525421143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.609275817871094</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="0906149908-6">]</span><span class="w">
+  </span><span class="p" data-group-id="0906149908-4">]</span><span class="w">
+</span><span class="p" data-group-id="0906149908-1">&gt;</span></code></pre><p>It's important to note that hooks execute in the order they were attached to a layer. If you attach 2 hooks to the same layer which execute different functions on the same event, they will run in order:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0710365437-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0710365437-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0710365437-2">(</span><span class="mi">8</span><span class="p" data-group-id="0710365437-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0710365437-3">(</span><span class="k" data-group-id="0710365437-4">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0710365437-5">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:hook1</span><span class="p" data-group-id="0710365437-5">)</span><span class="w"> </span><span class="k" data-group-id="0710365437-4">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="0710365437-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="0710365437-6">(</span><span class="k" data-group-id="0710365437-7">fn</span><span class="w"> </span><span class="n">val</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="0710365437-8">(</span><span class="n">val</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="ss">:hook2</span><span class="p" data-group-id="0710365437-8">)</span><span class="w"> </span><span class="k" data-group-id="0710365437-7">end</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p" data-group-id="0710365437-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0710365437-9">(</span><span class="p" data-group-id="0710365437-9">)</span><span class="w">
+
+</span><span class="p" data-group-id="0710365437-10">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0710365437-10">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0710365437-11">(</span><span class="n">model</span><span class="p" data-group-id="0710365437-11">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0710365437-12">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0710365437-13">%{</span><span class="p" data-group-id="0710365437-13">}</span><span class="p" data-group-id="0710365437-12">)</span><span class="w">
+
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0710365437-14">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="0710365437-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">hook2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0415605072-1">#</span><span class="nc" data-group-id="0415605072-1">Nx.Tensor</span><span class="p" data-group-id="0415605072-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="0415605072-2">[</span><span class="mi">2</span><span class="p" data-group-id="0415605072-2">]</span><span class="p" data-group-id="0415605072-3">[</span><span class="mi">8</span><span class="p" data-group-id="0415605072-3">]</span><span class="w">
+  </span><span class="p" data-group-id="0415605072-4">[</span><span class="w">
+    </span><span class="p" data-group-id="0415605072-5">[</span><span class="o">-</span><span class="mf">0.6567458510398865</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2303993701934814</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.540865421295166</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.873536229133606</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.386439085006714</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.248870849609375</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.9092607498168945</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1976098120212555</span><span class="p" data-group-id="0415605072-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="0415605072-6">[</span><span class="mf">2.4088101387023926</span><span class="p">,</span><span class="w"> </span><span class="mf">5.939034461975098</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">2.024522066116333</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">7.58249568939209</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">10.193460464477539</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33839887380599976</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">10.836882591247559</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8173918724060059</span><span class="p" data-group-id="0415605072-6">]</span><span class="w">
+  </span><span class="p" data-group-id="0415605072-4">]</span><span class="w">
+</span><span class="p" data-group-id="0415605072-1">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5040502601-1">#</span><span class="nc" data-group-id="5040502601-1">Nx.Tensor</span><span class="p" data-group-id="5040502601-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5040502601-2">[</span><span class="mi">2</span><span class="p" data-group-id="5040502601-2">]</span><span class="p" data-group-id="5040502601-3">[</span><span class="mi">8</span><span class="p" data-group-id="5040502601-3">]</span><span class="w">
+  </span><span class="p" data-group-id="5040502601-4">[</span><span class="w">
+    </span><span class="p" data-group-id="5040502601-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2303993701934814</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="5040502601-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5040502601-6">[</span><span class="mf">2.4088101387023926</span><span class="p">,</span><span class="w"> </span><span class="mf">5.939034461975098</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.33839887380599976</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8173918724060059</span><span class="p" data-group-id="5040502601-6">]</span><span class="w">
+  </span><span class="p" data-group-id="5040502601-4">]</span><span class="w">
+</span><span class="p" data-group-id="5040502601-1">&gt;</span></code></pre><p>Notice that <code class="inline">:hook1</code> fires before <code class="inline">:hook2</code>.</p><p>You can also specify a hook to fire on all events:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6314494420-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6314494420-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6314494420-2">(</span><span class="mi">8</span><span class="p" data-group-id="6314494420-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="6314494420-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:all</span><span class="p" data-group-id="6314494420-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6314494420-4">(</span><span class="p" data-group-id="6314494420-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6314494420-5">(</span><span class="mi">1</span><span class="p" data-group-id="6314494420-5">)</span><span class="w">
+
+</span><span class="p" data-group-id="6314494420-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6314494420-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6314494420-7">(</span><span class="n">model</span><span class="p" data-group-id="6314494420-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7796883647-1">{</span><span class="p" data-group-id="7796883647-2">#</span><span class="nc" data-group-id="7796883647-2">Function</span><span class="p" data-group-id="7796883647-2">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="7796883647-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="7796883647-3">#</span><span class="nc" data-group-id="7796883647-3">Function</span><span class="p" data-group-id="7796883647-3">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="7796883647-3">&gt;</span><span class="p" data-group-id="7796883647-1">}</span></code></pre><p>On initialization:</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="2754149800-1">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2754149800-2">%{</span><span class="p" data-group-id="2754149800-2">}</span><span class="p" data-group-id="2754149800-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9559309526-1">%{</span><span class="w">
+  </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9559309526-2">#</span><span class="nc" data-group-id="9559309526-2">Nx.Tensor</span><span class="p" data-group-id="9559309526-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="9559309526-3">[</span><span class="mi">8</span><span class="p" data-group-id="9559309526-3">]</span><span class="w">
+    </span><span class="p" data-group-id="9559309526-4">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9559309526-4">]</span><span class="w">
+  </span><span class="p" data-group-id="9559309526-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9559309526-5">#</span><span class="nc" data-group-id="9559309526-5">Nx.Tensor</span><span class="p" data-group-id="9559309526-5">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="9559309526-6">[</span><span class="mi">4</span><span class="p" data-group-id="9559309526-6">]</span><span class="p" data-group-id="9559309526-7">[</span><span class="mi">8</span><span class="p" data-group-id="9559309526-7">]</span><span class="w">
+    </span><span class="p" data-group-id="9559309526-8">[</span><span class="w">
+      </span><span class="p" data-group-id="9559309526-9">[</span><span class="mf">0.2199305295944214</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05434012413024902</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07989239692687988</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4456246793270111</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2792319655418396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1601254940032959</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6115692853927612</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37740427255630493</span><span class="p" data-group-id="9559309526-9">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="9559309526-10">[</span><span class="o">-</span><span class="mf">0.3606935739517212</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6091846823692322</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3203054368495941</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6252920031547546</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41500264406204224</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20729252696037292</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6763507127761841</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6776859164237976</span><span class="p" data-group-id="9559309526-10">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="9559309526-11">[</span><span class="mf">0.659041702747345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.615885317325592</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45865312218666077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18774819374084473</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31994110345840454</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3055777847766876</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3537192642688751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4297131896018982</span><span class="p" data-group-id="9559309526-11">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="9559309526-12">[</span><span class="mf">0.06112170219421387</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13321959972381592</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5566524863243103</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1115691065788269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3557875156402588</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03118818998336792</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5788122415542603</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6988758444786072</span><span class="p" data-group-id="9559309526-12">]</span><span class="w">
+    </span><span class="p" data-group-id="9559309526-8">]</span><span class="w">
+  </span><span class="p" data-group-id="9559309526-5">&gt;</span><span class="w">
+</span><span class="p" data-group-id="9559309526-1">}</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9019897837-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9019897837-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9019897837-3">#</span><span class="nc" data-group-id="9019897837-3">Nx.Tensor</span><span class="p" data-group-id="9019897837-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9019897837-4">[</span><span class="mi">8</span><span class="p" data-group-id="9019897837-4">]</span><span class="w">
+      </span><span class="p" data-group-id="9019897837-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="9019897837-5">]</span><span class="w">
+    </span><span class="p" data-group-id="9019897837-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9019897837-6">#</span><span class="nc" data-group-id="9019897837-6">Nx.Tensor</span><span class="p" data-group-id="9019897837-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9019897837-7">[</span><span class="mi">4</span><span class="p" data-group-id="9019897837-7">]</span><span class="p" data-group-id="9019897837-8">[</span><span class="mi">8</span><span class="p" data-group-id="9019897837-8">]</span><span class="w">
+      </span><span class="p" data-group-id="9019897837-9">[</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-10">[</span><span class="mf">0.2199305295944214</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05434012413024902</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07989239692687988</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4456246793270111</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2792319655418396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1601254940032959</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6115692853927612</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37740427255630493</span><span class="p" data-group-id="9019897837-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-11">[</span><span class="o">-</span><span class="mf">0.3606935739517212</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6091846823692322</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3203054368495941</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6252920031547546</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41500264406204224</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20729252696037292</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6763507127761841</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6776859164237976</span><span class="p" data-group-id="9019897837-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-12">[</span><span class="mf">0.659041702747345</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.615885317325592</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.45865312218666077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18774819374084473</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31994110345840454</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3055777847766876</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3537192642688751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4297131896018982</span><span class="p" data-group-id="9019897837-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-13">[</span><span class="mf">0.06112170219421387</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13321959972381592</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5566524863243103</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1115691065788269</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3557875156402588</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03118818998336792</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5788122415542603</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6988758444786072</span><span class="p" data-group-id="9019897837-13">]</span><span class="w">
+      </span><span class="p" data-group-id="9019897837-9">]</span><span class="w">
+    </span><span class="p" data-group-id="9019897837-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9019897837-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9019897837-14">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9019897837-15">#</span><span class="nc" data-group-id="9019897837-15">Nx.Tensor</span><span class="p" data-group-id="9019897837-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9019897837-16">[</span><span class="mi">1</span><span class="p" data-group-id="9019897837-16">]</span><span class="w">
+      </span><span class="p" data-group-id="9019897837-17">[</span><span class="mf">0.0</span><span class="p" data-group-id="9019897837-17">]</span><span class="w">
+    </span><span class="p" data-group-id="9019897837-15">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9019897837-18">#</span><span class="nc" data-group-id="9019897837-18">Nx.Tensor</span><span class="p" data-group-id="9019897837-18">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="9019897837-19">[</span><span class="mi">8</span><span class="p" data-group-id="9019897837-19">]</span><span class="p" data-group-id="9019897837-20">[</span><span class="mi">1</span><span class="p" data-group-id="9019897837-20">]</span><span class="w">
+      </span><span class="p" data-group-id="9019897837-21">[</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-22">[</span><span class="mf">0.3259686231613159</span><span class="p" data-group-id="9019897837-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-23">[</span><span class="mf">0.4874255657196045</span><span class="p" data-group-id="9019897837-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-24">[</span><span class="mf">0.6338149309158325</span><span class="p" data-group-id="9019897837-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-25">[</span><span class="mf">0.4437469244003296</span><span class="p" data-group-id="9019897837-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-26">[</span><span class="o">-</span><span class="mf">0.22870665788650513</span><span class="p" data-group-id="9019897837-26">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-27">[</span><span class="mf">0.8108665943145752</span><span class="p" data-group-id="9019897837-27">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-28">[</span><span class="mf">7.919073104858398e-4</span><span class="p" data-group-id="9019897837-28">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="9019897837-29">[</span><span class="mf">0.4469025135040283</span><span class="p" data-group-id="9019897837-29">]</span><span class="w">
+      </span><span class="p" data-group-id="9019897837-21">]</span><span class="w">
+    </span><span class="p" data-group-id="9019897837-18">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="9019897837-14">}</span><span class="w">
+</span><span class="p" data-group-id="9019897837-1">}</span></code></pre><p>On pre-forward and forward:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="1076794819-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="1076794819-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9316066499-1">#</span><span class="nc" data-group-id="9316066499-1">Nx.Tensor</span><span class="p" data-group-id="9316066499-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9316066499-2">[</span><span class="mi">2</span><span class="p" data-group-id="9316066499-2">]</span><span class="p" data-group-id="9316066499-3">[</span><span class="mi">4</span><span class="p" data-group-id="9316066499-3">]</span><span class="w">
+  </span><span class="p" data-group-id="9316066499-4">[</span><span class="w">
+    </span><span class="p" data-group-id="9316066499-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="9316066499-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9316066499-6">[</span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="9316066499-6">]</span><span class="w">
+  </span><span class="p" data-group-id="9316066499-4">]</span><span class="w">
+</span><span class="p" data-group-id="9316066499-1">&gt;</span><span class="w">
+</span><span class="p" data-group-id="9316066499-7">#</span><span class="nc" data-group-id="9316066499-7">Nx.Tensor</span><span class="p" data-group-id="9316066499-7">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9316066499-8">[</span><span class="mi">2</span><span class="p" data-group-id="9316066499-8">]</span><span class="p" data-group-id="9316066499-9">[</span><span class="mi">8</span><span class="p" data-group-id="9316066499-9">]</span><span class="w">
+  </span><span class="p" data-group-id="9316066499-10">[</span><span class="w">
+    </span><span class="p" data-group-id="9316066499-11">[</span><span class="mf">1.1407549381256104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22292715311050415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43234577775001526</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5845029354095459</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8424829840660095</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9120126962661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1202259063720703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9148870706558228</span><span class="p" data-group-id="9316066499-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9316066499-12">[</span><span class="mf">3.4583563804626465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06578820943832397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776448130607605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.563453197479248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7628071308135986</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7287485599517822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.002032279968262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.19266414642334</span><span class="p" data-group-id="9316066499-12">]</span><span class="w">
+  </span><span class="p" data-group-id="9316066499-10">]</span><span class="w">
+</span><span class="p" data-group-id="9316066499-7">&gt;</span><span class="w">
+</span><span class="p" data-group-id="9316066499-13">#</span><span class="nc" data-group-id="9316066499-13">Nx.Tensor</span><span class="p" data-group-id="9316066499-13">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9316066499-14">[</span><span class="mi">2</span><span class="p" data-group-id="9316066499-14">]</span><span class="p" data-group-id="9316066499-15">[</span><span class="mi">8</span><span class="p" data-group-id="9316066499-15">]</span><span class="w">
+  </span><span class="p" data-group-id="9316066499-16">[</span><span class="w">
+    </span><span class="p" data-group-id="9316066499-17">[</span><span class="mf">1.1407549381256104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22292715311050415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43234577775001526</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5845029354095459</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8424829840660095</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9120126962661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1202259063720703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9148870706558228</span><span class="p" data-group-id="9316066499-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9316066499-18">[</span><span class="mf">3.4583563804626465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06578820943832397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776448130607605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.563453197479248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7628071308135986</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7287485599517822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.002032279968262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.19266414642334</span><span class="p" data-group-id="9316066499-18">]</span><span class="w">
+  </span><span class="p" data-group-id="9316066499-16">]</span><span class="w">
+</span><span class="p" data-group-id="9316066499-13">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4918190023-1">#</span><span class="nc" data-group-id="4918190023-1">Nx.Tensor</span><span class="p" data-group-id="4918190023-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4918190023-2">[</span><span class="mi">2</span><span class="p" data-group-id="4918190023-2">]</span><span class="p" data-group-id="4918190023-3">[</span><span class="mi">1</span><span class="p" data-group-id="4918190023-3">]</span><span class="w">
+  </span><span class="p" data-group-id="4918190023-4">[</span><span class="w">
+    </span><span class="p" data-group-id="4918190023-5">[</span><span class="mf">0.6458775401115417</span><span class="p" data-group-id="4918190023-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4918190023-6">[</span><span class="mf">1.1593825817108154</span><span class="p" data-group-id="4918190023-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4918190023-4">]</span><span class="w">
+</span><span class="p" data-group-id="4918190023-1">&gt;</span></code></pre><p>And on backwards:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">grad</span><span class="p" data-group-id="4061793827-1">(</span><span class="k" data-group-id="4061793827-2">fn</span><span class="w"> </span><span class="n">params</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4061793827-3">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="4061793827-3">)</span><span class="w"> </span><span class="k" data-group-id="4061793827-2">end</span><span class="p" data-group-id="4061793827-1">)</span><span class="o">.</span><span class="p" data-group-id="4061793827-4">(</span><span class="n">params</span><span class="p" data-group-id="4061793827-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6955729969-1">#</span><span class="nc" data-group-id="6955729969-1">Nx.Tensor</span><span class="p" data-group-id="6955729969-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6955729969-2">[</span><span class="mi">2</span><span class="p" data-group-id="6955729969-2">]</span><span class="p" data-group-id="6955729969-3">[</span><span class="mi">4</span><span class="p" data-group-id="6955729969-3">]</span><span class="w">
+  </span><span class="p" data-group-id="6955729969-4">[</span><span class="w">
+    </span><span class="p" data-group-id="6955729969-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p" data-group-id="6955729969-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6955729969-6">[</span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="6955729969-6">]</span><span class="w">
+  </span><span class="p" data-group-id="6955729969-4">]</span><span class="w">
+</span><span class="p" data-group-id="6955729969-1">&gt;</span><span class="w">
+</span><span class="p" data-group-id="6955729969-7">#</span><span class="nc" data-group-id="6955729969-7">Nx.Tensor</span><span class="p" data-group-id="6955729969-7">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6955729969-8">[</span><span class="mi">2</span><span class="p" data-group-id="6955729969-8">]</span><span class="p" data-group-id="6955729969-9">[</span><span class="mi">8</span><span class="p" data-group-id="6955729969-9">]</span><span class="w">
+  </span><span class="p" data-group-id="6955729969-10">[</span><span class="w">
+    </span><span class="p" data-group-id="6955729969-11">[</span><span class="mf">1.1407549381256104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22292715311050415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43234577775001526</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5845029354095459</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8424829840660095</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9120126962661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1202259063720703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9148870706558228</span><span class="p" data-group-id="6955729969-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6955729969-12">[</span><span class="mf">3.4583563804626465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06578820943832397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776448130607605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.563453197479248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7628071308135986</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7287485599517822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.002032279968262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.19266414642334</span><span class="p" data-group-id="6955729969-12">]</span><span class="w">
+  </span><span class="p" data-group-id="6955729969-10">]</span><span class="w">
+</span><span class="p" data-group-id="6955729969-7">&gt;</span><span class="w">
+</span><span class="p" data-group-id="6955729969-13">#</span><span class="nc" data-group-id="6955729969-13">Nx.Tensor</span><span class="p" data-group-id="6955729969-13">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6955729969-14">[</span><span class="mi">2</span><span class="p" data-group-id="6955729969-14">]</span><span class="p" data-group-id="6955729969-15">[</span><span class="mi">8</span><span class="p" data-group-id="6955729969-15">]</span><span class="w">
+  </span><span class="p" data-group-id="6955729969-16">[</span><span class="w">
+    </span><span class="p" data-group-id="6955729969-17">[</span><span class="mf">1.1407549381256104</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22292715311050415</span><span class="p">,</span><span class="w"> </span><span class="mf">0.43234577775001526</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5845029354095459</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8424829840660095</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9120126962661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.1202259063720703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9148870706558228</span><span class="p" data-group-id="6955729969-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6955729969-18">[</span><span class="mf">3.4583563804626465</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06578820943832397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776448130607605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.563453197479248</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7628071308135986</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">3.7287485599517822</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">12.002032279968262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.19266414642334</span><span class="p" data-group-id="6955729969-18">]</span><span class="w">
+  </span><span class="p" data-group-id="6955729969-16">]</span><span class="w">
+</span><span class="p" data-group-id="6955729969-13">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3107509009-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3107509009-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3107509009-3">#</span><span class="nc" data-group-id="3107509009-3">Nx.Tensor</span><span class="p" data-group-id="3107509009-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3107509009-4">[</span><span class="mi">8</span><span class="p" data-group-id="3107509009-4">]</span><span class="w">
+      </span><span class="p" data-group-id="3107509009-5">[</span><span class="mf">0.6519372463226318</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4874255657196045</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6338149309158325</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-5">]</span><span class="w">
+    </span><span class="p" data-group-id="3107509009-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3107509009-6">#</span><span class="nc" data-group-id="3107509009-6">Nx.Tensor</span><span class="p" data-group-id="3107509009-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3107509009-7">[</span><span class="mi">4</span><span class="p" data-group-id="3107509009-7">]</span><span class="p" data-group-id="3107509009-8">[</span><span class="mi">8</span><span class="p" data-group-id="3107509009-8">]</span><span class="w">
+      </span><span class="p" data-group-id="3107509009-9">[</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-10">[</span><span class="mf">1.3038744926452637</span><span class="p">,</span><span class="w"> </span><span class="mf">1.949702262878418</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-11">[</span><span class="mf">1.9558117389678955</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4371278285980225</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6338149309158325</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-12">[</span><span class="mf">2.6077489852905273</span><span class="p">,</span><span class="w"> </span><span class="mf">2.924553394317627</span><span class="p">,</span><span class="w"> </span><span class="mf">1.267629861831665</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-13">[</span><span class="mf">3.259686231613159</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4119789600372314</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9014447927474976</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-13">]</span><span class="w">
+      </span><span class="p" data-group-id="3107509009-9">]</span><span class="w">
+    </span><span class="p" data-group-id="3107509009-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3107509009-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3107509009-14">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3107509009-15">#</span><span class="nc" data-group-id="3107509009-15">Nx.Tensor</span><span class="p" data-group-id="3107509009-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3107509009-16">[</span><span class="mi">1</span><span class="p" data-group-id="3107509009-16">]</span><span class="w">
+      </span><span class="p" data-group-id="3107509009-17">[</span><span class="mf">2.0</span><span class="p" data-group-id="3107509009-17">]</span><span class="w">
+    </span><span class="p" data-group-id="3107509009-15">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3107509009-18">#</span><span class="nc" data-group-id="3107509009-18">Nx.Tensor</span><span class="p" data-group-id="3107509009-18">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3107509009-19">[</span><span class="mi">8</span><span class="p" data-group-id="3107509009-19">]</span><span class="p" data-group-id="3107509009-20">[</span><span class="mi">1</span><span class="p" data-group-id="3107509009-20">]</span><span class="w">
+      </span><span class="p" data-group-id="3107509009-21">[</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-22">[</span><span class="mf">4.599111557006836</span><span class="p" data-group-id="3107509009-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-23">[</span><span class="mf">0.06578820943832397</span><span class="p" data-group-id="3107509009-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-24">[</span><span class="mf">0.43234577775001526</span><span class="p" data-group-id="3107509009-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-25">[</span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-26">[</span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-26">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-27">[</span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-27">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-28">[</span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-28">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3107509009-29">[</span><span class="mf">0.0</span><span class="p" data-group-id="3107509009-29">]</span><span class="w">
+      </span><span class="p" data-group-id="3107509009-21">]</span><span class="w">
+    </span><span class="p" data-group-id="3107509009-18">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3107509009-14">}</span><span class="w">
+</span><span class="p" data-group-id="3107509009-1">}</span></code></pre><p>Finally, you can specify hooks to only run when the model is built in a certain mode such as training and inference mode. You can read more about training and inference mode in <a href="training_and_inference_mode.html">Training and inference mode</a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9275652888-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="9275652888-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9275652888-2">(</span><span class="mi">8</span><span class="p" data-group-id="9275652888-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">attach_hook</span><span class="p" data-group-id="9275652888-3">(</span><span class="o">&amp;</span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">on</span><span class="p">:</span><span class="w"> </span><span class="ss">:forward</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="9275652888-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9275652888-4">(</span><span class="p" data-group-id="9275652888-4">)</span><span class="w">
+
+</span><span class="p" data-group-id="9275652888-5">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9275652888-5">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9275652888-6">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="9275652888-6">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9275652888-7">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9275652888-8">%{</span><span class="p" data-group-id="9275652888-8">}</span><span class="p" data-group-id="9275652888-7">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4523082084-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4523082084-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4523082084-3">#</span><span class="nc" data-group-id="4523082084-3">Nx.Tensor</span><span class="p" data-group-id="4523082084-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4523082084-4">[</span><span class="mi">8</span><span class="p" data-group-id="4523082084-4">]</span><span class="w">
+      </span><span class="p" data-group-id="4523082084-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="4523082084-5">]</span><span class="w">
+    </span><span class="p" data-group-id="4523082084-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4523082084-6">#</span><span class="nc" data-group-id="4523082084-6">Nx.Tensor</span><span class="p" data-group-id="4523082084-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4523082084-7">[</span><span class="mi">4</span><span class="p" data-group-id="4523082084-7">]</span><span class="p" data-group-id="4523082084-8">[</span><span class="mi">8</span><span class="p" data-group-id="4523082084-8">]</span><span class="w">
+      </span><span class="p" data-group-id="4523082084-9">[</span><span class="w">
+        </span><span class="p" data-group-id="4523082084-10">[</span><span class="o">-</span><span class="mf">0.13241732120513916</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6946331858634949</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6328000426292419</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.684409499168396</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39569517970085144</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10005003213882446</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2501150965690613</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14561182260513306</span><span class="p" data-group-id="4523082084-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4523082084-11">[</span><span class="o">-</span><span class="mf">0.5495109558105469</span><span class="p">,</span><span class="w"> </span><span class="mf">0.459137499332428</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4059434235095978</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4489462077617645</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6331832408905029</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05011630058288574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.35836488008499146</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2661571800708771</span><span class="p" data-group-id="4523082084-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4523082084-12">[</span><span class="mf">0.29260867834091187</span><span class="p">,</span><span class="w"> </span><span class="mf">0.42186349630355835</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32596689462661743</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12340176105499268</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6767188906669617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2658537030220032</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5745270848274231</span><span class="p">,</span><span class="w"> </span><span class="mf">6.475448608398438e-4</span><span class="p" data-group-id="4523082084-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4523082084-13">[</span><span class="mf">0.16781508922576904</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23747843503952026</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5311254858970642</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22617805004119873</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5153165459632874</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19729173183441162</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5706893801689148</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5531126260757446</span><span class="p" data-group-id="4523082084-13">]</span><span class="w">
+      </span><span class="p" data-group-id="4523082084-9">]</span><span class="w">
+    </span><span class="p" data-group-id="4523082084-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4523082084-2">}</span><span class="w">
+</span><span class="p" data-group-id="4523082084-1">}</span></code></pre><p>The model was built in training mode so the hook will run:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7745421316-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="7745421316-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9371314317-1">#</span><span class="nc" data-group-id="9371314317-1">Nx.Tensor</span><span class="p" data-group-id="9371314317-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="9371314317-2">[</span><span class="mi">2</span><span class="p" data-group-id="9371314317-2">]</span><span class="p" data-group-id="9371314317-3">[</span><span class="mi">8</span><span class="p" data-group-id="9371314317-3">]</span><span class="w">
+  </span><span class="p" data-group-id="9371314317-4">[</span><span class="w">
+    </span><span class="p" data-group-id="9371314317-5">[</span><span class="mf">0.539151668548584</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0152997970581055</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.347386121749878</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.017215579748153687</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.8256950974464417</span><span class="p">,</span><span class="w"> </span><span class="mf">1.173698902130127</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9213788509368896</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.9241999387741089</span><span class="p" data-group-id="9371314317-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="9371314317-6">[</span><span class="o">-</span><span class="mf">0.3468663692474365</span><span class="p">,</span><span class="w"> </span><span class="mf">9.267749786376953</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">6.322994232177734</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.139533042907715</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.295599460601807</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8265457153320312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">1.3390271663665771</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">4.616241931915283</span><span class="p" data-group-id="9371314317-6">]</span><span class="w">
+  </span><span class="p" data-group-id="9371314317-4">]</span><span class="w">
+</span><span class="p" data-group-id="9371314317-1">&gt;</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2156261556-1">%{</span><span class="w">
+  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2156261556-2">#</span><span class="nc" data-group-id="2156261556-2">Nx.Tensor</span><span class="p" data-group-id="2156261556-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="2156261556-3">[</span><span class="mi">2</span><span class="p" data-group-id="2156261556-3">]</span><span class="p" data-group-id="2156261556-4">[</span><span class="mi">8</span><span class="p" data-group-id="2156261556-4">]</span><span class="w">
+    </span><span class="p" data-group-id="2156261556-5">[</span><span class="w">
+      </span><span class="p" data-group-id="2156261556-6">[</span><span class="mf">0.539151668548584</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0152997970581055</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.173698902130127</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2156261556-6">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="2156261556-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">9.267749786376953</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.8265457153320312</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="2156261556-7">]</span><span class="w">
+    </span><span class="p" data-group-id="2156261556-5">]</span><span class="w">
+  </span><span class="p" data-group-id="2156261556-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2156261556-8">%{</span><span class="p" data-group-id="2156261556-8">}</span><span class="w">
+</span><span class="p" data-group-id="2156261556-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7774333046-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7774333046-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7774333046-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:inference</span><span class="p" data-group-id="7774333046-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7774333046-3">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7774333046-4">%{</span><span class="p" data-group-id="7774333046-4">}</span><span class="p" data-group-id="7774333046-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3594125624-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3594125624-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3594125624-3">#</span><span class="nc" data-group-id="3594125624-3">Nx.Tensor</span><span class="p" data-group-id="3594125624-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3594125624-4">[</span><span class="mi">8</span><span class="p" data-group-id="3594125624-4">]</span><span class="w">
+      </span><span class="p" data-group-id="3594125624-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="3594125624-5">]</span><span class="w">
+    </span><span class="p" data-group-id="3594125624-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3594125624-6">#</span><span class="nc" data-group-id="3594125624-6">Nx.Tensor</span><span class="p" data-group-id="3594125624-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3594125624-7">[</span><span class="mi">4</span><span class="p" data-group-id="3594125624-7">]</span><span class="p" data-group-id="3594125624-8">[</span><span class="mi">8</span><span class="p" data-group-id="3594125624-8">]</span><span class="w">
+      </span><span class="p" data-group-id="3594125624-9">[</span><span class="w">
+        </span><span class="p" data-group-id="3594125624-10">[</span><span class="mf">0.02683490514755249</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28041765093803406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15839070081710815</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16674137115478516</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5444575548171997</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34951671957969666</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08247309923171997</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6700448393821716</span><span class="p" data-group-id="3594125624-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3594125624-11">[</span><span class="mf">0.6001952290534973</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.26907777786254883</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4580194354057312</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.060002803802490234</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5385662317276001</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46773862838745117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25804388523101807</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6824946999549866</span><span class="p" data-group-id="3594125624-11">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3594125624-12">[</span><span class="mf">0.13328874111175537</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.46421635150909424</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5192649960517883</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0429919958114624</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0771912932395935</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.447194904088974</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30910569429397583</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6105270981788635</span><span class="p" data-group-id="3594125624-12">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3594125624-13">[</span><span class="mf">0.5253992676734924</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41786473989486694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6903378367424011</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6038702130317688</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06673228740692139</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4242702126502991</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6737087368965149</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6956207156181335</span><span class="p" data-group-id="3594125624-13">]</span><span class="w">
+      </span><span class="p" data-group-id="3594125624-9">]</span><span class="w">
+    </span><span class="p" data-group-id="3594125624-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3594125624-2">}</span><span class="w">
+</span><span class="p" data-group-id="3594125624-1">}</span></code></pre><p>The model was built in inference mode so the hook will not run:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8551641238-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="p" data-group-id="8551641238-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7401979502-1">#</span><span class="nc" data-group-id="7401979502-1">Nx.Tensor</span><span class="p" data-group-id="7401979502-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="7401979502-2">[</span><span class="mi">2</span><span class="p" data-group-id="7401979502-2">]</span><span class="p" data-group-id="7401979502-3">[</span><span class="mi">8</span><span class="p" data-group-id="7401979502-3">]</span><span class="w">
+  </span><span class="p" data-group-id="7401979502-4">[</span><span class="w">
+    </span><span class="p" data-group-id="7401979502-5">[</span><span class="mf">2.4429705142974854</span><span class="p">,</span><span class="w"> </span><span class="mf">0.056083738803863525</span><span class="p">,</span><span class="w"> </span><span class="mf">1.490502953529358</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6656239032745361</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7401979502-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="7401979502-6">[</span><span class="mf">7.585843086242676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.640434741973877</span><span class="p">,</span><span class="w"> </span><span class="mf">4.336091041564941</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="7401979502-6">]</span><span class="w">
+  </span><span class="p" data-group-id="7401979502-4">]</span><span class="w">
+</span><span class="p" data-group-id="7401979502-1">&gt;</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/multi_input_multi_output_models.html b/multi_input_multi_output_models.html
index d5210b4f..3c6ed487 100644
--- a/multi_input_multi_output_models.html
+++ b/multi_input_multi_output_models.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,63 +136,63 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="9002924238-1">(</span><span class="p" data-group-id="9002924238-2">[</span><span class="w">
-  </span><span class="p" data-group-id="9002924238-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="9002924238-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="9002924238-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="9002924238-4">}</span><span class="w">
-</span><span class="p" data-group-id="9002924238-2">]</span><span class="p" data-group-id="9002924238-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-multi-input-models" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="8212844496-1">(</span><span class="p" data-group-id="8212844496-2">[</span><span class="w">
+  </span><span class="p" data-group-id="8212844496-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="8212844496-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="8212844496-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="8212844496-4">}</span><span class="w">
+</span><span class="p" data-group-id="8212844496-2">]</span><span class="p" data-group-id="8212844496-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-multi-input-models" class="section-heading">
   <a href="#creating-multi-input-models" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Creating multi-input models</span>
 </h2>
-<p>Sometimes your application necessitates the use of multiple inputs. To use multiple inputs in an Axon model, you just need to declare multiple inputs in your graph:</p><pre><code class="makeup elixir" translate="no"><span class="n">input_1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1122792473-1">(</span><span class="s">&quot;input_1&quot;</span><span class="p" data-group-id="1122792473-1">)</span><span class="w">
-</span><span class="n">input_2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1122792473-2">(</span><span class="s">&quot;input_2&quot;</span><span class="p" data-group-id="1122792473-2">)</span><span class="w">
+<p>Sometimes your application necessitates the use of multiple inputs. To use multiple inputs in an Axon model, you just need to declare multiple inputs in your graph:</p><pre><code class="makeup elixir" translate="no"><span class="n">input_1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1576535493-1">(</span><span class="s">&quot;input_1&quot;</span><span class="p" data-group-id="1576535493-1">)</span><span class="w">
+</span><span class="n">input_2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1576535493-2">(</span><span class="s">&quot;input_2&quot;</span><span class="p" data-group-id="1576535493-2">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="1122792473-3">(</span><span class="n">input_1</span><span class="p">,</span><span class="w"> </span><span class="n">input_2</span><span class="p" data-group-id="1122792473-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1126671694-1">#</span><span class="nc" data-group-id="1126671694-1">Axon</span><span class="p" data-group-id="1126671694-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1126671694-2">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="1126671694-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">add</span><span class="p" data-group-id="1576535493-3">(</span><span class="n">input_1</span><span class="p">,</span><span class="w"> </span><span class="n">input_2</span><span class="p" data-group-id="1576535493-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4616209931-1">#</span><span class="nc" data-group-id="4616209931-1">Axon</span><span class="p" data-group-id="4616209931-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4616209931-2">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="4616209931-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;add_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="w">
-</span><span class="p" data-group-id="1126671694-1">&gt;</span></code></pre><p>Notice when you inspect the model, it tells you what your models inputs are up front. You can also get metadata about your model inputs programmatically with <a href="Axon.html#get_inputs/1"><code class="inline">Axon.get_inputs/1</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">get_inputs</span><span class="p" data-group-id="2741599589-1">(</span><span class="n">out</span><span class="p" data-group-id="2741599589-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6257940119-1">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="6257940119-1">}</span></code></pre><p>Each input is uniquely named, so you can pass inputs by-name into inspection and execution functions with a map:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0756332851-1">%{</span><span class="w">
-  </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0756332851-2">(</span><span class="p" data-group-id="0756332851-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0756332851-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0756332851-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="0756332851-4">(</span><span class="p" data-group-id="0756332851-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0756332851-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0756332851-4">)</span><span class="w">
-</span><span class="p" data-group-id="0756332851-1">}</span><span class="w">
+</span><span class="p" data-group-id="4616209931-1">&gt;</span></code></pre><p>Notice when you inspect the model, it tells you what your models inputs are up front. You can also get metadata about your model inputs programmatically with <a href="Axon.html#get_inputs/1"><code class="inline">Axon.get_inputs/1</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">get_inputs</span><span class="p" data-group-id="0578244127-1">(</span><span class="n">out</span><span class="p" data-group-id="0578244127-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6632207230-1">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="6632207230-1">}</span></code></pre><p>Each input is uniquely named, so you can pass inputs by-name into inspection and execution functions with a map:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="3805126616-1">%{</span><span class="w">
+  </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3805126616-2">(</span><span class="p" data-group-id="3805126616-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3805126616-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3805126616-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3805126616-4">(</span><span class="p" data-group-id="3805126616-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3805126616-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3805126616-4">)</span><span class="w">
+</span><span class="p" data-group-id="3805126616-1">}</span><span class="w">
 
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="0756332851-6">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="0756332851-6">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="3805126616-6">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="3805126616-6">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;input_1 (:input) {2, 8}&quot;/];
 4[/&quot;input_2 (:input) {2, 8}&quot;/];
 5[&quot;container_0 (:container) {{2, 8}, {2, 8}}&quot;];
 6[&quot;add_0 (:add) {2, 8}&quot;];
 5 --&gt; 6;
 4 --&gt; 5;
-3 --&gt; 5;</code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="8685559390-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="8685559390-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="8685559390-2">(</span><span class="n">out</span><span class="p" data-group-id="8685559390-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="8685559390-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8685559390-4">%{</span><span class="p" data-group-id="8685559390-4">}</span><span class="p" data-group-id="8685559390-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3864984206-1">%{</span><span class="p" data-group-id="3864984206-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="4720446471-1">%{</span><span class="w">
-  </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4720446471-2">(</span><span class="p" data-group-id="4720446471-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4720446471-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4720446471-2">)</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4720446471-4">(</span><span class="p" data-group-id="4720446471-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4720446471-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4720446471-4">)</span><span class="w">
-</span><span class="p" data-group-id="4720446471-1">}</span><span class="w">
-
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4720446471-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="4720446471-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9402319354-1">#</span><span class="nc" data-group-id="9402319354-1">Nx.Tensor</span><span class="p" data-group-id="9402319354-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="9402319354-2">[</span><span class="mi">2</span><span class="p" data-group-id="9402319354-2">]</span><span class="p" data-group-id="9402319354-3">[</span><span class="mi">8</span><span class="p" data-group-id="9402319354-3">]</span><span class="w">
-  </span><span class="p" data-group-id="9402319354-4">[</span><span class="w">
-    </span><span class="p" data-group-id="9402319354-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.0</span><span class="p">,</span><span class="w"> </span><span class="mf">14.0</span><span class="p" data-group-id="9402319354-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="9402319354-6">[</span><span class="mf">16.0</span><span class="p">,</span><span class="w"> </span><span class="mf">18.0</span><span class="p">,</span><span class="w"> </span><span class="mf">20.0</span><span class="p">,</span><span class="w"> </span><span class="mf">22.0</span><span class="p">,</span><span class="w"> </span><span class="mf">24.0</span><span class="p">,</span><span class="w"> </span><span class="mf">26.0</span><span class="p">,</span><span class="w"> </span><span class="mf">28.0</span><span class="p">,</span><span class="w"> </span><span class="mf">30.0</span><span class="p" data-group-id="9402319354-6">]</span><span class="w">
-  </span><span class="p" data-group-id="9402319354-4">]</span><span class="w">
-</span><span class="p" data-group-id="9402319354-1">&gt;</span></code></pre><p>If you forget a required input, Axon will raise:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="8118886546-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8118886546-2">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="8118886546-3">(</span><span class="p" data-group-id="8118886546-4">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="8118886546-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="8118886546-3">)</span><span class="p" data-group-id="8118886546-2">}</span><span class="p" data-group-id="8118886546-1">)</span></code></pre><h2 id="creating-multi-output-models" class="section-heading">
+3 --&gt; 5;</code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7824410336-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7824410336-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7824410336-2">(</span><span class="n">out</span><span class="p" data-group-id="7824410336-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7824410336-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7824410336-4">%{</span><span class="p" data-group-id="7824410336-4">}</span><span class="p" data-group-id="7824410336-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5371945508-1">%{</span><span class="p" data-group-id="5371945508-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6237376119-1">%{</span><span class="w">
+  </span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6237376119-2">(</span><span class="p" data-group-id="6237376119-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6237376119-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6237376119-2">)</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;input_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6237376119-4">(</span><span class="p" data-group-id="6237376119-5">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6237376119-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6237376119-4">)</span><span class="w">
+</span><span class="p" data-group-id="6237376119-1">}</span><span class="w">
+
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6237376119-6">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="6237376119-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6718260548-1">#</span><span class="nc" data-group-id="6718260548-1">Nx.Tensor</span><span class="p" data-group-id="6718260548-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="6718260548-2">[</span><span class="mi">2</span><span class="p" data-group-id="6718260548-2">]</span><span class="p" data-group-id="6718260548-3">[</span><span class="mi">8</span><span class="p" data-group-id="6718260548-3">]</span><span class="w">
+  </span><span class="p" data-group-id="6718260548-4">[</span><span class="w">
+    </span><span class="p" data-group-id="6718260548-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.0</span><span class="p">,</span><span class="w"> </span><span class="mf">10.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.0</span><span class="p">,</span><span class="w"> </span><span class="mf">14.0</span><span class="p" data-group-id="6718260548-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="6718260548-6">[</span><span class="mf">16.0</span><span class="p">,</span><span class="w"> </span><span class="mf">18.0</span><span class="p">,</span><span class="w"> </span><span class="mf">20.0</span><span class="p">,</span><span class="w"> </span><span class="mf">22.0</span><span class="p">,</span><span class="w"> </span><span class="mf">24.0</span><span class="p">,</span><span class="w"> </span><span class="mf">26.0</span><span class="p">,</span><span class="w"> </span><span class="mf">28.0</span><span class="p">,</span><span class="w"> </span><span class="mf">30.0</span><span class="p" data-group-id="6718260548-6">]</span><span class="w">
+  </span><span class="p" data-group-id="6718260548-4">]</span><span class="w">
+</span><span class="p" data-group-id="6718260548-1">&gt;</span></code></pre><p>If you forget a required input, Axon will raise:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7508296706-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7508296706-2">%{</span><span class="s">&quot;input_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7508296706-3">(</span><span class="p" data-group-id="7508296706-4">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7508296706-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7508296706-3">)</span><span class="p" data-group-id="7508296706-2">}</span><span class="p" data-group-id="7508296706-1">)</span></code></pre><h2 id="creating-multi-output-models" class="section-heading">
   <a href="#creating-multi-output-models" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Creating multi-output models</span>
 </h2>
-<p>Depending on your application, you might also want your model to have multiple outputs. You can achieve this by using <a href="Axon.html#container/2"><code class="inline">Axon.container/2</code></a> to wrap multiple nodes into any supported Nx container:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6453643946-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6453643946-1">)</span><span class="w">
+<p>Depending on your application, you might also want your model to have multiple outputs. You can achieve this by using <a href="Axon.html#container/2"><code class="inline">Axon.container/2</code></a> to wrap multiple nodes into any supported Nx container:</p><pre><code class="makeup elixir" translate="no"><span class="n">inp</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0944383033-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0944383033-1">)</span><span class="w">
 
-</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">inp</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6453643946-2">(</span><span class="mi">32</span><span class="p" data-group-id="6453643946-2">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6453643946-3">(</span><span class="p" data-group-id="6453643946-3">)</span><span class="w">
-</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">inp</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6453643946-4">(</span><span class="mi">64</span><span class="p" data-group-id="6453643946-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6453643946-5">(</span><span class="p" data-group-id="6453643946-5">)</span><span class="w">
+</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">inp</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0944383033-2">(</span><span class="mi">32</span><span class="p" data-group-id="0944383033-2">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0944383033-3">(</span><span class="p" data-group-id="0944383033-3">)</span><span class="w">
+</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">inp</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0944383033-4">(</span><span class="mi">64</span><span class="p" data-group-id="0944383033-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0944383033-5">(</span><span class="p" data-group-id="0944383033-5">)</span><span class="w">
 
-</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="6453643946-6">(</span><span class="p" data-group-id="6453643946-7">{</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="6453643946-7">}</span><span class="p" data-group-id="6453643946-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9807432676-1">#</span><span class="nc" data-group-id="9807432676-1">Axon</span><span class="p" data-group-id="9807432676-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9807432676-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="9807432676-2">}</span><span class="w">
+</span><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0944383033-6">(</span><span class="p" data-group-id="0944383033-7">{</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="0944383033-7">}</span><span class="p" data-group-id="0944383033-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4626603732-1">#</span><span class="nc" data-group-id="4626603732-1">Axon</span><span class="p" data-group-id="4626603732-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4626603732-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="4626603732-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;container_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="9807432676-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="1779401698-1">(</span><span class="p" data-group-id="1779401698-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="1779401698-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="1779401698-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="1779401698-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="1779401698-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="4626603732-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="3161600930-1">(</span><span class="p" data-group-id="3161600930-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="3161600930-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="3161600930-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="3161600930-3">(</span><span class="n">out</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="3161600930-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 7[/&quot;data (:input) {2, 8}&quot;/];
 8[&quot;dense_0 (:dense) {2, 32}&quot;];
 9[&quot;relu_0 (:relu) {2, 32}&quot;];
@@ -204,80 +204,80 @@ <h1>
 10 --&gt; 11;
 7 --&gt; 10;
 8 --&gt; 9;
-7 --&gt; 8;</code></pre><p>When executed, containers will return a data structure which matches their input structure:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5065861212-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5065861212-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5065861212-2">(</span><span class="n">out</span><span class="p" data-group-id="5065861212-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5065861212-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5065861212-4">%{</span><span class="p" data-group-id="5065861212-4">}</span><span class="p" data-group-id="5065861212-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5065861212-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5065861212-6">(</span><span class="p" data-group-id="5065861212-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5065861212-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5065861212-6">)</span><span class="p" data-group-id="5065861212-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5589825132-1">{</span><span class="p" data-group-id="5589825132-2">#</span><span class="nc" data-group-id="5589825132-2">Nx.Tensor</span><span class="p" data-group-id="5589825132-2">&lt;</span><span class="w">
-   </span><span class="n">f32</span><span class="p" data-group-id="5589825132-3">[</span><span class="mi">2</span><span class="p" data-group-id="5589825132-3">]</span><span class="p" data-group-id="5589825132-4">[</span><span class="mi">32</span><span class="p" data-group-id="5589825132-4">]</span><span class="w">
-   </span><span class="p" data-group-id="5589825132-5">[</span><span class="w">
-     </span><span class="p" data-group-id="5589825132-6">[</span><span class="mf">0.4453479051589966</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7394963502883911</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8509911298751831</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35142624378204346</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.942654609680176</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6140655279159546</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.719906330108643</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1410939693450928</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6871578693389893</span><span class="p">,</span><span class="w"> </span><span class="mf">3.373258352279663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3058185875415802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3737146854400635</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2648088932037354</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3570061922073364</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05746358633041382</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.046199321746826</span><span class="p">,</span><span class="w"> </span><span class="mf">4.884631156921387</span><span class="p" data-group-id="5589825132-6">]</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="5589825132-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0598671436309814</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4343056678771973</span><span class="p">,</span><span class="w"> </span><span class="mf">3.2341041564941406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.905256748199463</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.712749481201172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.559232711791992</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.027459144592285</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8423471450805664</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.888325691223145</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5589825132-7">]</span><span class="w">
-   </span><span class="p" data-group-id="5589825132-5">]</span><span class="w">
- </span><span class="p" data-group-id="5589825132-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="5589825132-8">#</span><span class="nc" data-group-id="5589825132-8">Nx.Tensor</span><span class="p" data-group-id="5589825132-8">&lt;</span><span class="w">
-   </span><span class="n">f32</span><span class="p" data-group-id="5589825132-9">[</span><span class="mi">2</span><span class="p" data-group-id="5589825132-9">]</span><span class="p" data-group-id="5589825132-10">[</span><span class="mi">64</span><span class="p" data-group-id="5589825132-10">]</span><span class="w">
-   </span><span class="p" data-group-id="5589825132-11">[</span><span class="w">
-     </span><span class="p" data-group-id="5589825132-12">[</span><span class="mf">2.211906909942627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.937014639377594</span><span class="p">,</span><span class="w"> </span><span class="mf">0.017132893204689026</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.617021083831787</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3125507831573486</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1870051622390747</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.245000958442688</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5268664360046387</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.16796612739563</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8091188669204712</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45314761996269226</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05176612734794617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.982738018035889</span><span class="p">,</span><span class="w"> </span><span class="mf">1.58057701587677</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2986125946044922</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8577098250389099</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1064631938934326</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1242716312408447</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8777625560760498</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4422712326049805</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13321448862552643</span><span class="p">,</span><span class="w"> </span><span class="mf">2.753225088119507</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45021766424179077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5664225816726685</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5448659658432007</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7237715721130371</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1693495213985443</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.719341516494751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.644839763641357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.597681760787964</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5589825132-12">]</span><span class="p">,</span><span class="w">
+7 --&gt; 8;</code></pre><p>When executed, containers will return a data structure which matches their input structure:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5766006036-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5766006036-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5766006036-2">(</span><span class="n">out</span><span class="p" data-group-id="5766006036-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5766006036-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5766006036-4">%{</span><span class="p" data-group-id="5766006036-4">}</span><span class="p" data-group-id="5766006036-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="5766006036-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="5766006036-6">(</span><span class="p" data-group-id="5766006036-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="5766006036-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="5766006036-6">)</span><span class="p" data-group-id="5766006036-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5183533466-1">{</span><span class="p" data-group-id="5183533466-2">#</span><span class="nc" data-group-id="5183533466-2">Nx.Tensor</span><span class="p" data-group-id="5183533466-2">&lt;</span><span class="w">
+   </span><span class="n">f32</span><span class="p" data-group-id="5183533466-3">[</span><span class="mi">2</span><span class="p" data-group-id="5183533466-3">]</span><span class="p" data-group-id="5183533466-4">[</span><span class="mi">32</span><span class="p" data-group-id="5183533466-4">]</span><span class="w">
+   </span><span class="p" data-group-id="5183533466-5">[</span><span class="w">
+     </span><span class="p" data-group-id="5183533466-6">[</span><span class="mf">0.4453479051589966</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7394963502883911</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8509911298751831</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35142624378204346</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.942654609680176</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6140655279159546</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.719906330108643</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1410939693450928</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.6871578693389893</span><span class="p">,</span><span class="w"> </span><span class="mf">3.373258352279663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3058185875415802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3737146854400635</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2648088932037354</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3570061922073364</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05746358633041382</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.046199321746826</span><span class="p">,</span><span class="w"> </span><span class="mf">4.884631156921387</span><span class="p" data-group-id="5183533466-6">]</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="5183533466-7">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0598671436309814</span><span class="p">,</span><span class="w"> </span><span class="mf">2.4343056678771973</span><span class="p">,</span><span class="w"> </span><span class="mf">3.2341041564941406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.905256748199463</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.712749481201172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.559232711791992</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">12.027459144592285</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8423471450805664</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">8.888325691223145</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5183533466-7">]</span><span class="w">
+   </span><span class="p" data-group-id="5183533466-5">]</span><span class="w">
+ </span><span class="p" data-group-id="5183533466-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="5183533466-8">#</span><span class="nc" data-group-id="5183533466-8">Nx.Tensor</span><span class="p" data-group-id="5183533466-8">&lt;</span><span class="w">
+   </span><span class="n">f32</span><span class="p" data-group-id="5183533466-9">[</span><span class="mi">2</span><span class="p" data-group-id="5183533466-9">]</span><span class="p" data-group-id="5183533466-10">[</span><span class="mi">64</span><span class="p" data-group-id="5183533466-10">]</span><span class="w">
+   </span><span class="p" data-group-id="5183533466-11">[</span><span class="w">
+     </span><span class="p" data-group-id="5183533466-12">[</span><span class="mf">2.211906909942627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.937014639377594</span><span class="p">,</span><span class="w"> </span><span class="mf">0.017132893204689026</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.617021083831787</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3125507831573486</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1870051622390747</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.245000958442688</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5268664360046387</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.16796612739563</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8091188669204712</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45314761996269226</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05176612734794617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.982738018035889</span><span class="p">,</span><span class="w"> </span><span class="mf">1.58057701587677</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2986125946044922</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8577098250389099</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1064631938934326</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1242716312408447</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8777625560760498</span><span class="p">,</span><span class="w"> </span><span class="mf">3.4422712326049805</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13321448862552643</span><span class="p">,</span><span class="w"> </span><span class="mf">2.753225088119507</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45021766424179077</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5664225816726685</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5448659658432007</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7237715721130371</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1693495213985443</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.719341516494751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.644839763641357</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.597681760787964</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5183533466-12">]</span><span class="p">,</span><span class="w">
      </span><span class="n">...</span><span class="w">
-   </span><span class="p" data-group-id="5589825132-11">]</span><span class="w">
- </span><span class="p" data-group-id="5589825132-8">&gt;</span><span class="p" data-group-id="5589825132-1">}</span></code></pre><p>You can output maps as well:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="0524909985-1">(</span><span class="p" data-group-id="0524909985-2">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="0524909985-2">}</span><span class="p" data-group-id="0524909985-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8204561218-1">#</span><span class="nc" data-group-id="8204561218-1">Axon</span><span class="p" data-group-id="8204561218-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8204561218-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="8204561218-2">}</span><span class="w">
+   </span><span class="p" data-group-id="5183533466-11">]</span><span class="w">
+ </span><span class="p" data-group-id="5183533466-8">&gt;</span><span class="p" data-group-id="5183533466-1">}</span></code></pre><p>You can output maps as well:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="9651157519-1">(</span><span class="p" data-group-id="9651157519-2">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="9651157519-2">}</span><span class="p" data-group-id="9651157519-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7423364545-1">#</span><span class="nc" data-group-id="7423364545-1">Axon</span><span class="p" data-group-id="7423364545-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7423364545-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="7423364545-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;container_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="8204561218-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6114834855-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6114834855-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6114834855-2">(</span><span class="n">out</span><span class="p" data-group-id="6114834855-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6114834855-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6114834855-4">%{</span><span class="p" data-group-id="6114834855-4">}</span><span class="p" data-group-id="6114834855-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6114834855-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6114834855-6">(</span><span class="p" data-group-id="6114834855-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="6114834855-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6114834855-6">)</span><span class="p" data-group-id="6114834855-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4842794269-1">%{</span><span class="w">
-  </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4842794269-2">#</span><span class="nc" data-group-id="4842794269-2">Nx.Tensor</span><span class="p" data-group-id="4842794269-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="4842794269-3">[</span><span class="mi">2</span><span class="p" data-group-id="4842794269-3">]</span><span class="p" data-group-id="4842794269-4">[</span><span class="mi">32</span><span class="p" data-group-id="4842794269-4">]</span><span class="w">
-    </span><span class="p" data-group-id="4842794269-5">[</span><span class="w">
-      </span><span class="p" data-group-id="4842794269-6">[</span><span class="mf">1.4180752038955688</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8710994720458984</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1198676824569702</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1357430219650269</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.907017469406128</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3814663589000702</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6225995421409607</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1952786445617676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.6701409816741943</span><span class="p">,</span><span class="w"> </span><span class="mf">3.581918716430664</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4750021696090698</span><span class="p">,</span><span class="w"> </span><span class="mf">0.910987377166748</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.317782402038574</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8362345695495605</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9256348609924316</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8028252124786377</span><span class="p">,</span><span class="w"> </span><span class="mf">1.448373556137085</span><span class="p">,</span><span class="w"> </span><span class="mf">1.743951678276062</span><span class="p" data-group-id="4842794269-6">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4842794269-7">[</span><span class="mf">3.7401936054229736</span><span class="p">,</span><span class="w"> </span><span class="mf">2.494429349899292</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9745509624481201</span><span class="p">,</span><span class="w"> </span><span class="mf">8.416919708251953</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6044515371322632</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5829238891601562</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.592892646789551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.004939079284668</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">9.755555152893066</span><span class="p">,</span><span class="w"> </span><span class="mf">5.3506879806518555</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="4842794269-7">]</span><span class="w">
-    </span><span class="p" data-group-id="4842794269-5">]</span><span class="w">
-  </span><span class="p" data-group-id="4842794269-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4842794269-8">#</span><span class="nc" data-group-id="4842794269-8">Nx.Tensor</span><span class="p" data-group-id="4842794269-8">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="4842794269-9">[</span><span class="mi">2</span><span class="p" data-group-id="4842794269-9">]</span><span class="p" data-group-id="4842794269-10">[</span><span class="mi">64</span><span class="p" data-group-id="4842794269-10">]</span><span class="w">
-    </span><span class="p" data-group-id="4842794269-11">[</span><span class="w">
-      </span><span class="p" data-group-id="4842794269-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5240116119384766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6478428840637207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1685361862182617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5010783672332764</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36673399806022644</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5610344409942627</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9324723482131958</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39768826961517334</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.054594263434410095</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6123883128166199</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15942004323005676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7058550715446472</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.860019326210022</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2499483972787857</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03381317853927612</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="4842794269-12">]</span><span class="p">,</span><span class="w">
+</span><span class="p" data-group-id="7423364545-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7481371131-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7481371131-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7481371131-2">(</span><span class="n">out</span><span class="p" data-group-id="7481371131-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7481371131-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7481371131-4">%{</span><span class="p" data-group-id="7481371131-4">}</span><span class="p" data-group-id="7481371131-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7481371131-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7481371131-6">(</span><span class="p" data-group-id="7481371131-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7481371131-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7481371131-6">)</span><span class="p" data-group-id="7481371131-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0597240232-1">%{</span><span class="w">
+  </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0597240232-2">#</span><span class="nc" data-group-id="0597240232-2">Nx.Tensor</span><span class="p" data-group-id="0597240232-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="0597240232-3">[</span><span class="mi">2</span><span class="p" data-group-id="0597240232-3">]</span><span class="p" data-group-id="0597240232-4">[</span><span class="mi">32</span><span class="p" data-group-id="0597240232-4">]</span><span class="w">
+    </span><span class="p" data-group-id="0597240232-5">[</span><span class="w">
+      </span><span class="p" data-group-id="0597240232-6">[</span><span class="mf">1.4180752038955688</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8710994720458984</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1198676824569702</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1357430219650269</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.907017469406128</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3814663589000702</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6225995421409607</span><span class="p">,</span><span class="w"> </span><span class="mf">1.1952786445617676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.6701409816741943</span><span class="p">,</span><span class="w"> </span><span class="mf">3.581918716430664</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4750021696090698</span><span class="p">,</span><span class="w"> </span><span class="mf">0.910987377166748</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.317782402038574</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8362345695495605</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9256348609924316</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.8028252124786377</span><span class="p">,</span><span class="w"> </span><span class="mf">1.448373556137085</span><span class="p">,</span><span class="w"> </span><span class="mf">1.743951678276062</span><span class="p" data-group-id="0597240232-6">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="0597240232-7">[</span><span class="mf">3.7401936054229736</span><span class="p">,</span><span class="w"> </span><span class="mf">2.494429349899292</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9745509624481201</span><span class="p">,</span><span class="w"> </span><span class="mf">8.416919708251953</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6044515371322632</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5829238891601562</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.592892646789551</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.004939079284668</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">9.755555152893066</span><span class="p">,</span><span class="w"> </span><span class="mf">5.3506879806518555</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0597240232-7">]</span><span class="w">
+    </span><span class="p" data-group-id="0597240232-5">]</span><span class="w">
+  </span><span class="p" data-group-id="0597240232-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0597240232-8">#</span><span class="nc" data-group-id="0597240232-8">Nx.Tensor</span><span class="p" data-group-id="0597240232-8">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="0597240232-9">[</span><span class="mi">2</span><span class="p" data-group-id="0597240232-9">]</span><span class="p" data-group-id="0597240232-10">[</span><span class="mi">64</span><span class="p" data-group-id="0597240232-10">]</span><span class="w">
+    </span><span class="p" data-group-id="0597240232-11">[</span><span class="w">
+      </span><span class="p" data-group-id="0597240232-12">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.5240116119384766</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6478428840637207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.1685361862182617</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.5010783672332764</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36673399806022644</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5610344409942627</span><span class="p">,</span><span class="w"> </span><span class="mf">1.9324723482131958</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39768826961517334</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.054594263434410095</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6123883128166199</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15942004323005676</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7058550715446472</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.860019326210022</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2499483972787857</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03381317853927612</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0597240232-12">]</span><span class="p">,</span><span class="w">
       </span><span class="n">...</span><span class="w">
-    </span><span class="p" data-group-id="4842794269-11">]</span><span class="w">
-  </span><span class="p" data-group-id="4842794269-8">&gt;</span><span class="w">
-</span><span class="p" data-group-id="4842794269-1">}</span></code></pre><p>Containers even support arbitrary nesting:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="4466477819-1">(</span><span class="p" data-group-id="4466477819-2">{</span><span class="p" data-group-id="4466477819-3">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466477819-4">{</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="4466477819-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466477819-5">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4466477819-6">{</span><span class="n">x2</span><span class="p" data-group-id="4466477819-6">}</span><span class="p" data-group-id="4466477819-5">}</span><span class="p" data-group-id="4466477819-3">}</span><span class="p" data-group-id="4466477819-2">}</span><span class="p" data-group-id="4466477819-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0300304048-1">#</span><span class="nc" data-group-id="0300304048-1">Axon</span><span class="p" data-group-id="0300304048-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0300304048-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="0300304048-2">}</span><span class="w">
+    </span><span class="p" data-group-id="0597240232-11">]</span><span class="w">
+  </span><span class="p" data-group-id="0597240232-8">&gt;</span><span class="w">
+</span><span class="p" data-group-id="0597240232-1">}</span></code></pre><p>Containers even support arbitrary nesting:</p><pre><code class="makeup elixir" translate="no"><span class="n">out</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">container</span><span class="p" data-group-id="7724323125-1">(</span><span class="p" data-group-id="7724323125-2">{</span><span class="p" data-group-id="7724323125-3">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7724323125-4">{</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="7724323125-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7724323125-5">%{</span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7724323125-6">{</span><span class="n">x2</span><span class="p" data-group-id="7724323125-6">}</span><span class="p" data-group-id="7724323125-5">}</span><span class="p" data-group-id="7724323125-3">}</span><span class="p" data-group-id="7724323125-2">}</span><span class="p" data-group-id="7724323125-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3912300877-1">#</span><span class="nc" data-group-id="3912300877-1">Axon</span><span class="p" data-group-id="3912300877-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3912300877-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="3912300877-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;container_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="0300304048-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="7956340047-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7956340047-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7956340047-2">(</span><span class="n">out</span><span class="p" data-group-id="7956340047-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7956340047-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7956340047-4">%{</span><span class="p" data-group-id="7956340047-4">}</span><span class="p" data-group-id="7956340047-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7956340047-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7956340047-6">(</span><span class="p" data-group-id="7956340047-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7956340047-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7956340047-6">)</span><span class="p" data-group-id="7956340047-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0712712460-1">{</span><span class="p" data-group-id="0712712460-2">%{</span><span class="w">
-   </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0712712460-3">{</span><span class="p" data-group-id="0712712460-4">#</span><span class="nc" data-group-id="0712712460-4">Nx.Tensor</span><span class="p" data-group-id="0712712460-4">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0712712460-5">[</span><span class="mi">2</span><span class="p" data-group-id="0712712460-5">]</span><span class="p" data-group-id="0712712460-6">[</span><span class="mi">32</span><span class="p" data-group-id="0712712460-6">]</span><span class="w">
-      </span><span class="p" data-group-id="0712712460-7">[</span><span class="w">
-        </span><span class="p" data-group-id="0712712460-8">[</span><span class="mf">1.7373675107955933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.150482177734375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.544252336025238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.275376558303833</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7849855422973633</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7857151031494141</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2273893654346466</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2701767086982727</span><span class="p">,</span><span class="w"> </span><span class="mf">2.321484327316284</span><span class="p">,</span><span class="w"> </span><span class="mf">2.685051441192627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.547382116317749</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.722919225692749</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3600289821624756</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4695687294006348</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0015852451324463</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2762010097503662</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07927703857421875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6216219663619995</span><span class="p" data-group-id="0712712460-8">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0712712460-9">[</span><span class="mf">4.996878623962402</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">14.212154388427734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.517582356929779</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.036062479019165</span><span class="p">,</span><span class="w"> </span><span class="mf">2.907236337661743</span><span class="p">,</span><span class="w"> </span><span class="mf">8.515787124633789</span><span class="p">,</span><span class="w"> </span><span class="mf">7.998186111450195</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0712712460-9">]</span><span class="w">
-      </span><span class="p" data-group-id="0712712460-7">]</span><span class="w">
-    </span><span class="p" data-group-id="0712712460-4">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="0712712460-10">#</span><span class="nc" data-group-id="0712712460-10">Nx.Tensor</span><span class="p" data-group-id="0712712460-10">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0712712460-11">[</span><span class="mi">2</span><span class="p" data-group-id="0712712460-11">]</span><span class="p" data-group-id="0712712460-12">[</span><span class="mi">64</span><span class="p" data-group-id="0712712460-12">]</span><span class="w">
-      </span><span class="p" data-group-id="0712712460-13">[</span><span class="w">
-        </span><span class="p" data-group-id="0712712460-14">[</span><span class="mf">1.2057430744171143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8717040419578552</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7653638124465942</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9921279549598694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0860291719436646</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3648557662963867</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0518181324005127</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6323723793029785</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9113610982894897</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6805293560028076</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8101096749305725</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2150073051452637</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2320713996887207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.553570508956909</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28632092475891113</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.020383253693580627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2926883101463318</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3561311960220337</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8884503245353699</span><span class="p">,</span><span class="w"> </span><span class="mf">3.1455295085906982</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.237722635269165</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.149625539779663</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0712712460-14">]</span><span class="p">,</span><span class="w">
+</span><span class="p" data-group-id="3912300877-1">&gt;</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0957173164-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0957173164-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0957173164-2">(</span><span class="n">out</span><span class="p" data-group-id="0957173164-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0957173164-3">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0957173164-4">%{</span><span class="p" data-group-id="0957173164-4">}</span><span class="p" data-group-id="0957173164-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0957173164-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="0957173164-6">(</span><span class="p" data-group-id="0957173164-7">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="0957173164-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="0957173164-6">)</span><span class="p" data-group-id="0957173164-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1843380783-1">{</span><span class="p" data-group-id="1843380783-2">%{</span><span class="w">
+   </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1843380783-3">{</span><span class="p" data-group-id="1843380783-4">#</span><span class="nc" data-group-id="1843380783-4">Nx.Tensor</span><span class="p" data-group-id="1843380783-4">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1843380783-5">[</span><span class="mi">2</span><span class="p" data-group-id="1843380783-5">]</span><span class="p" data-group-id="1843380783-6">[</span><span class="mi">32</span><span class="p" data-group-id="1843380783-6">]</span><span class="w">
+      </span><span class="p" data-group-id="1843380783-7">[</span><span class="w">
+        </span><span class="p" data-group-id="1843380783-8">[</span><span class="mf">1.7373675107955933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.150482177734375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.544252336025238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.275376558303833</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7849855422973633</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7857151031494141</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2273893654346466</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2701767086982727</span><span class="p">,</span><span class="w"> </span><span class="mf">2.321484327316284</span><span class="p">,</span><span class="w"> </span><span class="mf">2.685051441192627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.547382116317749</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.722919225692749</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3600289821624756</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4695687294006348</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0015852451324463</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2762010097503662</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07927703857421875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6216219663619995</span><span class="p" data-group-id="1843380783-8">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1843380783-9">[</span><span class="mf">4.996878623962402</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">14.212154388427734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.517582356929779</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.036062479019165</span><span class="p">,</span><span class="w"> </span><span class="mf">2.907236337661743</span><span class="p">,</span><span class="w"> </span><span class="mf">8.515787124633789</span><span class="p">,</span><span class="w"> </span><span class="mf">7.998186111450195</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1843380783-9">]</span><span class="w">
+      </span><span class="p" data-group-id="1843380783-7">]</span><span class="w">
+    </span><span class="p" data-group-id="1843380783-4">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="1843380783-10">#</span><span class="nc" data-group-id="1843380783-10">Nx.Tensor</span><span class="p" data-group-id="1843380783-10">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1843380783-11">[</span><span class="mi">2</span><span class="p" data-group-id="1843380783-11">]</span><span class="p" data-group-id="1843380783-12">[</span><span class="mi">64</span><span class="p" data-group-id="1843380783-12">]</span><span class="w">
+      </span><span class="p" data-group-id="1843380783-13">[</span><span class="w">
+        </span><span class="p" data-group-id="1843380783-14">[</span><span class="mf">1.2057430744171143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8717040419578552</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7653638124465942</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9921279549598694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0860291719436646</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3648557662963867</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0518181324005127</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6323723793029785</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9113610982894897</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6805293560028076</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8101096749305725</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2150073051452637</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2320713996887207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.553570508956909</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28632092475891113</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.020383253693580627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2926883101463318</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3561311960220337</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8884503245353699</span><span class="p">,</span><span class="w"> </span><span class="mf">3.1455295085906982</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.237722635269165</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.149625539779663</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1843380783-14">]</span><span class="p">,</span><span class="w">
         </span><span class="n">...</span><span class="w">
-      </span><span class="p" data-group-id="0712712460-13">]</span><span class="w">
-    </span><span class="p" data-group-id="0712712460-10">&gt;</span><span class="p" data-group-id="0712712460-3">}</span><span class="p">,</span><span class="w">
-   </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0712712460-15">%{</span><span class="w">
-     </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0712712460-16">#</span><span class="nc" data-group-id="0712712460-16">Nx.Tensor</span><span class="p" data-group-id="0712712460-16">&lt;</span><span class="w">
-       </span><span class="n">f32</span><span class="p" data-group-id="0712712460-17">[</span><span class="mi">2</span><span class="p" data-group-id="0712712460-17">]</span><span class="p" data-group-id="0712712460-18">[</span><span class="mi">32</span><span class="p" data-group-id="0712712460-18">]</span><span class="w">
-       </span><span class="p" data-group-id="0712712460-19">[</span><span class="w">
-         </span><span class="p" data-group-id="0712712460-20">[</span><span class="mf">1.7373675107955933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.150482177734375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.544252336025238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.275376558303833</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7849855422973633</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7857151031494141</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2273893654346466</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2701767086982727</span><span class="p">,</span><span class="w"> </span><span class="mf">2.321484327316284</span><span class="p">,</span><span class="w"> </span><span class="mf">2.685051441192627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.547382116317749</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.722919225692749</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3600289821624756</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4695687294006348</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0015852451324463</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2762010097503662</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07927703857421875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6216219663619995</span><span class="p" data-group-id="0712712460-20">]</span><span class="p">,</span><span class="w">
-         </span><span class="p" data-group-id="0712712460-21">[</span><span class="mf">4.996878623962402</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">14.212154388427734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.517582356929779</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.036062479019165</span><span class="p">,</span><span class="w"> </span><span class="mf">2.907236337661743</span><span class="p">,</span><span class="w"> </span><span class="mf">8.515787124633789</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0712712460-21">]</span><span class="w">
-       </span><span class="p" data-group-id="0712712460-19">]</span><span class="w">
-     </span><span class="p" data-group-id="0712712460-16">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0712712460-22">{</span><span class="p" data-group-id="0712712460-23">#</span><span class="nc" data-group-id="0712712460-23">Nx.Tensor</span><span class="p" data-group-id="0712712460-23">&lt;</span><span class="w">
-        </span><span class="n">f32</span><span class="p" data-group-id="0712712460-24">[</span><span class="mi">2</span><span class="p" data-group-id="0712712460-24">]</span><span class="p" data-group-id="0712712460-25">[</span><span class="mi">64</span><span class="p" data-group-id="0712712460-25">]</span><span class="w">
-        </span><span class="p" data-group-id="0712712460-26">[</span><span class="w">
-          </span><span class="p" data-group-id="0712712460-27">[</span><span class="mf">1.2057430744171143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8717040419578552</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7653638124465942</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9921279549598694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0860291719436646</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3648557662963867</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0518181324005127</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6323723793029785</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9113610982894897</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6805293560028076</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8101096749305725</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2150073051452637</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2320713996887207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.553570508956909</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28632092475891113</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.020383253693580627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2926883101463318</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3561311960220337</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8884503245353699</span><span class="p">,</span><span class="w"> </span><span class="mf">3.1455295085906982</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.237722635269165</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0712712460-27">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="1843380783-13">]</span><span class="w">
+    </span><span class="p" data-group-id="1843380783-10">&gt;</span><span class="p" data-group-id="1843380783-3">}</span><span class="p">,</span><span class="w">
+   </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1843380783-15">%{</span><span class="w">
+     </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1843380783-16">#</span><span class="nc" data-group-id="1843380783-16">Nx.Tensor</span><span class="p" data-group-id="1843380783-16">&lt;</span><span class="w">
+       </span><span class="n">f32</span><span class="p" data-group-id="1843380783-17">[</span><span class="mi">2</span><span class="p" data-group-id="1843380783-17">]</span><span class="p" data-group-id="1843380783-18">[</span><span class="mi">32</span><span class="p" data-group-id="1843380783-18">]</span><span class="w">
+       </span><span class="p" data-group-id="1843380783-19">[</span><span class="w">
+         </span><span class="p" data-group-id="1843380783-20">[</span><span class="mf">1.7373675107955933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.150482177734375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.544252336025238</span><span class="p">,</span><span class="w"> </span><span class="mf">0.275376558303833</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7849855422973633</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7857151031494141</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2273893654346466</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2701767086982727</span><span class="p">,</span><span class="w"> </span><span class="mf">2.321484327316284</span><span class="p">,</span><span class="w"> </span><span class="mf">2.685051441192627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.547382116317749</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.722919225692749</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3600289821624756</span><span class="p">,</span><span class="w"> </span><span class="mf">1.4695687294006348</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0015852451324463</span><span class="p">,</span><span class="w"> </span><span class="mf">1.2762010097503662</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07927703857421875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6216219663619995</span><span class="p" data-group-id="1843380783-20">]</span><span class="p">,</span><span class="w">
+         </span><span class="p" data-group-id="1843380783-21">[</span><span class="mf">4.996878623962402</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">14.212154388427734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.517582356929779</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.036062479019165</span><span class="p">,</span><span class="w"> </span><span class="mf">2.907236337661743</span><span class="p">,</span><span class="w"> </span><span class="mf">8.515787124633789</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1843380783-21">]</span><span class="w">
+       </span><span class="p" data-group-id="1843380783-19">]</span><span class="w">
+     </span><span class="p" data-group-id="1843380783-16">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1843380783-22">{</span><span class="p" data-group-id="1843380783-23">#</span><span class="nc" data-group-id="1843380783-23">Nx.Tensor</span><span class="p" data-group-id="1843380783-23">&lt;</span><span class="w">
+        </span><span class="n">f32</span><span class="p" data-group-id="1843380783-24">[</span><span class="mi">2</span><span class="p" data-group-id="1843380783-24">]</span><span class="p" data-group-id="1843380783-25">[</span><span class="mi">64</span><span class="p" data-group-id="1843380783-25">]</span><span class="w">
+        </span><span class="p" data-group-id="1843380783-26">[</span><span class="w">
+          </span><span class="p" data-group-id="1843380783-27">[</span><span class="mf">1.2057430744171143</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8717040419578552</span><span class="p">,</span><span class="w"> </span><span class="mf">1.7653638124465942</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9921279549598694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0860291719436646</span><span class="p">,</span><span class="w"> </span><span class="mf">2.3648557662963867</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0518181324005127</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6323723793029785</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9113610982894897</span><span class="p">,</span><span class="w"> </span><span class="mf">1.6805293560028076</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8101096749305725</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2150073051452637</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.2320713996887207</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.553570508956909</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28632092475891113</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.020383253693580627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2926883101463318</span><span class="p">,</span><span class="w"> </span><span class="mf">1.3561311960220337</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8884503245353699</span><span class="p">,</span><span class="w"> </span><span class="mf">3.1455295085906982</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.237722635269165</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1843380783-27">]</span><span class="p">,</span><span class="w">
           </span><span class="n">...</span><span class="w">
-        </span><span class="p" data-group-id="0712712460-26">]</span><span class="w">
-      </span><span class="p" data-group-id="0712712460-23">&gt;</span><span class="p" data-group-id="0712712460-22">}</span><span class="w">
-   </span><span class="p" data-group-id="0712712460-15">}</span><span class="w">
- </span><span class="p" data-group-id="0712712460-2">}</span><span class="p" data-group-id="0712712460-1">}</span></code></pre>
+        </span><span class="p" data-group-id="1843380783-26">]</span><span class="w">
+      </span><span class="p" data-group-id="1843380783-23">&gt;</span><span class="p" data-group-id="1843380783-22">}</span><span class="w">
+   </span><span class="p" data-group-id="1843380783-15">}</span><span class="w">
+ </span><span class="p" data-group-id="1843380783-2">}</span><span class="p" data-group-id="1843380783-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/onnx_to_axon.html b/onnx_to_axon.html
index 37a6b383..84f8c6d4 100644
--- a/onnx_to_axon.html
+++ b/onnx_to_axon.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,21 +136,21 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1634817522-1">(</span><span class="w">
-  </span><span class="p" data-group-id="1634817522-2">[</span><span class="w">
-    </span><span class="p" data-group-id="1634817522-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="1634817522-3">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1634817522-4">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="1634817522-4">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1634817522-5">{</span><span class="ss">:axon_onnx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.4.0&quot;</span><span class="p" data-group-id="1634817522-5">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1634817522-6">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.6.0&quot;</span><span class="p" data-group-id="1634817522-6">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1634817522-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="1634817522-7">}</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1634817522-8">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.3.8&quot;</span><span class="p" data-group-id="1634817522-8">}</span><span class="w">
-  </span><span class="p" data-group-id="1634817522-2">]</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2479072134-1">(</span><span class="w">
+  </span><span class="p" data-group-id="2479072134-2">[</span><span class="w">
+    </span><span class="p" data-group-id="2479072134-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="2479072134-3">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2479072134-4">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="2479072134-4">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2479072134-5">{</span><span class="ss">:axon_onnx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.4.0&quot;</span><span class="p" data-group-id="2479072134-5">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2479072134-6">{</span><span class="ss">:stb_image</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.6.0&quot;</span><span class="p" data-group-id="2479072134-6">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2479072134-7">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="2479072134-7">}</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="2479072134-8">{</span><span class="ss">:req</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.3.8&quot;</span><span class="p" data-group-id="2479072134-8">}</span><span class="w">
+  </span><span class="p" data-group-id="2479072134-2">]</span><span class="w">
   </span><span class="c1"># for Nvidia GPU change to &quot;cuda111&quot; for CUDA 11.1+ or &quot;cuda118&quot; for CUDA 11.8</span><span class="w">
   </span><span class="c1"># CUDA 12.x not supported by XLA</span><span class="w">
   </span><span class="c1"># or you can put this value in ENV variables in Livebook settings</span><span class="w">
   </span><span class="c1"># XLA_TARGET=cuda111</span><span class="w">
   </span><span class="c1"># system_env: %{&quot;XLA_TARGET&quot; =&gt; xla_target}</span><span class="w">
-</span><span class="p" data-group-id="1634817522-1">)</span></code></pre><h2 id="converting-an-onnx-model-into-axon" class="section-heading">
+</span><span class="p" data-group-id="2479072134-1">)</span></code></pre><h2 id="converting-an-onnx-model-into-axon" class="section-heading">
   <a href="#converting-an-onnx-model-into-axon" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -190,7 +190,7 @@ <h1>
 contains the ONNX model file. This notebook assumes the output file location will be
 in models axon. Copy your ONNX model files into the models/onnx folder.</p><p>This opinionated module presents a simple API for loading in an ONNX file and saving
 the converted Axon model in the provided directory. This API will allow us to
-save multiple models pretty quickly.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">OnnxToAxon</span><span class="w"> </span><span class="k" data-group-id="5982710744-1">do</span><span class="w">
+save multiple models pretty quickly.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">OnnxToAxon</span><span class="w"> </span><span class="k" data-group-id="7706315688-1">do</span><span class="w">
   </span><span class="na">@moduledoc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   Helper module from ONNX to Axon.
   &quot;&quot;&quot;</span><span class="w">
@@ -203,40 +203,40 @@ <h1>
       OnnxToAxon.onnx_axon(path_to_onnx_file, path_to_axon_dir)
 
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">onnx_axon</span><span class="p" data-group-id="5982710744-2">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="5982710744-2">)</span><span class="w"> </span><span class="k" data-group-id="5982710744-3">do</span><span class="w">
-    </span><span class="n">axon_name</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">axon_name_from_onnx_path</span><span class="p" data-group-id="5982710744-4">(</span><span class="n">path_to_onnx_file</span><span class="p" data-group-id="5982710744-4">)</span><span class="w">
-    </span><span class="n">path_to_axon</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">join</span><span class="p" data-group-id="5982710744-5">(</span><span class="n">path_to_axon_dir</span><span class="p">,</span><span class="w"> </span><span class="n">axon_name</span><span class="p" data-group-id="5982710744-5">)</span><span class="w">
-
-    </span><span class="p" data-group-id="5982710744-6">{</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">parameters</span><span class="p" data-group-id="5982710744-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">AxonOnnx</span><span class="o">.</span><span class="kn">import</span><span class="p" data-group-id="5982710744-7">(</span><span class="n">path_to_onnx_file</span><span class="p" data-group-id="5982710744-7">)</span><span class="w">
-    </span><span class="n">model_bytes</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="5982710744-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">parameters</span><span class="p" data-group-id="5982710744-8">)</span><span class="w">
-    </span><span class="nc">File</span><span class="o">.</span><span class="n">write!</span><span class="p" data-group-id="5982710744-9">(</span><span class="n">path_to_axon</span><span class="p">,</span><span class="w"> </span><span class="n">model_bytes</span><span class="p" data-group-id="5982710744-9">)</span><span class="w">
-  </span><span class="k" data-group-id="5982710744-3">end</span><span class="w">
-
-  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">axon_name_from_onnx_path</span><span class="p" data-group-id="5982710744-10">(</span><span class="n">onnx_path</span><span class="p" data-group-id="5982710744-10">)</span><span class="w"> </span><span class="k" data-group-id="5982710744-11">do</span><span class="w">
-    </span><span class="n">model_root</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">onnx_path</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">basename</span><span class="p" data-group-id="5982710744-12">(</span><span class="p" data-group-id="5982710744-12">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">rootname</span><span class="p" data-group-id="5982710744-13">(</span><span class="p" data-group-id="5982710744-13">)</span><span class="w">
-    </span><span class="s">&quot;</span><span class="si" data-group-id="5982710744-14">#{</span><span class="n">model_root</span><span class="si" data-group-id="5982710744-14">}</span><span class="s">.axon&quot;</span><span class="w">
-  </span><span class="k" data-group-id="5982710744-11">end</span><span class="w">
-</span><span class="k" data-group-id="5982710744-1">end</span></code></pre><h2 id="onnx-model" class="section-heading">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">onnx_axon</span><span class="p" data-group-id="7706315688-2">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="7706315688-2">)</span><span class="w"> </span><span class="k" data-group-id="7706315688-3">do</span><span class="w">
+    </span><span class="n">axon_name</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">axon_name_from_onnx_path</span><span class="p" data-group-id="7706315688-4">(</span><span class="n">path_to_onnx_file</span><span class="p" data-group-id="7706315688-4">)</span><span class="w">
+    </span><span class="n">path_to_axon</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">join</span><span class="p" data-group-id="7706315688-5">(</span><span class="n">path_to_axon_dir</span><span class="p">,</span><span class="w"> </span><span class="n">axon_name</span><span class="p" data-group-id="7706315688-5">)</span><span class="w">
+
+    </span><span class="p" data-group-id="7706315688-6">{</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">parameters</span><span class="p" data-group-id="7706315688-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">AxonOnnx</span><span class="o">.</span><span class="kn">import</span><span class="p" data-group-id="7706315688-7">(</span><span class="n">path_to_onnx_file</span><span class="p" data-group-id="7706315688-7">)</span><span class="w">
+    </span><span class="n">model_bytes</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">serialize</span><span class="p" data-group-id="7706315688-8">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">parameters</span><span class="p" data-group-id="7706315688-8">)</span><span class="w">
+    </span><span class="nc">File</span><span class="o">.</span><span class="n">write!</span><span class="p" data-group-id="7706315688-9">(</span><span class="n">path_to_axon</span><span class="p">,</span><span class="w"> </span><span class="n">model_bytes</span><span class="p" data-group-id="7706315688-9">)</span><span class="w">
+  </span><span class="k" data-group-id="7706315688-3">end</span><span class="w">
+
+  </span><span class="kd">defp</span><span class="w"> </span><span class="nf">axon_name_from_onnx_path</span><span class="p" data-group-id="7706315688-10">(</span><span class="n">onnx_path</span><span class="p" data-group-id="7706315688-10">)</span><span class="w"> </span><span class="k" data-group-id="7706315688-11">do</span><span class="w">
+    </span><span class="n">model_root</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">onnx_path</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">basename</span><span class="p" data-group-id="7706315688-12">(</span><span class="p" data-group-id="7706315688-12">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Path</span><span class="o">.</span><span class="n">rootname</span><span class="p" data-group-id="7706315688-13">(</span><span class="p" data-group-id="7706315688-13">)</span><span class="w">
+    </span><span class="s">&quot;</span><span class="si" data-group-id="7706315688-14">#{</span><span class="n">model_root</span><span class="si" data-group-id="7706315688-14">}</span><span class="s">.axon&quot;</span><span class="w">
+  </span><span class="k" data-group-id="7706315688-11">end</span><span class="w">
+</span><span class="k" data-group-id="7706315688-1">end</span></code></pre><h2 id="onnx-model" class="section-heading">
   <a href="#onnx-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">ONNX model</span>
 </h2>
-<p>For this example, we'll use a couple ONNX models that have been saved in the Huggingface Hub.</p><!-- livebook:{"break_markdown":true} --><p>The ONNX models were trained in Fast.ai (PyTorch) using the following notebooks:</p><ul><li><a href="https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb">https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb</a></li><li><a href="https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb">https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb</a></li></ul><p>To repeat this notebook, the onnx files for this notebook can be found on huggingface hub. Download the onnx models from:</p><ul><li><a href="https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX">https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX</a></li><li><a href="https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX">https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX</a></li></ul><p>Download the files and place them in a directory of your choice. By default, we will assume you downloaded them to the same directory as the notebook:</p><pre><code class="makeup elixir" translate="no"><span class="nc">File</span><span class="o">.</span><span class="n">cd!</span><span class="p" data-group-id="5556007407-1">(</span><span class="bp">__DIR__</span><span class="p" data-group-id="5556007407-1">)</span></code></pre><p>Now let's convert an ONNX model into Axon</p><pre><code class="makeup elixir" translate="no"><span class="n">path_to_onnx_file</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;cats_v_dogs.onnx&quot;</span><span class="w">
+<p>For this example, we'll use a couple ONNX models that have been saved in the Huggingface Hub.</p><!-- livebook:{"break_markdown":true} --><p>The ONNX models were trained in Fast.ai (PyTorch) using the following notebooks:</p><ul><li><a href="https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb">https://github.com/meanderingstream/fastai_course22/blob/main/saving-a-basic-fastai-model-in-onnx.ipynb</a></li><li><a href="https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb">https://github.com/meanderingstream/fastai_course22/blob/main/saving-cat-dog-breed-fastai-model-in-onnx.ipynb</a></li></ul><p>To repeat this notebook, the onnx files for this notebook can be found on huggingface hub. Download the onnx models from:</p><ul><li><a href="https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX">https://huggingface.co/ScottMueller/Cats_v_Dogs.ONNX</a></li><li><a href="https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX">https://huggingface.co/ScottMueller/Cat_Dog_Breeds.ONNX</a></li></ul><p>Download the files and place them in a directory of your choice. By default, we will assume you downloaded them to the same directory as the notebook:</p><pre><code class="makeup elixir" translate="no"><span class="nc">File</span><span class="o">.</span><span class="n">cd!</span><span class="p" data-group-id="4379015881-1">(</span><span class="bp">__DIR__</span><span class="p" data-group-id="4379015881-1">)</span></code></pre><p>Now let's convert an ONNX model into Axon</p><pre><code class="makeup elixir" translate="no"><span class="n">path_to_onnx_file</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;cats_v_dogs.onnx&quot;</span><span class="w">
 </span><span class="n">path_to_axon_dir</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;.&quot;</span><span class="w">
-</span><span class="nc">OnnxToAxon</span><span class="o">.</span><span class="n">onnx_axon</span><span class="p" data-group-id="4182355222-1">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="4182355222-1">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">path_to_onnx_file</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;cat_dog_breeds.onnx&quot;</span><span class="w">
+</span><span class="nc">OnnxToAxon</span><span class="o">.</span><span class="n">onnx_axon</span><span class="p" data-group-id="3969115109-1">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="3969115109-1">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">path_to_onnx_file</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;cat_dog_breeds.onnx&quot;</span><span class="w">
 </span><span class="n">path_to_axon_dir</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="s">&quot;.&quot;</span><span class="w">
-</span><span class="nc">OnnxToAxon</span><span class="o">.</span><span class="n">onnx_axon</span><span class="p" data-group-id="1183101601-1">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="1183101601-1">)</span></code></pre><h2 id="inference-on-onnx-derived-models" class="section-heading">
+</span><span class="nc">OnnxToAxon</span><span class="o">.</span><span class="n">onnx_axon</span><span class="p" data-group-id="1463857217-1">(</span><span class="n">path_to_onnx_file</span><span class="p">,</span><span class="w"> </span><span class="n">path_to_axon_dir</span><span class="p" data-group-id="1463857217-1">)</span></code></pre><h2 id="inference-on-onnx-derived-models" class="section-heading">
   <a href="#inference-on-onnx-derived-models" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Inference on ONNX derived models</span>
 </h2>
-<p>To run inference on the model, you'll need 10 images focused on cats or dogs. You can download the images used in training the model at:</p><p>&quot;<a href="https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz%22">https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz&quot;</a></p><p>Or you can find or use your own images. In this notebook, we are going to use the local copies of the Oxford Pets dataset that was used in training the model.</p><!-- livebook:{"break_markdown":true} --><p>Let's load the Axon model.</p><pre><code class="makeup elixir" translate="no"><span class="n">cats_v_dogs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="1655575909-1">(</span><span class="s">&quot;cats_v_dogs.axon&quot;</span><span class="p" data-group-id="1655575909-1">)</span><span class="w">
-</span><span class="p" data-group-id="1655575909-2">{</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p" data-group-id="1655575909-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="1655575909-3">(</span><span class="n">cats_v_dogs</span><span class="p" data-group-id="1655575909-3">)</span></code></pre><p>We need a tensor representation of an image. Let's start by looking at samples of
-our data.</p><pre><code class="makeup elixir" translate="no"><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="2086866652-1">(</span><span class="s">&quot;oxford-iiit-pet/images/havanese_71.jpg&quot;</span><span class="p" data-group-id="2086866652-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="2086866652-2">(</span><span class="ss">:jpeg</span><span class="p" data-group-id="2086866652-2">)</span></code></pre><p>To manipulate the images, we will use the <code class="inline">StbImage</code> library:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6792517493-1">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="n">img</span><span class="p" data-group-id="6792517493-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_file</span><span class="p" data-group-id="6792517493-2">(</span><span class="s">&quot;oxford-iiit-pet/images/havanese_71.jpg&quot;</span><span class="p" data-group-id="6792517493-2">)</span><span class="w">
-</span><span class="p" data-group-id="6792517493-3">%</span><span class="nc" data-group-id="6792517493-3">StbImage</span><span class="p" data-group-id="6792517493-3">{</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="n">type</span><span class="p" data-group-id="6792517493-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="6792517493-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="6792517493-4">)</span></code></pre><p>Now let's work on a batch of images and convert them to tensors. Here are the images we will work with:</p><pre><code class="makeup elixir" translate="no"><span class="n">file_names</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="1103422284-1">[</span><span class="w">
+<p>To run inference on the model, you'll need 10 images focused on cats or dogs. You can download the images used in training the model at:</p><p>&quot;<a href="https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz%22">https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz&quot;</a></p><p>Or you can find or use your own images. In this notebook, we are going to use the local copies of the Oxford Pets dataset that was used in training the model.</p><!-- livebook:{"break_markdown":true} --><p>Let's load the Axon model.</p><pre><code class="makeup elixir" translate="no"><span class="n">cats_v_dogs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="1184721945-1">(</span><span class="s">&quot;cats_v_dogs.axon&quot;</span><span class="p" data-group-id="1184721945-1">)</span><span class="w">
+</span><span class="p" data-group-id="1184721945-2">{</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p" data-group-id="1184721945-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="1184721945-3">(</span><span class="n">cats_v_dogs</span><span class="p" data-group-id="1184721945-3">)</span></code></pre><p>We need a tensor representation of an image. Let's start by looking at samples of
+our data.</p><pre><code class="makeup elixir" translate="no"><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="6890895430-1">(</span><span class="s">&quot;oxford-iiit-pet/images/havanese_71.jpg&quot;</span><span class="p" data-group-id="6890895430-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Kino.Image</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6890895430-2">(</span><span class="ss">:jpeg</span><span class="p" data-group-id="6890895430-2">)</span></code></pre><p>To manipulate the images, we will use the <code class="inline">StbImage</code> library:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="1610642549-1">{</span><span class="ss">:ok</span><span class="p">,</span><span class="w"> </span><span class="n">img</span><span class="p" data-group-id="1610642549-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_file</span><span class="p" data-group-id="1610642549-2">(</span><span class="s">&quot;oxford-iiit-pet/images/havanese_71.jpg&quot;</span><span class="p" data-group-id="1610642549-2">)</span><span class="w">
+</span><span class="p" data-group-id="1610642549-3">%</span><span class="nc" data-group-id="1610642549-3">StbImage</span><span class="p" data-group-id="1610642549-3">{</span><span class="ss">data</span><span class="p">:</span><span class="w"> </span><span class="n">binary</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="n">shape</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="n">type</span><span class="p" data-group-id="1610642549-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="1610642549-4">(</span><span class="n">img</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="1610642549-4">)</span></code></pre><p>Now let's work on a batch of images and convert them to tensors. Here are the images we will work with:</p><pre><code class="makeup elixir" translate="no"><span class="n">file_names</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0200322785-1">[</span><span class="w">
   </span><span class="s">&quot;havanese_71.jpg&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;yorkshire_terrier_9.jpg&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;Sphynx_206.jpg&quot;</span><span class="p">,</span><span class="w">
@@ -247,18 +247,18 @@ <h1>
   </span><span class="s">&quot;British_Shorthair_122.jpg&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;Russian_Blue_20.jpg&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;boxer_99.jpg&quot;</span><span class="w">
-</span><span class="p" data-group-id="1103422284-1">]</span></code></pre><p>Next we resize the images:</p><pre><code class="makeup elixir" translate="no"><span class="n">resized_images</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="8555162000-1">(</span><span class="n">file_names</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="8555162000-2">fn</span><span class="w"> </span><span class="n">file_name</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="8555162000-3">(</span><span class="s">&quot;oxford-iiit-pet/images/&quot;</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="n">file_name</span><span class="p" data-group-id="8555162000-3">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="8555162000-4">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="n">file_name</span><span class="p" data-group-id="8555162000-4">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_file!</span><span class="p" data-group-id="8555162000-5">(</span><span class="p" data-group-id="8555162000-5">)</span><span class="w">
-    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="8555162000-6">(</span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="8555162000-6">)</span><span class="w">
-  </span><span class="k" data-group-id="8555162000-2">end</span><span class="p" data-group-id="8555162000-1">)</span></code></pre><p>And finally convert them into tensors by using <code class="inline">StbImage.to_nx/1</code>. The created tensor will have three axes, named <code class="inline">:height</code>, <code class="inline">:width</code>, and <code class="inline">:channel</code> respectively. Our goal is to stack the tensors, then normalize and transpose their axes to the order expected by the neural network:</p><pre><code class="makeup elixir" translate="no"><span class="n">img_tensors</span><span class="w"> </span><span class="o">=</span><span class="w">
+</span><span class="p" data-group-id="0200322785-1">]</span></code></pre><p>Next we resize the images:</p><pre><code class="makeup elixir" translate="no"><span class="n">resized_images</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="1515944868-1">(</span><span class="n">file_names</span><span class="p">,</span><span class="w"> </span><span class="k" data-group-id="1515944868-2">fn</span><span class="w"> </span><span class="n">file_name</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="1515944868-3">(</span><span class="s">&quot;oxford-iiit-pet/images/&quot;</span><span class="w"> </span><span class="o">&lt;&gt;</span><span class="w"> </span><span class="n">file_name</span><span class="p" data-group-id="1515944868-3">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="1515944868-4">(</span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="n">file_name</span><span class="p" data-group-id="1515944868-4">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">read_file!</span><span class="p" data-group-id="1515944868-5">(</span><span class="p" data-group-id="1515944868-5">)</span><span class="w">
+    </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">StbImage</span><span class="o">.</span><span class="n">resize</span><span class="p" data-group-id="1515944868-6">(</span><span class="mi">224</span><span class="p">,</span><span class="w"> </span><span class="mi">224</span><span class="p" data-group-id="1515944868-6">)</span><span class="w">
+  </span><span class="k" data-group-id="1515944868-2">end</span><span class="p" data-group-id="1515944868-1">)</span></code></pre><p>And finally convert them into tensors by using <code class="inline">StbImage.to_nx/1</code>. The created tensor will have three axes, named <code class="inline">:height</code>, <code class="inline">:width</code>, and <code class="inline">:channel</code> respectively. Our goal is to stack the tensors, then normalize and transpose their axes to the order expected by the neural network:</p><pre><code class="makeup elixir" translate="no"><span class="n">img_tensors</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">resized_images</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="6227107304-1">(</span><span class="o">&amp;</span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6227107304-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="6227107304-2">(</span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="ss">:index</span><span class="p" data-group-id="6227107304-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="6227107304-3">(</span><span class="mf">255.0</span><span class="p" data-group-id="6227107304-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="6227107304-4">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6227107304-5">[</span><span class="ss">:index</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="6227107304-5">]</span><span class="p" data-group-id="6227107304-4">)</span></code></pre><p>With our input data, it is finally time to work on predictions. First let's define a helper module:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Predictions</span><span class="w"> </span><span class="k" data-group-id="2645831795-1">do</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="5340620113-1">(</span><span class="o">&amp;</span><span class="nc">StbImage</span><span class="o">.</span><span class="n">to_nx</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5340620113-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">stack</span><span class="p" data-group-id="5340620113-2">(</span><span class="ss">name</span><span class="p">:</span><span class="w"> </span><span class="ss">:index</span><span class="p" data-group-id="5340620113-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="5340620113-3">(</span><span class="mf">255.0</span><span class="p" data-group-id="5340620113-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">transpose</span><span class="p" data-group-id="5340620113-4">(</span><span class="ss">axes</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5340620113-5">[</span><span class="ss">:index</span><span class="p">,</span><span class="w"> </span><span class="ss">:channels</span><span class="p">,</span><span class="w"> </span><span class="ss">:height</span><span class="p">,</span><span class="w"> </span><span class="ss">:width</span><span class="p" data-group-id="5340620113-5">]</span><span class="p" data-group-id="5340620113-4">)</span></code></pre><p>With our input data, it is finally time to work on predictions. First let's define a helper module:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">Predictions</span><span class="w"> </span><span class="k" data-group-id="6637967549-1">do</span><span class="w">
   </span><span class="na">@doc</span><span class="w"> </span><span class="s">&quot;&quot;&quot;
   When provided a Tensor of single label predictions, returns the best vocabulary match for
   each row in the prediction tensor.
@@ -269,26 +269,26 @@ <h1>
      # [&quot;dog&quot;, &quot;cat&quot;, &quot;dog&quot;]
 
   &quot;&quot;&quot;</span><span class="w">
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">single_label_classification</span><span class="p" data-group-id="2645831795-2">(</span><span class="n">predictions_batch</span><span class="p">,</span><span class="w"> </span><span class="n">vocabulary</span><span class="p" data-group-id="2645831795-2">)</span><span class="w"> </span><span class="k" data-group-id="2645831795-3">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="2645831795-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="2645831795-5">(</span><span class="n">predictions_batch</span><span class="p" data-group-id="2645831795-5">)</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;predictions batch shape&quot;</span><span class="p" data-group-id="2645831795-4">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">single_label_classification</span><span class="p" data-group-id="6637967549-2">(</span><span class="n">predictions_batch</span><span class="p">,</span><span class="w"> </span><span class="n">vocabulary</span><span class="p" data-group-id="6637967549-2">)</span><span class="w"> </span><span class="k" data-group-id="6637967549-3">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">inspect</span><span class="p" data-group-id="6637967549-4">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">shape</span><span class="p" data-group-id="6637967549-5">(</span><span class="n">predictions_batch</span><span class="p" data-group-id="6637967549-5">)</span><span class="p">,</span><span class="w"> </span><span class="ss">label</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;predictions batch shape&quot;</span><span class="p" data-group-id="6637967549-4">)</span><span class="w">
 
-    </span><span class="k">for</span><span class="w"> </span><span class="n">prediction_tensor</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="2645831795-6">(</span><span class="n">predictions_batch</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2645831795-6">)</span><span class="w"> </span><span class="k" data-group-id="2645831795-7">do</span><span class="w">
-      </span><span class="p" data-group-id="2645831795-8">{</span><span class="c">_prediction_value</span><span class="p">,</span><span class="w"> </span><span class="n">prediction_label</span><span class="p" data-group-id="2645831795-8">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+    </span><span class="k">for</span><span class="w"> </span><span class="n">prediction_tensor</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_batched</span><span class="p" data-group-id="6637967549-6">(</span><span class="n">predictions_batch</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6637967549-6">)</span><span class="w"> </span><span class="k" data-group-id="6637967549-7">do</span><span class="w">
+      </span><span class="p" data-group-id="6637967549-8">{</span><span class="c">_prediction_value</span><span class="p">,</span><span class="w"> </span><span class="n">prediction_label</span><span class="p" data-group-id="6637967549-8">}</span><span class="w"> </span><span class="o">=</span><span class="w">
         </span><span class="n">prediction_tensor</span><span class="w">
-        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="2645831795-9">(</span><span class="p" data-group-id="2645831795-9">)</span><span class="w">
-        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="2645831795-10">(</span><span class="n">vocabulary</span><span class="p" data-group-id="2645831795-10">)</span><span class="w">
-        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">max</span><span class="p" data-group-id="2645831795-11">(</span><span class="p" data-group-id="2645831795-11">)</span><span class="w">
+        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="6637967549-9">(</span><span class="p" data-group-id="6637967549-9">)</span><span class="w">
+        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">zip</span><span class="p" data-group-id="6637967549-10">(</span><span class="n">vocabulary</span><span class="p" data-group-id="6637967549-10">)</span><span class="w">
+        </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">max</span><span class="p" data-group-id="6637967549-11">(</span><span class="p" data-group-id="6637967549-11">)</span><span class="w">
 
       </span><span class="n">prediction_label</span><span class="w">
-    </span><span class="k" data-group-id="2645831795-7">end</span><span class="w">
-  </span><span class="k" data-group-id="2645831795-3">end</span><span class="w">
-</span><span class="k" data-group-id="2645831795-1">end</span></code></pre><p>Now we deserialize the model</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5317559793-1">{</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p" data-group-id="5317559793-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="5317559793-2">(</span><span class="n">cats_v_dogs</span><span class="p" data-group-id="5317559793-2">)</span></code></pre><p>run a prediction using the <code class="inline">EXLA</code> compiler for performance</p><pre><code class="makeup elixir" translate="no"><span class="n">tensor_of_predictions</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="9507053153-1">(</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p">,</span><span class="w"> </span><span class="n">img_tensors</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="9507053153-1">)</span></code></pre><p>and finally retrieve the predicted label</p><pre><code class="makeup elixir" translate="no"><span class="n">dog_cat_vocabulary</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="0095770874-1">[</span><span class="w">
+    </span><span class="k" data-group-id="6637967549-7">end</span><span class="w">
+  </span><span class="k" data-group-id="6637967549-3">end</span><span class="w">
+</span><span class="k" data-group-id="6637967549-1">end</span></code></pre><p>Now we deserialize the model</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="3282913689-1">{</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p" data-group-id="3282913689-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="3282913689-2">(</span><span class="n">cats_v_dogs</span><span class="p" data-group-id="3282913689-2">)</span></code></pre><p>run a prediction using the <code class="inline">EXLA</code> compiler for performance</p><pre><code class="makeup elixir" translate="no"><span class="n">tensor_of_predictions</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="2060935935-1">(</span><span class="n">cats_v_dogs_model</span><span class="p">,</span><span class="w"> </span><span class="n">cats_v_dogs_params</span><span class="p">,</span><span class="w"> </span><span class="n">img_tensors</span><span class="p">,</span><span class="w"> </span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="2060935935-1">)</span></code></pre><p>and finally retrieve the predicted label</p><pre><code class="makeup elixir" translate="no"><span class="n">dog_cat_vocabulary</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="5962958247-1">[</span><span class="w">
   </span><span class="s">&quot;dog&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;cat&quot;</span><span class="w">
-</span><span class="p" data-group-id="0095770874-1">]</span><span class="w">
+</span><span class="p" data-group-id="5962958247-1">]</span><span class="w">
 
-</span><span class="nc">Predictions</span><span class="o">.</span><span class="n">single_label_classification</span><span class="p" data-group-id="0095770874-2">(</span><span class="n">tensor_of_predictions</span><span class="p">,</span><span class="w"> </span><span class="n">dog_cat_vocabulary</span><span class="p" data-group-id="0095770874-2">)</span></code></pre><p>Let's repeat the above process for the dog and cat breed model.</p><pre><code class="makeup elixir" translate="no"><span class="n">cat_dog_vocabulary</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="6723092890-1">[</span><span class="w">
+</span><span class="nc">Predictions</span><span class="o">.</span><span class="n">single_label_classification</span><span class="p" data-group-id="5962958247-2">(</span><span class="n">tensor_of_predictions</span><span class="p">,</span><span class="w"> </span><span class="n">dog_cat_vocabulary</span><span class="p" data-group-id="5962958247-2">)</span></code></pre><p>Let's repeat the above process for the dog and cat breed model.</p><pre><code class="makeup elixir" translate="no"><span class="n">cat_dog_vocabulary</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="2277666188-1">[</span><span class="w">
   </span><span class="s">&quot;abyssinian&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;american_bulldog&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;american_pit_bull_terrier&quot;</span><span class="p">,</span><span class="w">
@@ -326,9 +326,9 @@ <h1>
   </span><span class="s">&quot;staffordshire_bull_terrier&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;wheaten_terrier&quot;</span><span class="p">,</span><span class="w">
   </span><span class="s">&quot;yorkshire_terrier&quot;</span><span class="w">
-</span><span class="p" data-group-id="6723092890-1">]</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">cat_dog_breeds</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="9633866762-1">(</span><span class="s">&quot;cat_dog_breeds.axon&quot;</span><span class="p" data-group-id="9633866762-1">)</span><span class="w">
-</span><span class="p" data-group-id="9633866762-2">{</span><span class="n">cat_dog_breeds_model</span><span class="p">,</span><span class="w"> </span><span class="n">cat_dog_breeds_params</span><span class="p" data-group-id="9633866762-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="9633866762-3">(</span><span class="n">cat_dog_breeds</span><span class="p" data-group-id="9633866762-3">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6252307840-1">(</span><span class="n">cat_dog_breeds_model</span><span class="p">,</span><span class="w"> </span><span class="n">cat_dog_breeds_params</span><span class="p">,</span><span class="w"> </span><span class="n">img_tensors</span><span class="p" data-group-id="6252307840-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Predictions</span><span class="o">.</span><span class="n">single_label_classification</span><span class="p" data-group-id="6252307840-2">(</span><span class="n">cat_dog_vocabulary</span><span class="p" data-group-id="6252307840-2">)</span></code></pre><p>For cat and dog breeds, the model performed pretty well, but it was not perfect.</p>
+</span><span class="p" data-group-id="2277666188-1">]</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">cat_dog_breeds</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">File</span><span class="o">.</span><span class="n">read!</span><span class="p" data-group-id="7916725728-1">(</span><span class="s">&quot;cat_dog_breeds.axon&quot;</span><span class="p" data-group-id="7916725728-1">)</span><span class="w">
+</span><span class="p" data-group-id="7916725728-2">{</span><span class="n">cat_dog_breeds_model</span><span class="p">,</span><span class="w"> </span><span class="n">cat_dog_breeds_params</span><span class="p" data-group-id="7916725728-2">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">deserialize</span><span class="p" data-group-id="7916725728-3">(</span><span class="n">cat_dog_breeds</span><span class="p" data-group-id="7916725728-3">)</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4037547598-1">(</span><span class="n">cat_dog_breeds_model</span><span class="p">,</span><span class="w"> </span><span class="n">cat_dog_breeds_params</span><span class="p">,</span><span class="w"> </span><span class="n">img_tensors</span><span class="p" data-group-id="4037547598-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Predictions</span><span class="o">.</span><span class="n">single_label_classification</span><span class="p" data-group-id="4037547598-2">(</span><span class="n">cat_dog_vocabulary</span><span class="p" data-group-id="4037547598-2">)</span></code></pre><p>For cat and dog breeds, the model performed pretty well, but it was not perfect.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/search.html b/search.html
index eaee9be5..a1838af7 100644
--- a/search.html
+++ b/search.html
@@ -16,7 +16,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -128,7 +128,7 @@ <h1>
 
   <div class="loading"><div></div><div></div><div></div><div></div></div>
 </div>
-<script src="dist/search_data-7F2B0842.js"></script>
+<script src="dist/search_data-BDD49AAD.js"></script>
       <footer class="footer">
         <p>
 
diff --git a/sequential_models.html b/sequential_models.html
index fc0e2c3e..5f523a78 100644
--- a/sequential_models.html
+++ b/sequential_models.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,30 +136,30 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="4494679246-1">(</span><span class="p" data-group-id="4494679246-2">[</span><span class="w">
-  </span><span class="p" data-group-id="4494679246-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="4494679246-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="4494679246-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="4494679246-4">}</span><span class="w">
-</span><span class="p" data-group-id="4494679246-2">]</span><span class="p" data-group-id="4494679246-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-a-sequential-model" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1083157499-1">(</span><span class="p" data-group-id="1083157499-2">[</span><span class="w">
+  </span><span class="p" data-group-id="1083157499-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="1083157499-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="1083157499-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="1083157499-4">}</span><span class="w">
+</span><span class="p" data-group-id="1083157499-2">]</span><span class="p" data-group-id="1083157499-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-a-sequential-model" class="section-heading">
   <a href="#creating-a-sequential-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Creating a sequential model</span>
 </h2>
 <p>In the <a href="your_first_axon_model.html">last guide</a>, you created a simple identity model which just returned the input. Of course, you would never actually use Axon for such purposes. You want to create real neural networks!</p><p>In equivalent frameworks in the Python ecosystem such as Keras and PyTorch, there is a concept of <em>sequential models</em>. Sequential models are named after the sequential nature in which data flows through them. Sequential models transform the input with sequential, successive transformations.</p><p>If you're an experienced Elixir programmer, this paradigm of sequential transformations might sound a lot like what happens when using the pipe (<code class="inline">|&gt;</code>) operator. In Elixir, it's common to see code blocks like:</p><!-- livebook:{"force_markdown":true} --><pre><code class="makeup elixir" translate="no"><span class="n">list</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="4525405296-1">(</span><span class="k" data-group-id="4525405296-2">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w"> </span><span class="k" data-group-id="4525405296-2">end</span><span class="p" data-group-id="4525405296-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">filter</span><span class="p" data-group-id="4525405296-3">(</span><span class="o">&amp;</span><span class="n">rem</span><span class="p" data-group-id="4525405296-4">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="4525405296-4">)</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4525405296-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="4525405296-5">(</span><span class="p" data-group-id="4525405296-5">)</span></code></pre><p>The snippet above passes <code class="inline">list</code> through a sequence of transformations. You can apply this same paradigm in Axon to create sequential models. In fact, creating sequential models is so natural with Elixir's pipe operator, that Axon does not need a distinct <em>sequential</em> construct. To create a sequential model, you just pass Axon models through successive transformations in the Axon API:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8716471153-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8716471153-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8716471153-2">(</span><span class="mi">32</span><span class="p" data-group-id="8716471153-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="8716471153-3">(</span><span class="ss">:relu</span><span class="p" data-group-id="8716471153-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="8716471153-4">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="8716471153-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8716471153-5">(</span><span class="mi">1</span><span class="p" data-group-id="8716471153-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="8716471153-6">(</span><span class="ss">:softmax</span><span class="p" data-group-id="8716471153-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7399237919-1">#</span><span class="nc" data-group-id="7399237919-1">Axon</span><span class="p" data-group-id="7399237919-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7399237919-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="7399237919-2">}</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">map</span><span class="p" data-group-id="7305505707-1">(</span><span class="k" data-group-id="7305505707-2">fn</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="n">x</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="w"> </span><span class="k" data-group-id="7305505707-2">end</span><span class="p" data-group-id="7305505707-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">filter</span><span class="p" data-group-id="7305505707-3">(</span><span class="o">&amp;</span><span class="n">rem</span><span class="p" data-group-id="7305505707-4">(</span><span class="ni">&amp;1</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7305505707-4">)</span><span class="w"> </span><span class="o">==</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="7305505707-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Enum</span><span class="o">.</span><span class="n">count</span><span class="p" data-group-id="7305505707-5">(</span><span class="p" data-group-id="7305505707-5">)</span></code></pre><p>The snippet above passes <code class="inline">list</code> through a sequence of transformations. You can apply this same paradigm in Axon to create sequential models. In fact, creating sequential models is so natural with Elixir's pipe operator, that Axon does not need a distinct <em>sequential</em> construct. To create a sequential model, you just pass Axon models through successive transformations in the Axon API:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7485392855-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7485392855-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7485392855-2">(</span><span class="mi">32</span><span class="p" data-group-id="7485392855-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="7485392855-3">(</span><span class="ss">:relu</span><span class="p" data-group-id="7485392855-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="7485392855-4">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5</span><span class="p" data-group-id="7485392855-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7485392855-5">(</span><span class="mi">1</span><span class="p" data-group-id="7485392855-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">activation</span><span class="p" data-group-id="7485392855-6">(</span><span class="ss">:softmax</span><span class="p" data-group-id="7485392855-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8971052853-1">#</span><span class="nc" data-group-id="8971052853-1">Axon</span><span class="p" data-group-id="8971052853-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8971052853-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="8971052853-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;softmax_0&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="7399237919-1">&gt;</span></code></pre><p>If you visualize this model, it's easy to see how data flows sequentially through it:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="9093978856-1">(</span><span class="p" data-group-id="9093978856-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9093978856-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="9093978856-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="9093978856-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="9093978856-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="8971052853-1">&gt;</span></code></pre><p>If you visualize this model, it's easy to see how data flows sequentially through it:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="6777754610-1">(</span><span class="p" data-group-id="6777754610-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="6777754610-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="6777754610-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="6777754610-3">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="6777754610-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 16}&quot;/];
 4[&quot;dense_0 (:dense) {2, 32}&quot;];
 5[&quot;relu_0 (:relu) {2, 32}&quot;];
@@ -170,72 +170,72 @@ <h1>
 6 --&gt; 7;
 5 --&gt; 6;
 4 --&gt; 5;
-3 --&gt; 4;</code></pre><p>Your model is more involved and as a result so is the execution graph! Now, using the same constructs from the last section, you can build and run your model:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5969713405-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5969713405-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5969713405-2">(</span><span class="n">model</span><span class="p" data-group-id="5969713405-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2291722912-1">{</span><span class="p" data-group-id="2291722912-2">#</span><span class="nc" data-group-id="2291722912-2">Function</span><span class="p" data-group-id="2291722912-2">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2291722912-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="2291722912-3">#</span><span class="nc" data-group-id="2291722912-3">Function</span><span class="p" data-group-id="2291722912-3">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2291722912-3">&gt;</span><span class="p" data-group-id="2291722912-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="5651383797-1">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5651383797-2">%{</span><span class="p" data-group-id="5651383797-2">}</span><span class="p" data-group-id="5651383797-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8930031253-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8930031253-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8930031253-3">#</span><span class="nc" data-group-id="8930031253-3">Nx.Tensor</span><span class="p" data-group-id="8930031253-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8930031253-4">[</span><span class="mi">32</span><span class="p" data-group-id="8930031253-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8930031253-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="8930031253-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8930031253-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8930031253-6">#</span><span class="nc" data-group-id="8930031253-6">Nx.Tensor</span><span class="p" data-group-id="8930031253-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8930031253-7">[</span><span class="mi">16</span><span class="p" data-group-id="8930031253-7">]</span><span class="p" data-group-id="8930031253-8">[</span><span class="mi">32</span><span class="p" data-group-id="8930031253-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8930031253-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-10">[</span><span class="mf">0.21433714032173157</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04525795578956604</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32405969500541687</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06933712959289551</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24735209345817566</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1957167088985443</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2714379131793976</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34026962518692017</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03781759738922119</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16317953169345856</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1272507756948471</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08459293842315674</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20401403307914734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26613888144493103</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3234696388244629</span><span class="p">,</span><span class="w"> </span><span class="mf">0.295791357755661</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29850414395332336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22220905125141144</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33034151792526245</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32582345604896545</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19104702770709991</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3434463143348694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.031930625438690186</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32875487208366394</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17335721850395203</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0336279571056366</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02203202247619629</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30805233120918274</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01472097635269165</span><span class="p">,</span><span class="w"> </span><span class="mf">0.293319970369339</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17995354533195496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09916016459465027</span><span class="p" data-group-id="8930031253-10">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-11">[</span><span class="o">-</span><span class="mf">0.33202630281448364</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09507006406784058</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12178492546081543</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.005500674247741699</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24997547268867493</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31693217158317566</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31857630610466003</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13662374019622803</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11216515302658081</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2711845338344574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18932600319385529</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10278302431106567</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1910824328660965</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15239068865776062</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2373746931552887</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="8930031253-11">]</span><span class="p">,</span><span class="w">
+3 --&gt; 4;</code></pre><p>Your model is more involved and as a result so is the execution graph! Now, using the same constructs from the last section, you can build and run your model:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0425554762-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0425554762-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0425554762-2">(</span><span class="n">model</span><span class="p" data-group-id="0425554762-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1122473484-1">{</span><span class="p" data-group-id="1122473484-2">#</span><span class="nc" data-group-id="1122473484-2">Function</span><span class="p" data-group-id="1122473484-2">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="1122473484-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="1122473484-3">#</span><span class="nc" data-group-id="1122473484-3">Function</span><span class="p" data-group-id="1122473484-3">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="1122473484-3">&gt;</span><span class="p" data-group-id="1122473484-1">}</span></code></pre><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9628584640-1">(</span><span class="n">template</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9628584640-2">%{</span><span class="p" data-group-id="9628584640-2">}</span><span class="p" data-group-id="9628584640-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1987481557-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1987481557-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1987481557-3">#</span><span class="nc" data-group-id="1987481557-3">Nx.Tensor</span><span class="p" data-group-id="1987481557-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1987481557-4">[</span><span class="mi">32</span><span class="p" data-group-id="1987481557-4">]</span><span class="w">
+      </span><span class="p" data-group-id="1987481557-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p" data-group-id="1987481557-5">]</span><span class="w">
+    </span><span class="p" data-group-id="1987481557-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1987481557-6">#</span><span class="nc" data-group-id="1987481557-6">Nx.Tensor</span><span class="p" data-group-id="1987481557-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1987481557-7">[</span><span class="mi">16</span><span class="p" data-group-id="1987481557-7">]</span><span class="p" data-group-id="1987481557-8">[</span><span class="mi">32</span><span class="p" data-group-id="1987481557-8">]</span><span class="w">
+      </span><span class="p" data-group-id="1987481557-9">[</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-10">[</span><span class="mf">0.21433714032173157</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04525795578956604</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32405969500541687</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06933712959289551</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24735209345817566</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1957167088985443</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2714379131793976</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34026962518692017</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03781759738922119</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16317953169345856</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1272507756948471</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08459293842315674</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20401403307914734</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26613888144493103</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3234696388244629</span><span class="p">,</span><span class="w"> </span><span class="mf">0.295791357755661</span><span class="p">,</span><span class="w"> </span><span class="mf">0.29850414395332336</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22220905125141144</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.33034151792526245</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32582345604896545</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19104702770709991</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3434463143348694</span><span class="p">,</span><span class="w"> </span><span class="mf">0.031930625438690186</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32875487208366394</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17335721850395203</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0336279571056366</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.02203202247619629</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30805233120918274</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01472097635269165</span><span class="p">,</span><span class="w"> </span><span class="mf">0.293319970369339</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17995354533195496</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09916016459465027</span><span class="p" data-group-id="1987481557-10">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-11">[</span><span class="o">-</span><span class="mf">0.33202630281448364</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09507006406784058</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.12178492546081543</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.005500674247741699</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24997547268867493</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31693217158317566</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31857630610466003</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13662374019622803</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11216515302658081</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2711845338344574</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18932600319385529</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10278302431106567</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1910824328660965</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.15239068865776062</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2373746931552887</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="1987481557-11">]</span><span class="p">,</span><span class="w">
         </span><span class="n">...</span><span class="w">
-      </span><span class="p" data-group-id="8930031253-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8930031253-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8930031253-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8930031253-12">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8930031253-13">#</span><span class="nc" data-group-id="8930031253-13">Nx.Tensor</span><span class="p" data-group-id="8930031253-13">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8930031253-14">[</span><span class="mi">1</span><span class="p" data-group-id="8930031253-14">]</span><span class="w">
-      </span><span class="p" data-group-id="8930031253-15">[</span><span class="mf">0.0</span><span class="p" data-group-id="8930031253-15">]</span><span class="w">
-    </span><span class="p" data-group-id="8930031253-13">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8930031253-16">#</span><span class="nc" data-group-id="8930031253-16">Nx.Tensor</span><span class="p" data-group-id="8930031253-16">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8930031253-17">[</span><span class="mi">32</span><span class="p" data-group-id="8930031253-17">]</span><span class="p" data-group-id="8930031253-18">[</span><span class="mi">1</span><span class="p" data-group-id="8930031253-18">]</span><span class="w">
-      </span><span class="p" data-group-id="8930031253-19">[</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-20">[</span><span class="o">-</span><span class="mf">0.22355356812477112</span><span class="p" data-group-id="8930031253-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-21">[</span><span class="mf">0.09599864482879639</span><span class="p" data-group-id="8930031253-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-22">[</span><span class="mf">0.06676572561264038</span><span class="p" data-group-id="8930031253-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-23">[</span><span class="o">-</span><span class="mf">0.06866732239723206</span><span class="p" data-group-id="8930031253-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-24">[</span><span class="mf">0.1822824478149414</span><span class="p" data-group-id="8930031253-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-25">[</span><span class="mf">0.1860904097557068</span><span class="p" data-group-id="8930031253-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-26">[</span><span class="o">-</span><span class="mf">0.3795042335987091</span><span class="p" data-group-id="8930031253-26">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-27">[</span><span class="o">-</span><span class="mf">0.18182222545146942</span><span class="p" data-group-id="8930031253-27">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-28">[</span><span class="mf">0.4170041084289551</span><span class="p" data-group-id="8930031253-28">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-29">[</span><span class="mf">0.1812545657157898</span><span class="p" data-group-id="8930031253-29">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-30">[</span><span class="mf">0.18777817487716675</span><span class="p" data-group-id="8930031253-30">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-31">[</span><span class="o">-</span><span class="mf">0.15454193949699402</span><span class="p" data-group-id="8930031253-31">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-32">[</span><span class="mf">0.16937363147735596</span><span class="p" data-group-id="8930031253-32">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-33">[</span><span class="o">-</span><span class="mf">0.007449895143508911</span><span class="p" data-group-id="8930031253-33">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-34">[</span><span class="mf">0.421792209148407</span><span class="p" data-group-id="8930031253-34">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-35">[</span><span class="o">-</span><span class="mf">0.3314356803894043</span><span class="p" data-group-id="8930031253-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-36">[</span><span class="o">-</span><span class="mf">0.29834187030792236</span><span class="p" data-group-id="8930031253-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-37">[</span><span class="mf">0.3285354971885681</span><span class="p" data-group-id="8930031253-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-38">[</span><span class="mf">0.034806013107299805</span><span class="p" data-group-id="8930031253-38">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-39">[</span><span class="mf">0.1091541051864624</span><span class="p" data-group-id="8930031253-39">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-40">[</span><span class="o">-</span><span class="mf">0.385672390460968</span><span class="p" data-group-id="8930031253-40">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-41">[</span><span class="mf">0.004853636026382446</span><span class="p" data-group-id="8930031253-41">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-42">[</span><span class="mf">0.3387643098831177</span><span class="p" data-group-id="8930031253-42">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-43">[</span><span class="mf">0.03320261836051941</span><span class="p" data-group-id="8930031253-43">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-44">[</span><span class="mf">0.3905656933784485</span><span class="p" data-group-id="8930031253-44">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-45">[</span><span class="o">-</span><span class="mf">0.3835979700088501</span><span class="p" data-group-id="8930031253-45">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-46">[</span><span class="o">-</span><span class="mf">0.06302008032798767</span><span class="p" data-group-id="8930031253-46">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-47">[</span><span class="mf">0.03648516535758972</span><span class="p" data-group-id="8930031253-47">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-48">[</span><span class="mf">0.24170255661010742</span><span class="p" data-group-id="8930031253-48">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-49">[</span><span class="mf">0.01687285304069519</span><span class="p" data-group-id="8930031253-49">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-50">[</span><span class="o">-</span><span class="mf">0.017035305500030518</span><span class="p" data-group-id="8930031253-50">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8930031253-51">[</span><span class="o">-</span><span class="mf">0.2674438953399658</span><span class="p" data-group-id="8930031253-51">]</span><span class="w">
-      </span><span class="p" data-group-id="8930031253-19">]</span><span class="w">
-    </span><span class="p" data-group-id="8930031253-16">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8930031253-12">}</span><span class="w">
-</span><span class="p" data-group-id="8930031253-1">}</span></code></pre><p>Wow! Notice that this model actually has trainable parameters. You can see that the parameter map is just a regular Elixir map. Each top-level entry maps to a layer with a key corresponding to that layer's name and a value corresponding to that layer's trainable parameters. Each layer's individual trainable parameters are given layer-specific names and map directly to Nx tensors.</p><p>Now you can use these <code class="inline">params</code> with your <code class="inline">predict_fn</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="9501480692-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="9501480692-2">(</span><span class="p" data-group-id="9501480692-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="9501480692-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="9501480692-2">)</span><span class="p" data-group-id="9501480692-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1144751348-1">#</span><span class="nc" data-group-id="1144751348-1">Nx.Tensor</span><span class="p" data-group-id="1144751348-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1144751348-2">[</span><span class="mi">2</span><span class="p" data-group-id="1144751348-2">]</span><span class="p" data-group-id="1144751348-3">[</span><span class="mi">1</span><span class="p" data-group-id="1144751348-3">]</span><span class="w">
-  </span><span class="p" data-group-id="1144751348-4">[</span><span class="w">
-    </span><span class="p" data-group-id="1144751348-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="1144751348-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1144751348-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="1144751348-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1144751348-4">]</span><span class="w">
-</span><span class="p" data-group-id="1144751348-1">&gt;</span></code></pre><p>And voila! You've successfully created and used a sequential model in Axon!</p>
+      </span><span class="p" data-group-id="1987481557-9">]</span><span class="w">
+    </span><span class="p" data-group-id="1987481557-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1987481557-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1987481557-12">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1987481557-13">#</span><span class="nc" data-group-id="1987481557-13">Nx.Tensor</span><span class="p" data-group-id="1987481557-13">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1987481557-14">[</span><span class="mi">1</span><span class="p" data-group-id="1987481557-14">]</span><span class="w">
+      </span><span class="p" data-group-id="1987481557-15">[</span><span class="mf">0.0</span><span class="p" data-group-id="1987481557-15">]</span><span class="w">
+    </span><span class="p" data-group-id="1987481557-13">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1987481557-16">#</span><span class="nc" data-group-id="1987481557-16">Nx.Tensor</span><span class="p" data-group-id="1987481557-16">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1987481557-17">[</span><span class="mi">32</span><span class="p" data-group-id="1987481557-17">]</span><span class="p" data-group-id="1987481557-18">[</span><span class="mi">1</span><span class="p" data-group-id="1987481557-18">]</span><span class="w">
+      </span><span class="p" data-group-id="1987481557-19">[</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-20">[</span><span class="o">-</span><span class="mf">0.22355356812477112</span><span class="p" data-group-id="1987481557-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-21">[</span><span class="mf">0.09599864482879639</span><span class="p" data-group-id="1987481557-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-22">[</span><span class="mf">0.06676572561264038</span><span class="p" data-group-id="1987481557-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-23">[</span><span class="o">-</span><span class="mf">0.06866732239723206</span><span class="p" data-group-id="1987481557-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-24">[</span><span class="mf">0.1822824478149414</span><span class="p" data-group-id="1987481557-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-25">[</span><span class="mf">0.1860904097557068</span><span class="p" data-group-id="1987481557-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-26">[</span><span class="o">-</span><span class="mf">0.3795042335987091</span><span class="p" data-group-id="1987481557-26">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-27">[</span><span class="o">-</span><span class="mf">0.18182222545146942</span><span class="p" data-group-id="1987481557-27">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-28">[</span><span class="mf">0.4170041084289551</span><span class="p" data-group-id="1987481557-28">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-29">[</span><span class="mf">0.1812545657157898</span><span class="p" data-group-id="1987481557-29">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-30">[</span><span class="mf">0.18777817487716675</span><span class="p" data-group-id="1987481557-30">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-31">[</span><span class="o">-</span><span class="mf">0.15454193949699402</span><span class="p" data-group-id="1987481557-31">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-32">[</span><span class="mf">0.16937363147735596</span><span class="p" data-group-id="1987481557-32">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-33">[</span><span class="o">-</span><span class="mf">0.007449895143508911</span><span class="p" data-group-id="1987481557-33">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-34">[</span><span class="mf">0.421792209148407</span><span class="p" data-group-id="1987481557-34">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-35">[</span><span class="o">-</span><span class="mf">0.3314356803894043</span><span class="p" data-group-id="1987481557-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-36">[</span><span class="o">-</span><span class="mf">0.29834187030792236</span><span class="p" data-group-id="1987481557-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-37">[</span><span class="mf">0.3285354971885681</span><span class="p" data-group-id="1987481557-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-38">[</span><span class="mf">0.034806013107299805</span><span class="p" data-group-id="1987481557-38">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-39">[</span><span class="mf">0.1091541051864624</span><span class="p" data-group-id="1987481557-39">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-40">[</span><span class="o">-</span><span class="mf">0.385672390460968</span><span class="p" data-group-id="1987481557-40">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-41">[</span><span class="mf">0.004853636026382446</span><span class="p" data-group-id="1987481557-41">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-42">[</span><span class="mf">0.3387643098831177</span><span class="p" data-group-id="1987481557-42">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-43">[</span><span class="mf">0.03320261836051941</span><span class="p" data-group-id="1987481557-43">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-44">[</span><span class="mf">0.3905656933784485</span><span class="p" data-group-id="1987481557-44">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-45">[</span><span class="o">-</span><span class="mf">0.3835979700088501</span><span class="p" data-group-id="1987481557-45">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-46">[</span><span class="o">-</span><span class="mf">0.06302008032798767</span><span class="p" data-group-id="1987481557-46">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-47">[</span><span class="mf">0.03648516535758972</span><span class="p" data-group-id="1987481557-47">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-48">[</span><span class="mf">0.24170255661010742</span><span class="p" data-group-id="1987481557-48">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-49">[</span><span class="mf">0.01687285304069519</span><span class="p" data-group-id="1987481557-49">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-50">[</span><span class="o">-</span><span class="mf">0.017035305500030518</span><span class="p" data-group-id="1987481557-50">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1987481557-51">[</span><span class="o">-</span><span class="mf">0.2674438953399658</span><span class="p" data-group-id="1987481557-51">]</span><span class="w">
+      </span><span class="p" data-group-id="1987481557-19">]</span><span class="w">
+    </span><span class="p" data-group-id="1987481557-16">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1987481557-12">}</span><span class="w">
+</span><span class="p" data-group-id="1987481557-1">}</span></code></pre><p>Wow! Notice that this model actually has trainable parameters. You can see that the parameter map is just a regular Elixir map. Each top-level entry maps to a layer with a key corresponding to that layer's name and a value corresponding to that layer's trainable parameters. Each layer's individual trainable parameters are given layer-specific names and map directly to Nx tensors.</p><p>Now you can use these <code class="inline">params</code> with your <code class="inline">predict_fn</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="2677028764-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="2677028764-2">(</span><span class="p" data-group-id="2677028764-3">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">16</span><span class="p" data-group-id="2677028764-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="2677028764-2">)</span><span class="p" data-group-id="2677028764-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4971168155-1">#</span><span class="nc" data-group-id="4971168155-1">Nx.Tensor</span><span class="p" data-group-id="4971168155-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="4971168155-2">[</span><span class="mi">2</span><span class="p" data-group-id="4971168155-2">]</span><span class="p" data-group-id="4971168155-3">[</span><span class="mi">1</span><span class="p" data-group-id="4971168155-3">]</span><span class="w">
+  </span><span class="p" data-group-id="4971168155-4">[</span><span class="w">
+    </span><span class="p" data-group-id="4971168155-5">[</span><span class="mf">1.0</span><span class="p" data-group-id="4971168155-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="4971168155-6">[</span><span class="mf">1.0</span><span class="p" data-group-id="4971168155-6">]</span><span class="w">
+  </span><span class="p" data-group-id="4971168155-4">]</span><span class="w">
+</span><span class="p" data-group-id="4971168155-1">&gt;</span></code></pre><p>And voila! You've successfully created and used a sequential model in Axon!</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/training_and_inference_mode.html b/training_and_inference_mode.html
index b0fe221f..ca1b8039 100644
--- a/training_and_inference_mode.html
+++ b/training_and_inference_mode.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,93 +136,93 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2788224334-1">(</span><span class="p" data-group-id="2788224334-2">[</span><span class="w">
-  </span><span class="p" data-group-id="2788224334-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="2788224334-3">}</span><span class="w">
-</span><span class="p" data-group-id="2788224334-2">]</span><span class="p" data-group-id="2788224334-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="executing-models-in-inference-mode" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3004346304-1">(</span><span class="p" data-group-id="3004346304-2">[</span><span class="w">
+  </span><span class="p" data-group-id="3004346304-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3004346304-3">}</span><span class="w">
+</span><span class="p" data-group-id="3004346304-2">]</span><span class="p" data-group-id="3004346304-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="executing-models-in-inference-mode" class="section-heading">
   <a href="#executing-models-in-inference-mode" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Executing models in inference mode</span>
 </h2>
-<p>Some layers have different considerations and behavior when running during model training versus model inference. For example <em>dropout layers</em> are intended only to be used during training as a form of model regularization. Certain stateful layers like <em>batch normalization</em> keep a running-internal state which changes during training mode but remains fixed during inference mode. Axon supports mode-dependent execution behavior via the <code class="inline">:mode</code> option passed to all building, compilation, and execution methods. By default, all models build in inference mode. You can see this behavior by adding a dropout layer with a dropout rate of 1. In inference mode this layer will have no affect:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7468699909-1">(</span><span class="p" data-group-id="7468699909-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7468699909-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7468699909-1">)</span><span class="w">
+<p>Some layers have different considerations and behavior when running during model training versus model inference. For example <em>dropout layers</em> are intended only to be used during training as a form of model regularization. Certain stateful layers like <em>batch normalization</em> keep a running-internal state which changes during training mode but remains fixed during inference mode. Axon supports mode-dependent execution behavior via the <code class="inline">:mode</code> option passed to all building, compilation, and execution methods. By default, all models build in inference mode. You can see this behavior by adding a dropout layer with a dropout rate of 1. In inference mode this layer will have no affect:</p><pre><code class="makeup elixir" translate="no"><span class="n">inputs</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7756868556-1">(</span><span class="p" data-group-id="7756868556-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7756868556-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7756868556-1">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7468699909-3">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7468699909-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7468699909-4">(</span><span class="mi">4</span><span class="p" data-group-id="7468699909-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="7468699909-5">(</span><span class="p" data-group-id="7468699909-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="7468699909-6">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.99</span><span class="p" data-group-id="7468699909-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7468699909-7">(</span><span class="mi">1</span><span class="p" data-group-id="7468699909-7">)</span><span class="w">
-
-</span><span class="p" data-group-id="7468699909-8">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7468699909-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7468699909-9">(</span><span class="n">model</span><span class="p" data-group-id="7468699909-9">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7468699909-10">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7468699909-11">%{</span><span class="p" data-group-id="7468699909-11">}</span><span class="p" data-group-id="7468699909-10">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7468699909-12">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7468699909-12">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1053850580-1">#</span><span class="nc" data-group-id="1053850580-1">Nx.Tensor</span><span class="p" data-group-id="1053850580-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="1053850580-2">[</span><span class="mi">2</span><span class="p" data-group-id="1053850580-2">]</span><span class="p" data-group-id="1053850580-3">[</span><span class="mi">1</span><span class="p" data-group-id="1053850580-3">]</span><span class="w">
-  </span><span class="p" data-group-id="1053850580-4">[</span><span class="w">
-    </span><span class="p" data-group-id="1053850580-5">[</span><span class="mf">0.6900148391723633</span><span class="p" data-group-id="1053850580-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="1053850580-6">[</span><span class="mf">1.1159517765045166</span><span class="p" data-group-id="1053850580-6">]</span><span class="w">
-  </span><span class="p" data-group-id="1053850580-4">]</span><span class="w">
-</span><span class="p" data-group-id="1053850580-1">&gt;</span></code></pre><p>You can also explicitly specify the mode:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6669765303-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6669765303-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6669765303-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:inference</span><span class="p" data-group-id="6669765303-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6669765303-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6669765303-4">%{</span><span class="p" data-group-id="6669765303-4">}</span><span class="p" data-group-id="6669765303-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6669765303-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="6669765303-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7249181748-1">#</span><span class="nc" data-group-id="7249181748-1">Nx.Tensor</span><span class="p" data-group-id="7249181748-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="7249181748-2">[</span><span class="mi">2</span><span class="p" data-group-id="7249181748-2">]</span><span class="p" data-group-id="7249181748-3">[</span><span class="mi">1</span><span class="p" data-group-id="7249181748-3">]</span><span class="w">
-  </span><span class="p" data-group-id="7249181748-4">[</span><span class="w">
-    </span><span class="p" data-group-id="7249181748-5">[</span><span class="o">-</span><span class="mf">1.1250841617584229</span><span class="p" data-group-id="7249181748-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="p" data-group-id="7249181748-6">[</span><span class="o">-</span><span class="mf">1.161189317703247</span><span class="p" data-group-id="7249181748-6">]</span><span class="w">
-  </span><span class="p" data-group-id="7249181748-4">]</span><span class="w">
-</span><span class="p" data-group-id="7249181748-1">&gt;</span></code></pre><p>It's important that you know which mode your model's were compiled for, as running a model built in <code class="inline">:inference</code> mode will behave drastically different than a model built in <code class="inline">:train</code> mode.</p><h2 id="executing-models-in-training-mode" class="section-heading">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7756868556-3">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7756868556-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7756868556-4">(</span><span class="mi">4</span><span class="p" data-group-id="7756868556-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="7756868556-5">(</span><span class="p" data-group-id="7756868556-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dropout</span><span class="p" data-group-id="7756868556-6">(</span><span class="ss">rate</span><span class="p">:</span><span class="w"> </span><span class="mf">0.99</span><span class="p" data-group-id="7756868556-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7756868556-7">(</span><span class="mi">1</span><span class="p" data-group-id="7756868556-7">)</span><span class="w">
+
+</span><span class="p" data-group-id="7756868556-8">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7756868556-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7756868556-9">(</span><span class="n">model</span><span class="p" data-group-id="7756868556-9">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7756868556-10">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7756868556-11">%{</span><span class="p" data-group-id="7756868556-11">}</span><span class="p" data-group-id="7756868556-10">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7756868556-12">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7756868556-12">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3707183810-1">#</span><span class="nc" data-group-id="3707183810-1">Nx.Tensor</span><span class="p" data-group-id="3707183810-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3707183810-2">[</span><span class="mi">2</span><span class="p" data-group-id="3707183810-2">]</span><span class="p" data-group-id="3707183810-3">[</span><span class="mi">1</span><span class="p" data-group-id="3707183810-3">]</span><span class="w">
+  </span><span class="p" data-group-id="3707183810-4">[</span><span class="w">
+    </span><span class="p" data-group-id="3707183810-5">[</span><span class="mf">0.6900148391723633</span><span class="p" data-group-id="3707183810-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="3707183810-6">[</span><span class="mf">1.1159517765045166</span><span class="p" data-group-id="3707183810-6">]</span><span class="w">
+  </span><span class="p" data-group-id="3707183810-4">]</span><span class="w">
+</span><span class="p" data-group-id="3707183810-1">&gt;</span></code></pre><p>You can also explicitly specify the mode:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0588352812-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0588352812-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0588352812-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:inference</span><span class="p" data-group-id="0588352812-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0588352812-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0588352812-4">%{</span><span class="p" data-group-id="0588352812-4">}</span><span class="p" data-group-id="0588352812-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0588352812-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="0588352812-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5305603332-1">#</span><span class="nc" data-group-id="5305603332-1">Nx.Tensor</span><span class="p" data-group-id="5305603332-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="5305603332-2">[</span><span class="mi">2</span><span class="p" data-group-id="5305603332-2">]</span><span class="p" data-group-id="5305603332-3">[</span><span class="mi">1</span><span class="p" data-group-id="5305603332-3">]</span><span class="w">
+  </span><span class="p" data-group-id="5305603332-4">[</span><span class="w">
+    </span><span class="p" data-group-id="5305603332-5">[</span><span class="o">-</span><span class="mf">1.1250841617584229</span><span class="p" data-group-id="5305603332-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="p" data-group-id="5305603332-6">[</span><span class="o">-</span><span class="mf">1.161189317703247</span><span class="p" data-group-id="5305603332-6">]</span><span class="w">
+  </span><span class="p" data-group-id="5305603332-4">]</span><span class="w">
+</span><span class="p" data-group-id="5305603332-1">&gt;</span></code></pre><p>It's important that you know which mode your model's were compiled for, as running a model built in <code class="inline">:inference</code> mode will behave drastically different than a model built in <code class="inline">:train</code> mode.</p><h2 id="executing-models-in-training-mode" class="section-heading">
   <a href="#executing-models-in-training-mode" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Executing models in training mode</span>
 </h2>
-<p>By specifying <code class="inline">mode: :train</code>, you tell your models to execute in training mode. You can see the effects of this behavior here:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="6942038874-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="6942038874-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="6942038874-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="6942038874-2">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="6942038874-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6942038874-4">%{</span><span class="p" data-group-id="6942038874-4">}</span><span class="p" data-group-id="6942038874-3">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="6942038874-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="6942038874-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4534886940-1">%{</span><span class="w">
-  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4534886940-2">#</span><span class="nc" data-group-id="4534886940-2">Nx.Tensor</span><span class="p" data-group-id="4534886940-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="4534886940-3">[</span><span class="mi">2</span><span class="p" data-group-id="4534886940-3">]</span><span class="p" data-group-id="4534886940-4">[</span><span class="mi">1</span><span class="p" data-group-id="4534886940-4">]</span><span class="w">
-    </span><span class="p" data-group-id="4534886940-5">[</span><span class="w">
-      </span><span class="p" data-group-id="4534886940-6">[</span><span class="mf">0.0</span><span class="p" data-group-id="4534886940-6">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="4534886940-7">[</span><span class="mf">0.0</span><span class="p" data-group-id="4534886940-7">]</span><span class="w">
-    </span><span class="p" data-group-id="4534886940-5">]</span><span class="w">
-  </span><span class="p" data-group-id="4534886940-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4534886940-8">%{</span><span class="w">
-    </span><span class="s">&quot;dropout_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4534886940-9">%{</span><span class="w">
-      </span><span class="s">&quot;key&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4534886940-10">#</span><span class="nc" data-group-id="4534886940-10">Nx.Tensor</span><span class="p" data-group-id="4534886940-10">&lt;</span><span class="w">
-        </span><span class="n">u32</span><span class="p" data-group-id="4534886940-11">[</span><span class="mi">2</span><span class="p" data-group-id="4534886940-11">]</span><span class="w">
-        </span><span class="p" data-group-id="4534886940-12">[</span><span class="mi">309162766</span><span class="p">,</span><span class="w"> </span><span class="mi">2699730300</span><span class="p" data-group-id="4534886940-12">]</span><span class="w">
-      </span><span class="p" data-group-id="4534886940-10">&gt;</span><span class="w">
-    </span><span class="p" data-group-id="4534886940-9">}</span><span class="w">
-  </span><span class="p" data-group-id="4534886940-8">}</span><span class="w">
-</span><span class="p" data-group-id="4534886940-1">}</span></code></pre><p>First, notice that your model now returns a map with keys <code class="inline">:prediction</code> and <code class="inline">:state</code>. <code class="inline">:prediction</code> contains the actual model prediction, while <code class="inline">:state</code> contains the updated state for any stateful layers such as batch norm. When writing custom training loops, you should extract <code class="inline">:state</code> and use it in conjunction with the updates API to ensure your stateful layers are updated correctly. If your model has stateful layers, <code class="inline">:state</code> will look similar to your model's parameter map:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9844076005-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="9844076005-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9844076005-2">(</span><span class="mi">4</span><span class="p" data-group-id="9844076005-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="9844076005-3">(</span><span class="p" data-group-id="9844076005-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="9844076005-4">(</span><span class="p" data-group-id="9844076005-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9844076005-5">(</span><span class="mi">1</span><span class="p" data-group-id="9844076005-5">)</span><span class="w">
-
-</span><span class="p" data-group-id="9844076005-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="9844076005-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="9844076005-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="9844076005-7">)</span><span class="w">
-</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9844076005-8">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9844076005-9">%{</span><span class="p" data-group-id="9844076005-9">}</span><span class="p" data-group-id="9844076005-8">)</span><span class="w">
-</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="9844076005-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="9844076005-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8640495268-1">%{</span><span class="w">
-  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8640495268-2">#</span><span class="nc" data-group-id="8640495268-2">Nx.Tensor</span><span class="p" data-group-id="8640495268-2">&lt;</span><span class="w">
-    </span><span class="n">f32</span><span class="p" data-group-id="8640495268-3">[</span><span class="mi">2</span><span class="p" data-group-id="8640495268-3">]</span><span class="p" data-group-id="8640495268-4">[</span><span class="mi">1</span><span class="p" data-group-id="8640495268-4">]</span><span class="w">
-    </span><span class="p" data-group-id="8640495268-5">[</span><span class="w">
-      </span><span class="p" data-group-id="8640495268-6">[</span><span class="mf">0.4891311526298523</span><span class="p" data-group-id="8640495268-6">]</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="8640495268-7">[</span><span class="o">-</span><span class="mf">0.4891311228275299</span><span class="p" data-group-id="8640495268-7">]</span><span class="w">
-    </span><span class="p" data-group-id="8640495268-5">]</span><span class="w">
-  </span><span class="p" data-group-id="8640495268-2">&gt;</span><span class="p">,</span><span class="w">
-  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8640495268-8">%{</span><span class="w">
-    </span><span class="s">&quot;batch_norm_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8640495268-9">%{</span><span class="w">
-      </span><span class="s">&quot;mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8640495268-10">#</span><span class="nc" data-group-id="8640495268-10">Nx.Tensor</span><span class="p" data-group-id="8640495268-10">&lt;</span><span class="w">
-        </span><span class="n">f32</span><span class="p" data-group-id="8640495268-11">[</span><span class="mi">4</span><span class="p" data-group-id="8640495268-11">]</span><span class="w">
-        </span><span class="p" data-group-id="8640495268-12">[</span><span class="mf">0.525083601474762</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8689039349555969</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03931800276041031</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0021854371298104525</span><span class="p" data-group-id="8640495268-12">]</span><span class="w">
-      </span><span class="p" data-group-id="8640495268-10">&gt;</span><span class="p">,</span><span class="w">
-      </span><span class="s">&quot;var&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8640495268-13">#</span><span class="nc" data-group-id="8640495268-13">Nx.Tensor</span><span class="p" data-group-id="8640495268-13">&lt;</span><span class="w">
-        </span><span class="n">f32</span><span class="p" data-group-id="8640495268-14">[</span><span class="mi">4</span><span class="p" data-group-id="8640495268-14">]</span><span class="w">
-        </span><span class="p" data-group-id="8640495268-15">[</span><span class="mf">0.13831248879432678</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10107331722974777</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10170891880989075</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10000484436750412</span><span class="p" data-group-id="8640495268-15">]</span><span class="w">
-      </span><span class="p" data-group-id="8640495268-13">&gt;</span><span class="w">
-    </span><span class="p" data-group-id="8640495268-9">}</span><span class="w">
-  </span><span class="p" data-group-id="8640495268-8">}</span><span class="w">
-</span><span class="p" data-group-id="8640495268-1">}</span></code></pre>
+<p>By specifying <code class="inline">mode: :train</code>, you tell your models to execute in training mode. You can see the effects of this behavior here:</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="4989183949-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="4989183949-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="4989183949-2">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="4989183949-2">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="4989183949-3">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4989183949-4">%{</span><span class="p" data-group-id="4989183949-4">}</span><span class="p" data-group-id="4989183949-3">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4989183949-5">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="4989183949-5">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2512675499-1">%{</span><span class="w">
+  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2512675499-2">#</span><span class="nc" data-group-id="2512675499-2">Nx.Tensor</span><span class="p" data-group-id="2512675499-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="2512675499-3">[</span><span class="mi">2</span><span class="p" data-group-id="2512675499-3">]</span><span class="p" data-group-id="2512675499-4">[</span><span class="mi">1</span><span class="p" data-group-id="2512675499-4">]</span><span class="w">
+    </span><span class="p" data-group-id="2512675499-5">[</span><span class="w">
+      </span><span class="p" data-group-id="2512675499-6">[</span><span class="mf">0.0</span><span class="p" data-group-id="2512675499-6">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="2512675499-7">[</span><span class="mf">0.0</span><span class="p" data-group-id="2512675499-7">]</span><span class="w">
+    </span><span class="p" data-group-id="2512675499-5">]</span><span class="w">
+  </span><span class="p" data-group-id="2512675499-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2512675499-8">%{</span><span class="w">
+    </span><span class="s">&quot;dropout_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2512675499-9">%{</span><span class="w">
+      </span><span class="s">&quot;key&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2512675499-10">#</span><span class="nc" data-group-id="2512675499-10">Nx.Tensor</span><span class="p" data-group-id="2512675499-10">&lt;</span><span class="w">
+        </span><span class="n">u32</span><span class="p" data-group-id="2512675499-11">[</span><span class="mi">2</span><span class="p" data-group-id="2512675499-11">]</span><span class="w">
+        </span><span class="p" data-group-id="2512675499-12">[</span><span class="mi">309162766</span><span class="p">,</span><span class="w"> </span><span class="mi">2699730300</span><span class="p" data-group-id="2512675499-12">]</span><span class="w">
+      </span><span class="p" data-group-id="2512675499-10">&gt;</span><span class="w">
+    </span><span class="p" data-group-id="2512675499-9">}</span><span class="w">
+  </span><span class="p" data-group-id="2512675499-8">}</span><span class="w">
+</span><span class="p" data-group-id="2512675499-1">}</span></code></pre><p>First, notice that your model now returns a map with keys <code class="inline">:prediction</code> and <code class="inline">:state</code>. <code class="inline">:prediction</code> contains the actual model prediction, while <code class="inline">:state</code> contains the updated state for any stateful layers such as batch norm. When writing custom training loops, you should extract <code class="inline">:state</code> and use it in conjunction with the updates API to ensure your stateful layers are updated correctly. If your model has stateful layers, <code class="inline">:state</code> will look similar to your model's parameter map:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7585714068-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7585714068-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7585714068-2">(</span><span class="mi">4</span><span class="p" data-group-id="7585714068-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">sigmoid</span><span class="p" data-group-id="7585714068-3">(</span><span class="p" data-group-id="7585714068-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">batch_norm</span><span class="p" data-group-id="7585714068-4">(</span><span class="p" data-group-id="7585714068-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7585714068-5">(</span><span class="mi">1</span><span class="p" data-group-id="7585714068-5">)</span><span class="w">
+
+</span><span class="p" data-group-id="7585714068-6">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="7585714068-6">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="7585714068-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">mode</span><span class="p">:</span><span class="w"> </span><span class="ss">:train</span><span class="p" data-group-id="7585714068-7">)</span><span class="w">
+</span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7585714068-8">(</span><span class="n">inputs</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7585714068-9">%{</span><span class="p" data-group-id="7585714068-9">}</span><span class="p" data-group-id="7585714068-8">)</span><span class="w">
+</span><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7585714068-10">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="n">inputs</span><span class="p" data-group-id="7585714068-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4032388512-1">%{</span><span class="w">
+  </span><span class="ss">prediction</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4032388512-2">#</span><span class="nc" data-group-id="4032388512-2">Nx.Tensor</span><span class="p" data-group-id="4032388512-2">&lt;</span><span class="w">
+    </span><span class="n">f32</span><span class="p" data-group-id="4032388512-3">[</span><span class="mi">2</span><span class="p" data-group-id="4032388512-3">]</span><span class="p" data-group-id="4032388512-4">[</span><span class="mi">1</span><span class="p" data-group-id="4032388512-4">]</span><span class="w">
+    </span><span class="p" data-group-id="4032388512-5">[</span><span class="w">
+      </span><span class="p" data-group-id="4032388512-6">[</span><span class="mf">0.4891311526298523</span><span class="p" data-group-id="4032388512-6">]</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="4032388512-7">[</span><span class="o">-</span><span class="mf">0.4891311228275299</span><span class="p" data-group-id="4032388512-7">]</span><span class="w">
+    </span><span class="p" data-group-id="4032388512-5">]</span><span class="w">
+  </span><span class="p" data-group-id="4032388512-2">&gt;</span><span class="p">,</span><span class="w">
+  </span><span class="ss">state</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4032388512-8">%{</span><span class="w">
+    </span><span class="s">&quot;batch_norm_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4032388512-9">%{</span><span class="w">
+      </span><span class="s">&quot;mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4032388512-10">#</span><span class="nc" data-group-id="4032388512-10">Nx.Tensor</span><span class="p" data-group-id="4032388512-10">&lt;</span><span class="w">
+        </span><span class="n">f32</span><span class="p" data-group-id="4032388512-11">[</span><span class="mi">4</span><span class="p" data-group-id="4032388512-11">]</span><span class="w">
+        </span><span class="p" data-group-id="4032388512-12">[</span><span class="mf">0.525083601474762</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8689039349555969</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03931800276041031</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0021854371298104525</span><span class="p" data-group-id="4032388512-12">]</span><span class="w">
+      </span><span class="p" data-group-id="4032388512-10">&gt;</span><span class="p">,</span><span class="w">
+      </span><span class="s">&quot;var&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4032388512-13">#</span><span class="nc" data-group-id="4032388512-13">Nx.Tensor</span><span class="p" data-group-id="4032388512-13">&lt;</span><span class="w">
+        </span><span class="n">f32</span><span class="p" data-group-id="4032388512-14">[</span><span class="mi">4</span><span class="p" data-group-id="4032388512-14">]</span><span class="w">
+        </span><span class="p" data-group-id="4032388512-15">[</span><span class="mf">0.13831248879432678</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10107331722974777</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10170891880989075</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10000484436750412</span><span class="p" data-group-id="4032388512-15">]</span><span class="w">
+      </span><span class="p" data-group-id="4032388512-13">&gt;</span><span class="w">
+    </span><span class="p" data-group-id="4032388512-9">}</span><span class="w">
+  </span><span class="p" data-group-id="4032388512-8">}</span><span class="w">
+</span><span class="p" data-group-id="4032388512-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/using_loop_event_handlers.html b/using_loop_event_handlers.html
index 399457a0..53f7920c 100644
--- a/using_loop_event_handlers.html
+++ b/using_loop_event_handlers.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,15 +136,15 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6152062879-1">(</span><span class="p" data-group-id="6152062879-2">[</span><span class="w">
-  </span><span class="p" data-group-id="6152062879-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="6152062879-3">}</span><span class="w">
-</span><span class="p" data-group-id="6152062879-2">]</span><span class="p" data-group-id="6152062879-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="adding-event-handlers-to-training-loops" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="2002612199-1">(</span><span class="p" data-group-id="2002612199-2">[</span><span class="w">
+  </span><span class="p" data-group-id="2002612199-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="2002612199-3">}</span><span class="w">
+</span><span class="p" data-group-id="2002612199-2">]</span><span class="p" data-group-id="2002612199-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="adding-event-handlers-to-training-loops" class="section-heading">
   <a href="#adding-event-handlers-to-training-loops" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Adding event handlers to training loops</span>
 </h2>
-<p>Often times you want more fine-grained control over things that happen during loop execution. For example, you might want to save loop state to a file every 500 iterations, or log some output to <code class="inline">:stdout</code> at the end of every epoch. Axon loops allow more fine-grained control via events and event handlers.</p><p>Axon fires a number of events during loop execution which allow you to instrument various points in the loop execution cycle. You can attach event handlers to any of these events:</p><!-- livebook:{"force_markdown":true} --><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="9747002944-1">[</span><span class="w">
+<p>Often times you want more fine-grained control over things that happen during loop execution. For example, you might want to save loop state to a file every 500 iterations, or log some output to <code class="inline">:stdout</code> at the end of every epoch. Axon loops allow more fine-grained control via events and event handlers.</p><p>Axon fires a number of events during loop execution which allow you to instrument various points in the loop execution cycle. You can attach event handlers to any of these events:</p><!-- livebook:{"force_markdown":true} --><pre><code class="makeup elixir" translate="no"><span class="n">events</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p" data-group-id="4574730713-1">[</span><span class="w">
   </span><span class="ss">:started</span><span class="p">,</span><span class="w">             </span><span class="c1"># After loop state initialization</span><span class="w">
   </span><span class="ss">:epoch_started</span><span class="p">,</span><span class="w">       </span><span class="c1"># On epoch start</span><span class="w">
   </span><span class="ss">:iteration_started</span><span class="p">,</span><span class="w">   </span><span class="c1"># On iteration start</span><span class="w">
@@ -153,107 +153,107 @@ <h1>
   </span><span class="ss">:epoch_halted</span><span class="p">,</span><span class="w">        </span><span class="c1"># On epoch halt, if early halted</span><span class="w">
   </span><span class="ss">:halted</span><span class="p">,</span><span class="w">              </span><span class="c1"># On loop halt, if early halted</span><span class="w">
   </span><span class="ss">:completed</span><span class="w">            </span><span class="c1"># On loop completion</span><span class="w">
-</span><span class="p" data-group-id="9747002944-1">]</span></code></pre><p>Axon packages a number of common loop event handlers for you out of the box. These handlers should cover most of the common event handlers you would need to write in practice. Axon also allows for custom event handlers. See <a href="writing_custom_event_handlers.html">Writing custom event handlers</a> for more information.</p><p>An event handler will take the current loop state at the time of the fired event, and alter or use it in someway before returning control back to the main loop execution. You can attach any of Axon's pre-packaged event handlers to a loop by using the function directly. For example, if you want to checkpoint loop state at the end of every epoch, you can use <a href="Axon.Loop.html#checkpoint/2"><code class="inline">Axon.Loop.checkpoint/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3878532343-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3878532343-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3878532343-2">(</span><span class="mi">8</span><span class="p" data-group-id="3878532343-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3878532343-3">(</span><span class="p" data-group-id="3878532343-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3878532343-4">(</span><span class="mi">4</span><span class="p" data-group-id="3878532343-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3878532343-5">(</span><span class="p" data-group-id="3878532343-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3878532343-6">(</span><span class="mi">1</span><span class="p" data-group-id="3878532343-6">)</span><span class="w">
+</span><span class="p" data-group-id="4574730713-1">]</span></code></pre><p>Axon packages a number of common loop event handlers for you out of the box. These handlers should cover most of the common event handlers you would need to write in practice. Axon also allows for custom event handlers. See <a href="writing_custom_event_handlers.html">Writing custom event handlers</a> for more information.</p><p>An event handler will take the current loop state at the time of the fired event, and alter or use it in someway before returning control back to the main loop execution. You can attach any of Axon's pre-packaged event handlers to a loop by using the function directly. For example, if you want to checkpoint loop state at the end of every epoch, you can use <a href="Axon.Loop.html#checkpoint/2"><code class="inline">Axon.Loop.checkpoint/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8728864568-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8728864568-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8728864568-2">(</span><span class="mi">8</span><span class="p" data-group-id="8728864568-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8728864568-3">(</span><span class="p" data-group-id="8728864568-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8728864568-4">(</span><span class="mi">4</span><span class="p" data-group-id="8728864568-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8728864568-5">(</span><span class="p" data-group-id="8728864568-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8728864568-6">(</span><span class="mi">1</span><span class="p" data-group-id="8728864568-6">)</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3878532343-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="3878532343-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="3878532343-8">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p" data-group-id="3878532343-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5760844902-1">#</span><span class="nc" data-group-id="5760844902-1">Axon.Loop</span><span class="p" data-group-id="5760844902-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-2">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5760844902-3">{</span><span class="p" data-group-id="5760844902-4">#</span><span class="nc" data-group-id="5760844902-4">Function</span><span class="p" data-group-id="5760844902-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5760844902-4">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="5760844902-5">#</span><span class="nc" data-group-id="5760844902-5">Function</span><span class="p" data-group-id="5760844902-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5760844902-5">&gt;</span><span class="p" data-group-id="5760844902-3">}</span><span class="w">
-  </span><span class="p" data-group-id="5760844902-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-6">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-7">[</span><span class="p" data-group-id="5760844902-7">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-8">[</span><span class="w">
-      </span><span class="p" data-group-id="5760844902-9">{</span><span class="p" data-group-id="5760844902-10">#</span><span class="nc" data-group-id="5760844902-10">Function</span><span class="p" data-group-id="5760844902-10">&lt;</span><span class="mf">17.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="5760844902-10">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="5760844902-11">#</span><span class="nc" data-group-id="5760844902-11">Function</span><span class="p" data-group-id="5760844902-11">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5760844902-11">&gt;</span><span class="p" data-group-id="5760844902-9">}</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="5760844902-12">{</span><span class="p" data-group-id="5760844902-13">#</span><span class="nc" data-group-id="5760844902-13">Function</span><span class="p" data-group-id="5760844902-13">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5760844902-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="5760844902-14">#</span><span class="nc" data-group-id="5760844902-14">Function</span><span class="p" data-group-id="5760844902-14">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5760844902-14">&gt;</span><span class="p" data-group-id="5760844902-12">}</span><span class="w">
-    </span><span class="p" data-group-id="5760844902-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-15">[</span><span class="p" data-group-id="5760844902-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-16">[</span><span class="p" data-group-id="5760844902-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-17">[</span><span class="p" data-group-id="5760844902-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-18">[</span><span class="w">
-      </span><span class="p" data-group-id="5760844902-19">{</span><span class="p" data-group-id="5760844902-20">#</span><span class="nc" data-group-id="5760844902-20">Function</span><span class="p" data-group-id="5760844902-20">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5760844902-20">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="5760844902-21">#</span><span class="nc" data-group-id="5760844902-21">Function</span><span class="p" data-group-id="5760844902-21">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5760844902-21">&gt;</span><span class="p" data-group-id="5760844902-19">}</span><span class="w">
-    </span><span class="p" data-group-id="5760844902-18">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-22">[</span><span class="p" data-group-id="5760844902-22">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5760844902-23">[</span><span class="p" data-group-id="5760844902-23">]</span><span class="w">
-  </span><span class="p" data-group-id="5760844902-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8728864568-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8728864568-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="8728864568-8">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p" data-group-id="8728864568-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7181248119-1">#</span><span class="nc" data-group-id="7181248119-1">Axon.Loop</span><span class="p" data-group-id="7181248119-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-2">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7181248119-3">{</span><span class="p" data-group-id="7181248119-4">#</span><span class="nc" data-group-id="7181248119-4">Function</span><span class="p" data-group-id="7181248119-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7181248119-4">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="7181248119-5">#</span><span class="nc" data-group-id="7181248119-5">Function</span><span class="p" data-group-id="7181248119-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7181248119-5">&gt;</span><span class="p" data-group-id="7181248119-3">}</span><span class="w">
+  </span><span class="p" data-group-id="7181248119-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-6">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-7">[</span><span class="p" data-group-id="7181248119-7">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-8">[</span><span class="w">
+      </span><span class="p" data-group-id="7181248119-9">{</span><span class="p" data-group-id="7181248119-10">#</span><span class="nc" data-group-id="7181248119-10">Function</span><span class="p" data-group-id="7181248119-10">&lt;</span><span class="mf">17.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="7181248119-10">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="7181248119-11">#</span><span class="nc" data-group-id="7181248119-11">Function</span><span class="p" data-group-id="7181248119-11">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7181248119-11">&gt;</span><span class="p" data-group-id="7181248119-9">}</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="7181248119-12">{</span><span class="p" data-group-id="7181248119-13">#</span><span class="nc" data-group-id="7181248119-13">Function</span><span class="p" data-group-id="7181248119-13">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="7181248119-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="7181248119-14">#</span><span class="nc" data-group-id="7181248119-14">Function</span><span class="p" data-group-id="7181248119-14">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7181248119-14">&gt;</span><span class="p" data-group-id="7181248119-12">}</span><span class="w">
+    </span><span class="p" data-group-id="7181248119-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-15">[</span><span class="p" data-group-id="7181248119-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-16">[</span><span class="p" data-group-id="7181248119-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-17">[</span><span class="p" data-group-id="7181248119-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-18">[</span><span class="w">
+      </span><span class="p" data-group-id="7181248119-19">{</span><span class="p" data-group-id="7181248119-20">#</span><span class="nc" data-group-id="7181248119-20">Function</span><span class="p" data-group-id="7181248119-20">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="7181248119-20">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="7181248119-21">#</span><span class="nc" data-group-id="7181248119-21">Function</span><span class="p" data-group-id="7181248119-21">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7181248119-21">&gt;</span><span class="p" data-group-id="7181248119-19">}</span><span class="w">
+    </span><span class="p" data-group-id="7181248119-18">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-22">[</span><span class="p" data-group-id="7181248119-22">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7181248119-23">[</span><span class="p" data-group-id="7181248119-23">]</span><span class="w">
+  </span><span class="p" data-group-id="7181248119-6">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="5760844902-1">&gt;</span></code></pre><p>Now when you execute your loop, it will save a checkpoint at the end of every epoch:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="8260593429-1">(</span><span class="k" data-group-id="8260593429-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="8260593429-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="8260593429-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="8260593429-4">(</span><span class="mi">9999</span><span class="p" data-group-id="8260593429-4">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="8260593429-5">(</span><span class="p" data-group-id="8260593429-5">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="8260593429-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8260593429-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8260593429-7">}</span><span class="p" data-group-id="8260593429-6">)</span><span class="w">
-
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="8260593429-8">(</span><span class="n">xs</span><span class="p" data-group-id="8260593429-8">)</span><span class="w">
-    </span><span class="p" data-group-id="8260593429-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="8260593429-9">}</span><span class="w">
-  </span><span class="k" data-group-id="8260593429-2">end</span><span class="p" data-group-id="8260593429-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8260593429-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8260593429-11">%{</span><span class="p" data-group-id="8260593429-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="8260593429-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5345965</span><span class="w">
+</span><span class="p" data-group-id="7181248119-1">&gt;</span></code></pre><p>Now when you execute your loop, it will save a checkpoint at the end of every epoch:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5621199891-1">(</span><span class="k" data-group-id="5621199891-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="5621199891-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="5621199891-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="5621199891-4">(</span><span class="mi">9999</span><span class="p" data-group-id="5621199891-4">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="5621199891-5">(</span><span class="p" data-group-id="5621199891-5">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="5621199891-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5621199891-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5621199891-7">}</span><span class="p" data-group-id="5621199891-6">)</span><span class="w">
+
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="5621199891-8">(</span><span class="n">xs</span><span class="p" data-group-id="5621199891-8">)</span><span class="w">
+    </span><span class="p" data-group-id="5621199891-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="5621199891-9">}</span><span class="w">
+  </span><span class="k" data-group-id="5621199891-2">end</span><span class="p" data-group-id="5621199891-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5621199891-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5621199891-11">%{</span><span class="p" data-group-id="5621199891-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="5621199891-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.5345965</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.4578816</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.4527244</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.4466343</span><span class="w">
-</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.4401709</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1410242369-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-3">#</span><span class="nc" data-group-id="1410242369-3">Nx.Tensor</span><span class="p" data-group-id="1410242369-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1410242369-4">[</span><span class="mi">8</span><span class="p" data-group-id="1410242369-4">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-5">[</span><span class="o">-</span><span class="mf">0.1074252650141716</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0033432210329920053</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08044778555631638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0016452680574730039</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.01557128969579935</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.061440952122211456</span><span class="p">,</span><span class="w"> </span><span class="mf">0.061030879616737366</span><span class="p">,</span><span class="w"> </span><span class="mf">0.012781506404280663</span><span class="p" data-group-id="1410242369-5">]</span><span class="w">
-    </span><span class="p" data-group-id="1410242369-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-6">#</span><span class="nc" data-group-id="1410242369-6">Nx.Tensor</span><span class="p" data-group-id="1410242369-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1410242369-7">[</span><span class="mi">1</span><span class="p" data-group-id="1410242369-7">]</span><span class="p" data-group-id="1410242369-8">[</span><span class="mi">8</span><span class="p" data-group-id="1410242369-8">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-9">[</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-10">[</span><span class="o">-</span><span class="mf">0.3504936695098877</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6722151041030884</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5550820231437683</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05254736915230751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7404129505157471</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24307608604431152</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7073894739151001</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6447222828865051</span><span class="p" data-group-id="1410242369-10">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-9">]</span><span class="w">
-    </span><span class="p" data-group-id="1410242369-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1410242369-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-12">#</span><span class="nc" data-group-id="1410242369-12">Nx.Tensor</span><span class="p" data-group-id="1410242369-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1410242369-13">[</span><span class="mi">4</span><span class="p" data-group-id="1410242369-13">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-14">[</span><span class="o">-</span><span class="mf">0.19830459356307983</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04925372824072838</span><span class="p" data-group-id="1410242369-14">]</span><span class="w">
-    </span><span class="p" data-group-id="1410242369-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-15">#</span><span class="nc" data-group-id="1410242369-15">Nx.Tensor</span><span class="p" data-group-id="1410242369-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1410242369-16">[</span><span class="mi">8</span><span class="p" data-group-id="1410242369-16">]</span><span class="p" data-group-id="1410242369-17">[</span><span class="mi">4</span><span class="p" data-group-id="1410242369-17">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-18">[</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-19">[</span><span class="mf">0.4873020648956299</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3363800644874573</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6058675050735474</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47888076305389404</span><span class="p" data-group-id="1410242369-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-20">[</span><span class="o">-</span><span class="mf">0.18936580419540405</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5579301714897156</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49217337369918823</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04828363656997681</span><span class="p" data-group-id="1410242369-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-21">[</span><span class="mf">0.3202762305736542</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.033479928970336914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11928367614746094</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5225698351860046</span><span class="p" data-group-id="1410242369-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-22">[</span><span class="mf">0.3883931040763855</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07413274049758911</span><span class="p">,</span><span class="w"> </span><span class="mf">0.548823893070221</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03494540974497795</span><span class="p" data-group-id="1410242369-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-23">[</span><span class="o">-</span><span class="mf">0.2598196268081665</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4546756446361542</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5866180062294006</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2946240305900574</span><span class="p" data-group-id="1410242369-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-24">[</span><span class="mf">0.2722054719924927</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5802338123321533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4854300618171692</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5049118399620056</span><span class="p" data-group-id="1410242369-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-25">[</span><span class="o">-</span><span class="mf">0.415179044008255</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5426293611526489</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1631108522415161</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6544353365898132</span><span class="p" data-group-id="1410242369-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-26">[</span><span class="o">-</span><span class="mf">0.3079695403575897</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09391731023788452</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.40262123942375183</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27837851643562317</span><span class="p" data-group-id="1410242369-26">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-18">]</span><span class="w">
-    </span><span class="p" data-group-id="1410242369-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1410242369-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-28">#</span><span class="nc" data-group-id="1410242369-28">Nx.Tensor</span><span class="p" data-group-id="1410242369-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1410242369-29">[</span><span class="mi">1</span><span class="p" data-group-id="1410242369-29">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-30">[</span><span class="mf">0.016238097101449966</span><span class="p" data-group-id="1410242369-30">]</span><span class="w">
-    </span><span class="p" data-group-id="1410242369-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1410242369-31">#</span><span class="nc" data-group-id="1410242369-31">Nx.Tensor</span><span class="p" data-group-id="1410242369-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1410242369-32">[</span><span class="mi">4</span><span class="p" data-group-id="1410242369-32">]</span><span class="p" data-group-id="1410242369-33">[</span><span class="mi">1</span><span class="p" data-group-id="1410242369-33">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-34">[</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-35">[</span><span class="mf">0.3102125823497772</span><span class="p" data-group-id="1410242369-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-36">[</span><span class="o">-</span><span class="mf">1.078292727470398</span><span class="p" data-group-id="1410242369-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-37">[</span><span class="mf">0.7910841703414917</span><span class="p" data-group-id="1410242369-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1410242369-38">[</span><span class="mf">0.014510140754282475</span><span class="p" data-group-id="1410242369-38">]</span><span class="w">
-      </span><span class="p" data-group-id="1410242369-34">]</span><span class="w">
-    </span><span class="p" data-group-id="1410242369-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1410242369-27">}</span><span class="w">
-</span><span class="p" data-group-id="1410242369-1">}</span></code></pre><p>You can also use event handlers for things as simple as implementing custom logging with the pre-packaged <code class="inline">Axon.Loop.log/4</code> event handler:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1984514942-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="1984514942-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="p" data-group-id="1984514942-2">(</span><span class="k" data-group-id="1984514942-3">fn</span><span class="w"> </span><span class="c">_state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="s">&quot;epoch is over</span><span class="se">\n</span><span class="s">&quot;</span><span class="w"> </span><span class="k" data-group-id="1984514942-3">end</span><span class="p">,</span><span class="w"> </span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">device</span><span class="p">:</span><span class="w"> </span><span class="ss">:stdio</span><span class="p" data-group-id="1984514942-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="1984514942-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="1984514942-5">%{</span><span class="p" data-group-id="1984514942-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="1984514942-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3220241</span><span class="w">
+</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.4401709</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0282434647-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-3">#</span><span class="nc" data-group-id="0282434647-3">Nx.Tensor</span><span class="p" data-group-id="0282434647-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0282434647-4">[</span><span class="mi">8</span><span class="p" data-group-id="0282434647-4">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-5">[</span><span class="o">-</span><span class="mf">0.1074252650141716</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0033432210329920053</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08044778555631638</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0016452680574730039</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.01557128969579935</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.061440952122211456</span><span class="p">,</span><span class="w"> </span><span class="mf">0.061030879616737366</span><span class="p">,</span><span class="w"> </span><span class="mf">0.012781506404280663</span><span class="p" data-group-id="0282434647-5">]</span><span class="w">
+    </span><span class="p" data-group-id="0282434647-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-6">#</span><span class="nc" data-group-id="0282434647-6">Nx.Tensor</span><span class="p" data-group-id="0282434647-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0282434647-7">[</span><span class="mi">1</span><span class="p" data-group-id="0282434647-7">]</span><span class="p" data-group-id="0282434647-8">[</span><span class="mi">8</span><span class="p" data-group-id="0282434647-8">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-9">[</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-10">[</span><span class="o">-</span><span class="mf">0.3504936695098877</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6722151041030884</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5550820231437683</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05254736915230751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7404129505157471</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24307608604431152</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7073894739151001</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6447222828865051</span><span class="p" data-group-id="0282434647-10">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-9">]</span><span class="w">
+    </span><span class="p" data-group-id="0282434647-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0282434647-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-12">#</span><span class="nc" data-group-id="0282434647-12">Nx.Tensor</span><span class="p" data-group-id="0282434647-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0282434647-13">[</span><span class="mi">4</span><span class="p" data-group-id="0282434647-13">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-14">[</span><span class="o">-</span><span class="mf">0.19830459356307983</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04925372824072838</span><span class="p" data-group-id="0282434647-14">]</span><span class="w">
+    </span><span class="p" data-group-id="0282434647-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-15">#</span><span class="nc" data-group-id="0282434647-15">Nx.Tensor</span><span class="p" data-group-id="0282434647-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0282434647-16">[</span><span class="mi">8</span><span class="p" data-group-id="0282434647-16">]</span><span class="p" data-group-id="0282434647-17">[</span><span class="mi">4</span><span class="p" data-group-id="0282434647-17">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-18">[</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-19">[</span><span class="mf">0.4873020648956299</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3363800644874573</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6058675050735474</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.47888076305389404</span><span class="p" data-group-id="0282434647-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-20">[</span><span class="o">-</span><span class="mf">0.18936580419540405</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5579301714897156</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.49217337369918823</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04828363656997681</span><span class="p" data-group-id="0282434647-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-21">[</span><span class="mf">0.3202762305736542</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.033479928970336914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11928367614746094</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5225698351860046</span><span class="p" data-group-id="0282434647-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-22">[</span><span class="mf">0.3883931040763855</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07413274049758911</span><span class="p">,</span><span class="w"> </span><span class="mf">0.548823893070221</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03494540974497795</span><span class="p" data-group-id="0282434647-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-23">[</span><span class="o">-</span><span class="mf">0.2598196268081665</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4546756446361542</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5866180062294006</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2946240305900574</span><span class="p" data-group-id="0282434647-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-24">[</span><span class="mf">0.2722054719924927</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5802338123321533</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4854300618171692</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5049118399620056</span><span class="p" data-group-id="0282434647-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-25">[</span><span class="o">-</span><span class="mf">0.415179044008255</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5426293611526489</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1631108522415161</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6544353365898132</span><span class="p" data-group-id="0282434647-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-26">[</span><span class="o">-</span><span class="mf">0.3079695403575897</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09391731023788452</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.40262123942375183</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27837851643562317</span><span class="p" data-group-id="0282434647-26">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-18">]</span><span class="w">
+    </span><span class="p" data-group-id="0282434647-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0282434647-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-28">#</span><span class="nc" data-group-id="0282434647-28">Nx.Tensor</span><span class="p" data-group-id="0282434647-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0282434647-29">[</span><span class="mi">1</span><span class="p" data-group-id="0282434647-29">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-30">[</span><span class="mf">0.016238097101449966</span><span class="p" data-group-id="0282434647-30">]</span><span class="w">
+    </span><span class="p" data-group-id="0282434647-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0282434647-31">#</span><span class="nc" data-group-id="0282434647-31">Nx.Tensor</span><span class="p" data-group-id="0282434647-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0282434647-32">[</span><span class="mi">4</span><span class="p" data-group-id="0282434647-32">]</span><span class="p" data-group-id="0282434647-33">[</span><span class="mi">1</span><span class="p" data-group-id="0282434647-33">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-34">[</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-35">[</span><span class="mf">0.3102125823497772</span><span class="p" data-group-id="0282434647-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-36">[</span><span class="o">-</span><span class="mf">1.078292727470398</span><span class="p" data-group-id="0282434647-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-37">[</span><span class="mf">0.7910841703414917</span><span class="p" data-group-id="0282434647-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0282434647-38">[</span><span class="mf">0.014510140754282475</span><span class="p" data-group-id="0282434647-38">]</span><span class="w">
+      </span><span class="p" data-group-id="0282434647-34">]</span><span class="w">
+    </span><span class="p" data-group-id="0282434647-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0282434647-27">}</span><span class="w">
+</span><span class="p" data-group-id="0282434647-1">}</span></code></pre><p>You can also use event handlers for things as simple as implementing custom logging with the pre-packaged <code class="inline">Axon.Loop.log/4</code> event handler:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9718562300-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9718562300-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="p" data-group-id="9718562300-2">(</span><span class="k" data-group-id="9718562300-3">fn</span><span class="w"> </span><span class="c">_state</span><span class="w"> </span><span class="o">-&gt;</span><span class="w"> </span><span class="s">&quot;epoch is over</span><span class="se">\n</span><span class="s">&quot;</span><span class="w"> </span><span class="k" data-group-id="9718562300-3">end</span><span class="p">,</span><span class="w"> </span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">device</span><span class="p">:</span><span class="w"> </span><span class="ss">:stdio</span><span class="p" data-group-id="9718562300-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9718562300-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9718562300-5">%{</span><span class="p" data-group-id="9718562300-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="9718562300-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3220241</span><span class="w">
 </span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2309804</span><span class="w">
 </span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span><span class="w">
@@ -262,108 +262,108 @@ <h1>
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1457551</span><span class="w">
 </span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1247821</span><span class="w">
-</span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4706705620-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-3">#</span><span class="nc" data-group-id="4706705620-3">Nx.Tensor</span><span class="p" data-group-id="4706705620-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4706705620-4">[</span><span class="mi">8</span><span class="p" data-group-id="4706705620-4">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-5">[</span><span class="mf">0.01846296526491642</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0016654117498546839</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39859917759895325</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21187178790569305</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08815062046051025</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11071830987930298</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06280634552240372</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11682439595460892</span><span class="p" data-group-id="4706705620-5">]</span><span class="w">
-    </span><span class="p" data-group-id="4706705620-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-6">#</span><span class="nc" data-group-id="4706705620-6">Nx.Tensor</span><span class="p" data-group-id="4706705620-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4706705620-7">[</span><span class="mi">1</span><span class="p" data-group-id="4706705620-7">]</span><span class="p" data-group-id="4706705620-8">[</span><span class="mi">8</span><span class="p" data-group-id="4706705620-8">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-9">[</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-10">[</span><span class="mf">0.08840499818325043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44253841042518616</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6063749194145203</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1487167924642563</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24857401847839355</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1697462797164917</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5370600819587708</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1658734828233719</span><span class="p" data-group-id="4706705620-10">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-9">]</span><span class="w">
-    </span><span class="p" data-group-id="4706705620-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4706705620-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-12">#</span><span class="nc" data-group-id="4706705620-12">Nx.Tensor</span><span class="p" data-group-id="4706705620-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4706705620-13">[</span><span class="mi">4</span><span class="p" data-group-id="4706705620-13">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-14">[</span><span class="o">-</span><span class="mf">0.08111556619405746</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32310858368873596</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.059386227279901505</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09515857696533203</span><span class="p" data-group-id="4706705620-14">]</span><span class="w">
-    </span><span class="p" data-group-id="4706705620-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-15">#</span><span class="nc" data-group-id="4706705620-15">Nx.Tensor</span><span class="p" data-group-id="4706705620-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4706705620-16">[</span><span class="mi">8</span><span class="p" data-group-id="4706705620-16">]</span><span class="p" data-group-id="4706705620-17">[</span><span class="mi">4</span><span class="p" data-group-id="4706705620-17">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-18">[</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-19">[</span><span class="mf">0.6057762503623962</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2633209824562073</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23028653860092163</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2710704505443573</span><span class="p" data-group-id="4706705620-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-20">[</span><span class="mf">0.03961030766367912</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.335278183221817</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16016681492328644</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10653878003358841</span><span class="p" data-group-id="4706705620-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-21">[</span><span class="mf">0.36239713430404663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8330743312835693</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4745633602142334</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29585230350494385</span><span class="p" data-group-id="4706705620-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-22">[</span><span class="o">-</span><span class="mf">0.04394621402025223</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45401355624198914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5953336954116821</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6513576507568359</span><span class="p" data-group-id="4706705620-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-23">[</span><span class="o">-</span><span class="mf">0.6447072625160217</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6225455403327942</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4814218580722809</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6882413625717163</span><span class="p" data-group-id="4706705620-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-24">[</span><span class="o">-</span><span class="mf">0.44460421800613403</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04251839220523834</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4619944095611572</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24515877664089203</span><span class="p" data-group-id="4706705620-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-25">[</span><span class="o">-</span><span class="mf">0.49396005272865295</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08895684778690338</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5212237238883972</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24301064014434814</span><span class="p" data-group-id="4706705620-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-26">[</span><span class="mf">0.3074108958244324</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2640342712402344</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4197620749473572</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05698487162590027</span><span class="p" data-group-id="4706705620-26">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-18">]</span><span class="w">
-    </span><span class="p" data-group-id="4706705620-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4706705620-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-28">#</span><span class="nc" data-group-id="4706705620-28">Nx.Tensor</span><span class="p" data-group-id="4706705620-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4706705620-29">[</span><span class="mi">1</span><span class="p" data-group-id="4706705620-29">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-30">[</span><span class="mf">0.6520459651947021</span><span class="p" data-group-id="4706705620-30">]</span><span class="w">
-    </span><span class="p" data-group-id="4706705620-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4706705620-31">#</span><span class="nc" data-group-id="4706705620-31">Nx.Tensor</span><span class="p" data-group-id="4706705620-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4706705620-32">[</span><span class="mi">4</span><span class="p" data-group-id="4706705620-32">]</span><span class="p" data-group-id="4706705620-33">[</span><span class="mi">1</span><span class="p" data-group-id="4706705620-33">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-34">[</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-35">[</span><span class="mf">0.45083022117614746</span><span class="p" data-group-id="4706705620-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-36">[</span><span class="o">-</span><span class="mf">0.8733288049697876</span><span class="p" data-group-id="4706705620-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-37">[</span><span class="o">-</span><span class="mf">0.1894296556711197</span><span class="p" data-group-id="4706705620-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4706705620-38">[</span><span class="mf">0.030911535024642944</span><span class="p" data-group-id="4706705620-38">]</span><span class="w">
-      </span><span class="p" data-group-id="4706705620-34">]</span><span class="w">
-    </span><span class="p" data-group-id="4706705620-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4706705620-27">}</span><span class="w">
-</span><span class="p" data-group-id="4706705620-1">}</span></code></pre><p>For even more fine-grained control over when event handlers fire, you can add filters. For example, if you only want to checkpoint loop state every 2 epochs, you can use a filter:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6827772481-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="6827772481-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="6827772481-2">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6827772481-3">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="6827772481-3">]</span><span class="p" data-group-id="6827772481-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6827772481-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6827772481-5">%{</span><span class="p" data-group-id="6827772481-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="6827772481-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3180207</span><span class="w">
+</span><span class="n">epoch</span><span class="w"> </span><span class="n">is</span><span class="w"> </span><span class="n">over</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3109623254-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-3">#</span><span class="nc" data-group-id="3109623254-3">Nx.Tensor</span><span class="p" data-group-id="3109623254-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3109623254-4">[</span><span class="mi">8</span><span class="p" data-group-id="3109623254-4">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-5">[</span><span class="mf">0.01846296526491642</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0016654117498546839</span><span class="p">,</span><span class="w"> </span><span class="mf">0.39859917759895325</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21187178790569305</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08815062046051025</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11071830987930298</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06280634552240372</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11682439595460892</span><span class="p" data-group-id="3109623254-5">]</span><span class="w">
+    </span><span class="p" data-group-id="3109623254-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-6">#</span><span class="nc" data-group-id="3109623254-6">Nx.Tensor</span><span class="p" data-group-id="3109623254-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3109623254-7">[</span><span class="mi">1</span><span class="p" data-group-id="3109623254-7">]</span><span class="p" data-group-id="3109623254-8">[</span><span class="mi">8</span><span class="p" data-group-id="3109623254-8">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-9">[</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-10">[</span><span class="mf">0.08840499818325043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.44253841042518616</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6063749194145203</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1487167924642563</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24857401847839355</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1697462797164917</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5370600819587708</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1658734828233719</span><span class="p" data-group-id="3109623254-10">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-9">]</span><span class="w">
+    </span><span class="p" data-group-id="3109623254-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3109623254-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-12">#</span><span class="nc" data-group-id="3109623254-12">Nx.Tensor</span><span class="p" data-group-id="3109623254-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3109623254-13">[</span><span class="mi">4</span><span class="p" data-group-id="3109623254-13">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-14">[</span><span class="o">-</span><span class="mf">0.08111556619405746</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32310858368873596</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.059386227279901505</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09515857696533203</span><span class="p" data-group-id="3109623254-14">]</span><span class="w">
+    </span><span class="p" data-group-id="3109623254-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-15">#</span><span class="nc" data-group-id="3109623254-15">Nx.Tensor</span><span class="p" data-group-id="3109623254-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3109623254-16">[</span><span class="mi">8</span><span class="p" data-group-id="3109623254-16">]</span><span class="p" data-group-id="3109623254-17">[</span><span class="mi">4</span><span class="p" data-group-id="3109623254-17">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-18">[</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-19">[</span><span class="mf">0.6057762503623962</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2633209824562073</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23028653860092163</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2710704505443573</span><span class="p" data-group-id="3109623254-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-20">[</span><span class="mf">0.03961030766367912</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.335278183221817</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16016681492328644</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10653878003358841</span><span class="p" data-group-id="3109623254-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-21">[</span><span class="mf">0.36239713430404663</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8330743312835693</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4745633602142334</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.29585230350494385</span><span class="p" data-group-id="3109623254-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-22">[</span><span class="o">-</span><span class="mf">0.04394621402025223</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45401355624198914</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5953336954116821</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6513576507568359</span><span class="p" data-group-id="3109623254-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-23">[</span><span class="o">-</span><span class="mf">0.6447072625160217</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6225455403327942</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4814218580722809</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6882413625717163</span><span class="p" data-group-id="3109623254-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-24">[</span><span class="o">-</span><span class="mf">0.44460421800613403</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04251839220523834</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4619944095611572</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24515877664089203</span><span class="p" data-group-id="3109623254-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-25">[</span><span class="o">-</span><span class="mf">0.49396005272865295</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08895684778690338</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5212237238883972</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24301064014434814</span><span class="p" data-group-id="3109623254-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-26">[</span><span class="mf">0.3074108958244324</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2640342712402344</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4197620749473572</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05698487162590027</span><span class="p" data-group-id="3109623254-26">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-18">]</span><span class="w">
+    </span><span class="p" data-group-id="3109623254-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3109623254-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-28">#</span><span class="nc" data-group-id="3109623254-28">Nx.Tensor</span><span class="p" data-group-id="3109623254-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3109623254-29">[</span><span class="mi">1</span><span class="p" data-group-id="3109623254-29">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-30">[</span><span class="mf">0.6520459651947021</span><span class="p" data-group-id="3109623254-30">]</span><span class="w">
+    </span><span class="p" data-group-id="3109623254-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3109623254-31">#</span><span class="nc" data-group-id="3109623254-31">Nx.Tensor</span><span class="p" data-group-id="3109623254-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3109623254-32">[</span><span class="mi">4</span><span class="p" data-group-id="3109623254-32">]</span><span class="p" data-group-id="3109623254-33">[</span><span class="mi">1</span><span class="p" data-group-id="3109623254-33">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-34">[</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-35">[</span><span class="mf">0.45083022117614746</span><span class="p" data-group-id="3109623254-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-36">[</span><span class="o">-</span><span class="mf">0.8733288049697876</span><span class="p" data-group-id="3109623254-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-37">[</span><span class="o">-</span><span class="mf">0.1894296556711197</span><span class="p" data-group-id="3109623254-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3109623254-38">[</span><span class="mf">0.030911535024642944</span><span class="p" data-group-id="3109623254-38">]</span><span class="w">
+      </span><span class="p" data-group-id="3109623254-34">]</span><span class="w">
+    </span><span class="p" data-group-id="3109623254-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3109623254-27">}</span><span class="w">
+</span><span class="p" data-group-id="3109623254-1">}</span></code></pre><p>For even more fine-grained control over when event handlers fire, you can add filters. For example, if you only want to checkpoint loop state every 2 epochs, you can use a filter:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7831255235-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7831255235-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">checkpoint</span><span class="p" data-group-id="7831255235-2">(</span><span class="ss">event</span><span class="p">:</span><span class="w"> </span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="ss">filter</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7831255235-3">[</span><span class="ss">every</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="7831255235-3">]</span><span class="p" data-group-id="7831255235-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7831255235-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7831255235-5">%{</span><span class="p" data-group-id="7831255235-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="7831255235-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.3180207</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1975918</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1353940</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1055405</span><span class="w">
-</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0890203</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4355175544-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-3">#</span><span class="nc" data-group-id="4355175544-3">Nx.Tensor</span><span class="p" data-group-id="4355175544-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4355175544-4">[</span><span class="mi">8</span><span class="p" data-group-id="4355175544-4">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-5">[</span><span class="mf">0.047411054372787476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1582564115524292</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.027924394235014915</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1774083375930786</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09764095395803452</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1040089949965477</span><span class="p">,</span><span class="w"> </span><span class="mf">0.006841400172561407</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11682236939668655</span><span class="p" data-group-id="4355175544-5">]</span><span class="w">
-    </span><span class="p" data-group-id="4355175544-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-6">#</span><span class="nc" data-group-id="4355175544-6">Nx.Tensor</span><span class="p" data-group-id="4355175544-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4355175544-7">[</span><span class="mi">1</span><span class="p" data-group-id="4355175544-7">]</span><span class="p" data-group-id="4355175544-8">[</span><span class="mi">8</span><span class="p" data-group-id="4355175544-8">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-9">[</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-10">[</span><span class="mf">0.20366023480892181</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7318703532218933</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.028611917048692703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5324040055274963</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6856501698493958</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21694214642047882</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3281741738319397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13051153719425201</span><span class="p" data-group-id="4355175544-10">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-9">]</span><span class="w">
-    </span><span class="p" data-group-id="4355175544-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4355175544-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-12">#</span><span class="nc" data-group-id="4355175544-12">Nx.Tensor</span><span class="p" data-group-id="4355175544-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4355175544-13">[</span><span class="mi">4</span><span class="p" data-group-id="4355175544-13">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-14">[</span><span class="mf">0.1859581470489502</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3360026180744171</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24061667919158936</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.016354668885469437</span><span class="p" data-group-id="4355175544-14">]</span><span class="w">
-    </span><span class="p" data-group-id="4355175544-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-15">#</span><span class="nc" data-group-id="4355175544-15">Nx.Tensor</span><span class="p" data-group-id="4355175544-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4355175544-16">[</span><span class="mi">8</span><span class="p" data-group-id="4355175544-16">]</span><span class="p" data-group-id="4355175544-17">[</span><span class="mi">4</span><span class="p" data-group-id="4355175544-17">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-18">[</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-19">[</span><span class="mf">0.07366377860307693</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3261552155017853</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6951385140419006</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4232194125652313</span><span class="p" data-group-id="4355175544-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-20">[</span><span class="mf">0.7334840893745422</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17827139794826508</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6411628127098083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41898131370544434</span><span class="p" data-group-id="4355175544-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-21">[</span><span class="mf">0.4770638346672058</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4738321304321289</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5755389332771301</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30976954102516174</span><span class="p" data-group-id="4355175544-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-22">[</span><span class="o">-</span><span class="mf">0.498087614774704</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10546410828828812</span><span class="p">,</span><span class="w"> </span><span class="mf">0.690037190914154</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5016340613365173</span><span class="p" data-group-id="4355175544-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-23">[</span><span class="mf">0.17509347200393677</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4518563449382782</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10358063131570816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2223401516675949</span><span class="p" data-group-id="4355175544-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-24">[</span><span class="mf">0.6422480344772339</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19363932311534882</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2870054543018341</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1483648419380188</span><span class="p" data-group-id="4355175544-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-25">[</span><span class="o">-</span><span class="mf">0.10362248122692108</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7047968506813049</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02847556211054325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18464618921279907</span><span class="p" data-group-id="4355175544-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-26">[</span><span class="o">-</span><span class="mf">0.6756409406661987</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.42686882615089417</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5484509468078613</span><span class="p">,</span><span class="w"> </span><span class="mf">0.596512496471405</span><span class="p" data-group-id="4355175544-26">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-18">]</span><span class="w">
-    </span><span class="p" data-group-id="4355175544-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4355175544-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-28">#</span><span class="nc" data-group-id="4355175544-28">Nx.Tensor</span><span class="p" data-group-id="4355175544-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4355175544-29">[</span><span class="mi">1</span><span class="p" data-group-id="4355175544-29">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-30">[</span><span class="mf">0.23296000063419342</span><span class="p" data-group-id="4355175544-30">]</span><span class="w">
-    </span><span class="p" data-group-id="4355175544-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4355175544-31">#</span><span class="nc" data-group-id="4355175544-31">Nx.Tensor</span><span class="p" data-group-id="4355175544-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4355175544-32">[</span><span class="mi">4</span><span class="p" data-group-id="4355175544-32">]</span><span class="p" data-group-id="4355175544-33">[</span><span class="mi">1</span><span class="p" data-group-id="4355175544-33">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-34">[</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-35">[</span><span class="mf">0.48827823996543884</span><span class="p" data-group-id="4355175544-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-36">[</span><span class="o">-</span><span class="mf">0.7908728122711182</span><span class="p" data-group-id="4355175544-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-37">[</span><span class="o">-</span><span class="mf">0.5326805114746094</span><span class="p" data-group-id="4355175544-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4355175544-38">[</span><span class="mf">0.3789232671260834</span><span class="p" data-group-id="4355175544-38">]</span><span class="w">
-      </span><span class="p" data-group-id="4355175544-34">]</span><span class="w">
-    </span><span class="p" data-group-id="4355175544-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4355175544-27">}</span><span class="w">
-</span><span class="p" data-group-id="4355175544-1">}</span></code></pre><p>Axon event handlers support both keyword and function filters. Keyword filters include keywords such as <code class="inline">:every</code>, <code class="inline">:once</code>, and <code class="inline">:always</code>. Function filters are arity-1 functions which accept the current loop state and return a boolean.</p>
+</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0890203</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4774415378-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-3">#</span><span class="nc" data-group-id="4774415378-3">Nx.Tensor</span><span class="p" data-group-id="4774415378-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4774415378-4">[</span><span class="mi">8</span><span class="p" data-group-id="4774415378-4">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-5">[</span><span class="mf">0.047411054372787476</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1582564115524292</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.027924394235014915</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1774083375930786</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09764095395803452</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1040089949965477</span><span class="p">,</span><span class="w"> </span><span class="mf">0.006841400172561407</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11682236939668655</span><span class="p" data-group-id="4774415378-5">]</span><span class="w">
+    </span><span class="p" data-group-id="4774415378-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-6">#</span><span class="nc" data-group-id="4774415378-6">Nx.Tensor</span><span class="p" data-group-id="4774415378-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4774415378-7">[</span><span class="mi">1</span><span class="p" data-group-id="4774415378-7">]</span><span class="p" data-group-id="4774415378-8">[</span><span class="mi">8</span><span class="p" data-group-id="4774415378-8">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-9">[</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-10">[</span><span class="mf">0.20366023480892181</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7318703532218933</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.028611917048692703</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5324040055274963</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6856501698493958</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21694214642047882</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3281741738319397</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13051153719425201</span><span class="p" data-group-id="4774415378-10">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-9">]</span><span class="w">
+    </span><span class="p" data-group-id="4774415378-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4774415378-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-12">#</span><span class="nc" data-group-id="4774415378-12">Nx.Tensor</span><span class="p" data-group-id="4774415378-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4774415378-13">[</span><span class="mi">4</span><span class="p" data-group-id="4774415378-13">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-14">[</span><span class="mf">0.1859581470489502</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3360026180744171</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24061667919158936</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.016354668885469437</span><span class="p" data-group-id="4774415378-14">]</span><span class="w">
+    </span><span class="p" data-group-id="4774415378-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-15">#</span><span class="nc" data-group-id="4774415378-15">Nx.Tensor</span><span class="p" data-group-id="4774415378-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4774415378-16">[</span><span class="mi">8</span><span class="p" data-group-id="4774415378-16">]</span><span class="p" data-group-id="4774415378-17">[</span><span class="mi">4</span><span class="p" data-group-id="4774415378-17">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-18">[</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-19">[</span><span class="mf">0.07366377860307693</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3261552155017853</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6951385140419006</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4232194125652313</span><span class="p" data-group-id="4774415378-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-20">[</span><span class="mf">0.7334840893745422</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.17827139794826508</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6411628127098083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41898131370544434</span><span class="p" data-group-id="4774415378-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-21">[</span><span class="mf">0.4770638346672058</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4738321304321289</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5755389332771301</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30976954102516174</span><span class="p" data-group-id="4774415378-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-22">[</span><span class="o">-</span><span class="mf">0.498087614774704</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10546410828828812</span><span class="p">,</span><span class="w"> </span><span class="mf">0.690037190914154</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5016340613365173</span><span class="p" data-group-id="4774415378-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-23">[</span><span class="mf">0.17509347200393677</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4518563449382782</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10358063131570816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2223401516675949</span><span class="p" data-group-id="4774415378-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-24">[</span><span class="mf">0.6422480344772339</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19363932311534882</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2870054543018341</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1483648419380188</span><span class="p" data-group-id="4774415378-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-25">[</span><span class="o">-</span><span class="mf">0.10362248122692108</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7047968506813049</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02847556211054325</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18464618921279907</span><span class="p" data-group-id="4774415378-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-26">[</span><span class="o">-</span><span class="mf">0.6756409406661987</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.42686882615089417</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5484509468078613</span><span class="p">,</span><span class="w"> </span><span class="mf">0.596512496471405</span><span class="p" data-group-id="4774415378-26">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-18">]</span><span class="w">
+    </span><span class="p" data-group-id="4774415378-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4774415378-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-28">#</span><span class="nc" data-group-id="4774415378-28">Nx.Tensor</span><span class="p" data-group-id="4774415378-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4774415378-29">[</span><span class="mi">1</span><span class="p" data-group-id="4774415378-29">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-30">[</span><span class="mf">0.23296000063419342</span><span class="p" data-group-id="4774415378-30">]</span><span class="w">
+    </span><span class="p" data-group-id="4774415378-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4774415378-31">#</span><span class="nc" data-group-id="4774415378-31">Nx.Tensor</span><span class="p" data-group-id="4774415378-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4774415378-32">[</span><span class="mi">4</span><span class="p" data-group-id="4774415378-32">]</span><span class="p" data-group-id="4774415378-33">[</span><span class="mi">1</span><span class="p" data-group-id="4774415378-33">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-34">[</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-35">[</span><span class="mf">0.48827823996543884</span><span class="p" data-group-id="4774415378-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-36">[</span><span class="o">-</span><span class="mf">0.7908728122711182</span><span class="p" data-group-id="4774415378-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-37">[</span><span class="o">-</span><span class="mf">0.5326805114746094</span><span class="p" data-group-id="4774415378-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4774415378-38">[</span><span class="mf">0.3789232671260834</span><span class="p" data-group-id="4774415378-38">]</span><span class="w">
+      </span><span class="p" data-group-id="4774415378-34">]</span><span class="w">
+    </span><span class="p" data-group-id="4774415378-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4774415378-27">}</span><span class="w">
+</span><span class="p" data-group-id="4774415378-1">}</span></code></pre><p>Axon event handlers support both keyword and function filters. Keyword filters include keywords such as <code class="inline">:every</code>, <code class="inline">:once</code>, and <code class="inline">:always</code>. Function filters are arity-1 functions which accept the current loop state and return a boolean.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/writing_custom_event_handlers.html b/writing_custom_event_handlers.html
index 57a61c19..80122839 100644
--- a/writing_custom_event_handlers.html
+++ b/writing_custom_event_handlers.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,68 +136,68 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3951069226-1">(</span><span class="p" data-group-id="3951069226-2">[</span><span class="w">
-  </span><span class="p" data-group-id="3951069226-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3951069226-3">}</span><span class="w">
-</span><span class="p" data-group-id="3951069226-2">]</span><span class="p" data-group-id="3951069226-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="writing-custom-event-handlers" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="5991346578-1">(</span><span class="p" data-group-id="5991346578-2">[</span><span class="w">
+  </span><span class="p" data-group-id="5991346578-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="5991346578-3">}</span><span class="w">
+</span><span class="p" data-group-id="5991346578-2">]</span><span class="p" data-group-id="5991346578-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="writing-custom-event-handlers" class="section-heading">
   <a href="#writing-custom-event-handlers" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Writing custom event handlers</span>
 </h2>
-<p>If you require functionality not offered by any of Axon's built-in event handlers, then you'll need to write a custom event handler. Custom event handlers are functions which accept loop state, perform some action, and then defer execution back to the main loop. For example, you can write custom loop handlers which visualize model outputs, communicate with an external Kino process, or simply halt the loop based on some criteria.</p><p>All event handlers must accept an <code class="inline">%Axon.Loop.State{}</code> struct and return a tuple of <code class="inline">{control_term, state}</code> where <code class="inline">control_term</code> is one of <code class="inline">:continue</code>, <code class="inline">:halt_epoch</code>, or <code class="inline">:halt_loop</code> and <code class="inline">state</code> is the updated loop state:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler0</span><span class="w"> </span><span class="k" data-group-id="7899124709-1">do</span><span class="w">
+<p>If you require functionality not offered by any of Axon's built-in event handlers, then you'll need to write a custom event handler. Custom event handlers are functions which accept loop state, perform some action, and then defer execution back to the main loop. For example, you can write custom loop handlers which visualize model outputs, communicate with an external Kino process, or simply halt the loop based on some criteria.</p><p>All event handlers must accept an <code class="inline">%Axon.Loop.State{}</code> struct and return a tuple of <code class="inline">{control_term, state}</code> where <code class="inline">control_term</code> is one of <code class="inline">:continue</code>, <code class="inline">:halt_epoch</code>, or <code class="inline">:halt_loop</code> and <code class="inline">state</code> is the updated loop state:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler0</span><span class="w"> </span><span class="k" data-group-id="7368456678-1">do</span><span class="w">
   </span><span class="kn">alias</span><span class="w"> </span><span class="nc">Axon.Loop.State</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">my_weird_handler</span><span class="p" data-group-id="7899124709-2">(</span><span class="p" data-group-id="7899124709-3">%</span><span class="nc" data-group-id="7899124709-3">State</span><span class="p" data-group-id="7899124709-3">{</span><span class="p" data-group-id="7899124709-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7899124709-2">)</span><span class="w"> </span><span class="k" data-group-id="7899124709-4">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7899124709-5">(</span><span class="s">&quot;My weird handler: fired&quot;</span><span class="p" data-group-id="7899124709-5">)</span><span class="w">
-    </span><span class="p" data-group-id="7899124709-6">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7899124709-6">}</span><span class="w">
-  </span><span class="k" data-group-id="7899124709-4">end</span><span class="w">
-</span><span class="k" data-group-id="7899124709-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3339721709-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler0</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3339721709-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="3339721709-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3339721709-3">{</span><span class="ss">:my_weird_handler</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3339721709-3">}</span><span class="p" data-group-id="3339721709-1">}</span></code></pre><p>To register event handlers, you use <code class="inline">Axon.Loop.handle/4</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0148568028-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0148568028-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0148568028-2">(</span><span class="mi">8</span><span class="p" data-group-id="0148568028-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0148568028-3">(</span><span class="p" data-group-id="0148568028-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0148568028-4">(</span><span class="mi">4</span><span class="p" data-group-id="0148568028-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0148568028-5">(</span><span class="p" data-group-id="0148568028-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0148568028-6">(</span><span class="mi">1</span><span class="p" data-group-id="0148568028-6">)</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">my_weird_handler</span><span class="p" data-group-id="7368456678-2">(</span><span class="p" data-group-id="7368456678-3">%</span><span class="nc" data-group-id="7368456678-3">State</span><span class="p" data-group-id="7368456678-3">{</span><span class="p" data-group-id="7368456678-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7368456678-2">)</span><span class="w"> </span><span class="k" data-group-id="7368456678-4">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7368456678-5">(</span><span class="s">&quot;My weird handler: fired&quot;</span><span class="p" data-group-id="7368456678-5">)</span><span class="w">
+    </span><span class="p" data-group-id="7368456678-6">{</span><span class="ss">:continue</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7368456678-6">}</span><span class="w">
+  </span><span class="k" data-group-id="7368456678-4">end</span><span class="w">
+</span><span class="k" data-group-id="7368456678-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6342479957-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler0</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6342479957-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6342479957-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6342479957-3">{</span><span class="ss">:my_weird_handler</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6342479957-3">}</span><span class="p" data-group-id="6342479957-1">}</span></code></pre><p>To register event handlers, you use <code class="inline">Axon.Loop.handle/4</code>:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7799716272-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7799716272-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7799716272-2">(</span><span class="mi">8</span><span class="p" data-group-id="7799716272-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7799716272-3">(</span><span class="p" data-group-id="7799716272-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7799716272-4">(</span><span class="mi">4</span><span class="p" data-group-id="7799716272-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7799716272-5">(</span><span class="p" data-group-id="7799716272-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7799716272-6">(</span><span class="mi">1</span><span class="p" data-group-id="7799716272-6">)</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0148568028-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0148568028-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="0148568028-8">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler0</span><span class="o">.</span><span class="n">my_weird_handler</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0148568028-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1625710913-1">#</span><span class="nc" data-group-id="1625710913-1">Axon.Loop</span><span class="p" data-group-id="1625710913-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-2">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1625710913-3">{</span><span class="p" data-group-id="1625710913-4">#</span><span class="nc" data-group-id="1625710913-4">Function</span><span class="p" data-group-id="1625710913-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1625710913-4">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="1625710913-5">#</span><span class="nc" data-group-id="1625710913-5">Function</span><span class="p" data-group-id="1625710913-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1625710913-5">&gt;</span><span class="p" data-group-id="1625710913-3">}</span><span class="w">
-  </span><span class="p" data-group-id="1625710913-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-6">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-7">[</span><span class="p" data-group-id="1625710913-7">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-8">[</span><span class="w">
-      </span><span class="p" data-group-id="1625710913-9">{</span><span class="o">&amp;</span><span class="nc">CustomEventHandler0</span><span class="o">.</span><span class="n">my_weird_handler</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="1625710913-10">#</span><span class="nc" data-group-id="1625710913-10">Function</span><span class="p" data-group-id="1625710913-10">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1625710913-10">&gt;</span><span class="p" data-group-id="1625710913-9">}</span><span class="p">,</span><span class="w">
-      </span><span class="p" data-group-id="1625710913-11">{</span><span class="p" data-group-id="1625710913-12">#</span><span class="nc" data-group-id="1625710913-12">Function</span><span class="p" data-group-id="1625710913-12">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="1625710913-12">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="1625710913-13">#</span><span class="nc" data-group-id="1625710913-13">Function</span><span class="p" data-group-id="1625710913-13">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1625710913-13">&gt;</span><span class="p" data-group-id="1625710913-11">}</span><span class="w">
-    </span><span class="p" data-group-id="1625710913-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-14">[</span><span class="p" data-group-id="1625710913-14">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-15">[</span><span class="p" data-group-id="1625710913-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-16">[</span><span class="p" data-group-id="1625710913-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-17">[</span><span class="w">
-      </span><span class="p" data-group-id="1625710913-18">{</span><span class="p" data-group-id="1625710913-19">#</span><span class="nc" data-group-id="1625710913-19">Function</span><span class="p" data-group-id="1625710913-19">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="1625710913-19">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="1625710913-20">#</span><span class="nc" data-group-id="1625710913-20">Function</span><span class="p" data-group-id="1625710913-20">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="1625710913-20">&gt;</span><span class="p" data-group-id="1625710913-18">}</span><span class="w">
-    </span><span class="p" data-group-id="1625710913-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-21">[</span><span class="p" data-group-id="1625710913-21">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1625710913-22">[</span><span class="p" data-group-id="1625710913-22">]</span><span class="w">
-  </span><span class="p" data-group-id="1625710913-6">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7799716272-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7799716272-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="7799716272-8">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler0</span><span class="o">.</span><span class="n">my_weird_handler</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7799716272-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6719942861-1">#</span><span class="nc" data-group-id="6719942861-1">Axon.Loop</span><span class="p" data-group-id="6719942861-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-2">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6719942861-3">{</span><span class="p" data-group-id="6719942861-4">#</span><span class="nc" data-group-id="6719942861-4">Function</span><span class="p" data-group-id="6719942861-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6719942861-4">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="6719942861-5">#</span><span class="nc" data-group-id="6719942861-5">Function</span><span class="p" data-group-id="6719942861-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6719942861-5">&gt;</span><span class="p" data-group-id="6719942861-3">}</span><span class="w">
+  </span><span class="p" data-group-id="6719942861-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-6">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-7">[</span><span class="p" data-group-id="6719942861-7">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-8">[</span><span class="w">
+      </span><span class="p" data-group-id="6719942861-9">{</span><span class="o">&amp;</span><span class="nc">CustomEventHandler0</span><span class="o">.</span><span class="n">my_weird_handler</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="6719942861-10">#</span><span class="nc" data-group-id="6719942861-10">Function</span><span class="p" data-group-id="6719942861-10">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6719942861-10">&gt;</span><span class="p" data-group-id="6719942861-9">}</span><span class="p">,</span><span class="w">
+      </span><span class="p" data-group-id="6719942861-11">{</span><span class="p" data-group-id="6719942861-12">#</span><span class="nc" data-group-id="6719942861-12">Function</span><span class="p" data-group-id="6719942861-12">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="6719942861-12">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="6719942861-13">#</span><span class="nc" data-group-id="6719942861-13">Function</span><span class="p" data-group-id="6719942861-13">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6719942861-13">&gt;</span><span class="p" data-group-id="6719942861-11">}</span><span class="w">
+    </span><span class="p" data-group-id="6719942861-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-14">[</span><span class="p" data-group-id="6719942861-14">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-15">[</span><span class="p" data-group-id="6719942861-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-16">[</span><span class="p" data-group-id="6719942861-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-17">[</span><span class="w">
+      </span><span class="p" data-group-id="6719942861-18">{</span><span class="p" data-group-id="6719942861-19">#</span><span class="nc" data-group-id="6719942861-19">Function</span><span class="p" data-group-id="6719942861-19">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="6719942861-19">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="6719942861-20">#</span><span class="nc" data-group-id="6719942861-20">Function</span><span class="p" data-group-id="6719942861-20">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6719942861-20">&gt;</span><span class="p" data-group-id="6719942861-18">}</span><span class="w">
+    </span><span class="p" data-group-id="6719942861-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-21">[</span><span class="p" data-group-id="6719942861-21">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6719942861-22">[</span><span class="p" data-group-id="6719942861-22">]</span><span class="w">
+  </span><span class="p" data-group-id="6719942861-6">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="1625710913-1">&gt;</span></code></pre><p>Axon will trigger your custom handler to run on the attached event:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="9845682256-1">(</span><span class="k" data-group-id="9845682256-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="9845682256-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="9845682256-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="9845682256-4">(</span><span class="mi">9999</span><span class="p" data-group-id="9845682256-4">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9845682256-5">(</span><span class="p" data-group-id="9845682256-5">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="9845682256-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9845682256-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9845682256-7">}</span><span class="p" data-group-id="9845682256-6">)</span><span class="w">
-
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="9845682256-8">(</span><span class="n">xs</span><span class="p" data-group-id="9845682256-8">)</span><span class="w">
-    </span><span class="p" data-group-id="9845682256-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="9845682256-9">}</span><span class="w">
-  </span><span class="k" data-group-id="9845682256-2">end</span><span class="p" data-group-id="9845682256-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9845682256-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9845682256-11">%{</span><span class="p" data-group-id="9845682256-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="9845682256-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0990703</span><span class="w">
+</span><span class="p" data-group-id="6719942861-1">&gt;</span></code></pre><p>Axon will trigger your custom handler to run on the attached event:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5391556914-1">(</span><span class="k" data-group-id="5391556914-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="5391556914-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="5391556914-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="5391556914-4">(</span><span class="mi">9999</span><span class="p" data-group-id="5391556914-4">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="5391556914-5">(</span><span class="p" data-group-id="5391556914-5">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="5391556914-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5391556914-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5391556914-7">}</span><span class="p" data-group-id="5391556914-6">)</span><span class="w">
+
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="5391556914-8">(</span><span class="n">xs</span><span class="p" data-group-id="5391556914-8">)</span><span class="w">
+    </span><span class="p" data-group-id="5391556914-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="5391556914-9">}</span><span class="w">
+  </span><span class="k" data-group-id="5391556914-2">end</span><span class="p" data-group-id="5391556914-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5391556914-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5391556914-11">%{</span><span class="p" data-group-id="5391556914-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="5391556914-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0990703</span><span class="w">
 </span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0567622</span><span class="w">
 </span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span><span class="w">
@@ -206,128 +206,128 @@ <h1>
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0462587</span><span class="w">
 </span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">4</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0452806</span><span class="w">
-</span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8814861003-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-3">#</span><span class="nc" data-group-id="8814861003-3">Nx.Tensor</span><span class="p" data-group-id="8814861003-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8814861003-4">[</span><span class="mi">8</span><span class="p" data-group-id="8814861003-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-5">[</span><span class="mf">0.10819189250469208</span><span class="p">,</span><span class="w"> </span><span class="mf">0.008151392452418804</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0318693183362484</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010302421636879444</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15788722038269043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05119801685214043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14268818497657776</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11528034508228302</span><span class="p" data-group-id="8814861003-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8814861003-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-6">#</span><span class="nc" data-group-id="8814861003-6">Nx.Tensor</span><span class="p" data-group-id="8814861003-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8814861003-7">[</span><span class="mi">1</span><span class="p" data-group-id="8814861003-7">]</span><span class="p" data-group-id="8814861003-8">[</span><span class="mi">8</span><span class="p" data-group-id="8814861003-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-10">[</span><span class="o">-</span><span class="mf">0.4275593161582947</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40442031621932983</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7287659645080566</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7832129597663879</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3329123258590698</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5598123073577881</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8389336466789246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3197469413280487</span><span class="p" data-group-id="8814861003-10">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8814861003-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8814861003-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-12">#</span><span class="nc" data-group-id="8814861003-12">Nx.Tensor</span><span class="p" data-group-id="8814861003-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8814861003-13">[</span><span class="mi">4</span><span class="p" data-group-id="8814861003-13">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-14">[</span><span class="mf">0.0671013742685318</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13561469316482544</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06218714639544487</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2104845941066742</span><span class="p" data-group-id="8814861003-14">]</span><span class="w">
-    </span><span class="p" data-group-id="8814861003-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-15">#</span><span class="nc" data-group-id="8814861003-15">Nx.Tensor</span><span class="p" data-group-id="8814861003-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8814861003-16">[</span><span class="mi">8</span><span class="p" data-group-id="8814861003-16">]</span><span class="p" data-group-id="8814861003-17">[</span><span class="mi">4</span><span class="p" data-group-id="8814861003-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-18">[</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-19">[</span><span class="mf">0.4444102942943573</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4518184959888458</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45315614342689514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35392478108406067</span><span class="p" data-group-id="8814861003-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-20">[</span><span class="mf">0.008407601155340672</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6081852912902832</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05863206833600998</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14386630058288574</span><span class="p" data-group-id="8814861003-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-21">[</span><span class="o">-</span><span class="mf">0.010219200514256954</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5528244376182556</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3754919469356537</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6242967247962952</span><span class="p" data-group-id="8814861003-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-22">[</span><span class="mf">0.3531058132648468</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18348301947116852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0019897441379725933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41002658009529114</span><span class="p" data-group-id="8814861003-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-23">[</span><span class="mf">0.676723062992096</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09349705278873444</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1101854145526886</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06494166702032089</span><span class="p" data-group-id="8814861003-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-24">[</span><span class="mf">0.1534113883972168</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6402403116226196</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23490086197853088</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2196572870016098</span><span class="p" data-group-id="8814861003-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-25">[</span><span class="mf">0.5835862755775452</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6581316590309143</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3047991394996643</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07485166192054749</span><span class="p" data-group-id="8814861003-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-26">[</span><span class="o">-</span><span class="mf">0.6115342378616333</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3316897749900818</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3606548309326172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3397740423679352</span><span class="p" data-group-id="8814861003-26">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-18">]</span><span class="w">
-    </span><span class="p" data-group-id="8814861003-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8814861003-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-28">#</span><span class="nc" data-group-id="8814861003-28">Nx.Tensor</span><span class="p" data-group-id="8814861003-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8814861003-29">[</span><span class="mi">1</span><span class="p" data-group-id="8814861003-29">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-30">[</span><span class="mf">0.10111129283905029</span><span class="p" data-group-id="8814861003-30">]</span><span class="w">
-    </span><span class="p" data-group-id="8814861003-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8814861003-31">#</span><span class="nc" data-group-id="8814861003-31">Nx.Tensor</span><span class="p" data-group-id="8814861003-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8814861003-32">[</span><span class="mi">4</span><span class="p" data-group-id="8814861003-32">]</span><span class="p" data-group-id="8814861003-33">[</span><span class="mi">1</span><span class="p" data-group-id="8814861003-33">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-34">[</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-35">[</span><span class="mf">0.7433153390884399</span><span class="p" data-group-id="8814861003-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-36">[</span><span class="o">-</span><span class="mf">0.8213723301887512</span><span class="p" data-group-id="8814861003-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-37">[</span><span class="o">-</span><span class="mf">0.44361063838005066</span><span class="p" data-group-id="8814861003-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8814861003-38">[</span><span class="o">-</span><span class="mf">1.049617052078247</span><span class="p" data-group-id="8814861003-38">]</span><span class="w">
-      </span><span class="p" data-group-id="8814861003-34">]</span><span class="w">
-    </span><span class="p" data-group-id="8814861003-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8814861003-27">}</span><span class="w">
-</span><span class="p" data-group-id="8814861003-1">}</span></code></pre><p>You can use event handlers to early-stop a loop or loop epoch by returning a <code class="inline">:halt_*</code> control term. Halt control terms can be one of <code class="inline">:halt_epoch</code> or <code class="inline">:halt_loop</code>. <code class="inline">:halt_epoch</code> halts the current epoch and continues to the next. <code class="inline">:halt_loop</code> halts the loop altogether.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler1</span><span class="w"> </span><span class="k" data-group-id="0322885373-1">do</span><span class="w">
+</span><span class="nc">My</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">handler</span><span class="p">:</span><span class="w"> </span><span class="n">fired</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7473117532-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-3">#</span><span class="nc" data-group-id="7473117532-3">Nx.Tensor</span><span class="p" data-group-id="7473117532-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7473117532-4">[</span><span class="mi">8</span><span class="p" data-group-id="7473117532-4">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-5">[</span><span class="mf">0.10819189250469208</span><span class="p">,</span><span class="w"> </span><span class="mf">0.008151392452418804</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0318693183362484</span><span class="p">,</span><span class="w"> </span><span class="mf">0.010302421636879444</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15788722038269043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.05119801685214043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14268818497657776</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11528034508228302</span><span class="p" data-group-id="7473117532-5">]</span><span class="w">
+    </span><span class="p" data-group-id="7473117532-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-6">#</span><span class="nc" data-group-id="7473117532-6">Nx.Tensor</span><span class="p" data-group-id="7473117532-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7473117532-7">[</span><span class="mi">1</span><span class="p" data-group-id="7473117532-7">]</span><span class="p" data-group-id="7473117532-8">[</span><span class="mi">8</span><span class="p" data-group-id="7473117532-8">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-9">[</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-10">[</span><span class="o">-</span><span class="mf">0.4275593161582947</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40442031621932983</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7287659645080566</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7832129597663879</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3329123258590698</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5598123073577881</span><span class="p">,</span><span class="w"> </span><span class="mf">0.8389336466789246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3197469413280487</span><span class="p" data-group-id="7473117532-10">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-9">]</span><span class="w">
+    </span><span class="p" data-group-id="7473117532-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7473117532-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-12">#</span><span class="nc" data-group-id="7473117532-12">Nx.Tensor</span><span class="p" data-group-id="7473117532-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7473117532-13">[</span><span class="mi">4</span><span class="p" data-group-id="7473117532-13">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-14">[</span><span class="mf">0.0671013742685318</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13561469316482544</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06218714639544487</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2104845941066742</span><span class="p" data-group-id="7473117532-14">]</span><span class="w">
+    </span><span class="p" data-group-id="7473117532-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-15">#</span><span class="nc" data-group-id="7473117532-15">Nx.Tensor</span><span class="p" data-group-id="7473117532-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7473117532-16">[</span><span class="mi">8</span><span class="p" data-group-id="7473117532-16">]</span><span class="p" data-group-id="7473117532-17">[</span><span class="mi">4</span><span class="p" data-group-id="7473117532-17">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-18">[</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-19">[</span><span class="mf">0.4444102942943573</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4518184959888458</span><span class="p">,</span><span class="w"> </span><span class="mf">0.45315614342689514</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35392478108406067</span><span class="p" data-group-id="7473117532-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-20">[</span><span class="mf">0.008407601155340672</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6081852912902832</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05863206833600998</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14386630058288574</span><span class="p" data-group-id="7473117532-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-21">[</span><span class="o">-</span><span class="mf">0.010219200514256954</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5528244376182556</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3754919469356537</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6242967247962952</span><span class="p" data-group-id="7473117532-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-22">[</span><span class="mf">0.3531058132648468</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18348301947116852</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0019897441379725933</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41002658009529114</span><span class="p" data-group-id="7473117532-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-23">[</span><span class="mf">0.676723062992096</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09349705278873444</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1101854145526886</span><span class="p">,</span><span class="w"> </span><span class="mf">0.06494166702032089</span><span class="p" data-group-id="7473117532-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-24">[</span><span class="mf">0.1534113883972168</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6402403116226196</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23490086197853088</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2196572870016098</span><span class="p" data-group-id="7473117532-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-25">[</span><span class="mf">0.5835862755775452</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6581316590309143</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3047991394996643</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07485166192054749</span><span class="p" data-group-id="7473117532-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-26">[</span><span class="o">-</span><span class="mf">0.6115342378616333</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3316897749900818</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3606548309326172</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3397740423679352</span><span class="p" data-group-id="7473117532-26">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-18">]</span><span class="w">
+    </span><span class="p" data-group-id="7473117532-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7473117532-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-28">#</span><span class="nc" data-group-id="7473117532-28">Nx.Tensor</span><span class="p" data-group-id="7473117532-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7473117532-29">[</span><span class="mi">1</span><span class="p" data-group-id="7473117532-29">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-30">[</span><span class="mf">0.10111129283905029</span><span class="p" data-group-id="7473117532-30">]</span><span class="w">
+    </span><span class="p" data-group-id="7473117532-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7473117532-31">#</span><span class="nc" data-group-id="7473117532-31">Nx.Tensor</span><span class="p" data-group-id="7473117532-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7473117532-32">[</span><span class="mi">4</span><span class="p" data-group-id="7473117532-32">]</span><span class="p" data-group-id="7473117532-33">[</span><span class="mi">1</span><span class="p" data-group-id="7473117532-33">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-34">[</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-35">[</span><span class="mf">0.7433153390884399</span><span class="p" data-group-id="7473117532-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-36">[</span><span class="o">-</span><span class="mf">0.8213723301887512</span><span class="p" data-group-id="7473117532-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-37">[</span><span class="o">-</span><span class="mf">0.44361063838005066</span><span class="p" data-group-id="7473117532-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7473117532-38">[</span><span class="o">-</span><span class="mf">1.049617052078247</span><span class="p" data-group-id="7473117532-38">]</span><span class="w">
+      </span><span class="p" data-group-id="7473117532-34">]</span><span class="w">
+    </span><span class="p" data-group-id="7473117532-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7473117532-27">}</span><span class="w">
+</span><span class="p" data-group-id="7473117532-1">}</span></code></pre><p>You can use event handlers to early-stop a loop or loop epoch by returning a <code class="inline">:halt_*</code> control term. Halt control terms can be one of <code class="inline">:halt_epoch</code> or <code class="inline">:halt_loop</code>. <code class="inline">:halt_epoch</code> halts the current epoch and continues to the next. <code class="inline">:halt_loop</code> halts the loop altogether.</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler1</span><span class="w"> </span><span class="k" data-group-id="5176266046-1">do</span><span class="w">
   </span><span class="kn">alias</span><span class="w"> </span><span class="nc">Axon.Loop.State</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts</span><span class="p" data-group-id="0322885373-2">(</span><span class="p" data-group-id="0322885373-3">%</span><span class="nc" data-group-id="0322885373-3">State</span><span class="p" data-group-id="0322885373-3">{</span><span class="p" data-group-id="0322885373-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="0322885373-2">)</span><span class="w"> </span><span class="k" data-group-id="0322885373-4">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="0322885373-5">(</span><span class="s">&quot;stopping loop&quot;</span><span class="p" data-group-id="0322885373-5">)</span><span class="w">
-    </span><span class="p" data-group-id="0322885373-6">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="0322885373-6">}</span><span class="w">
-  </span><span class="k" data-group-id="0322885373-4">end</span><span class="w">
-</span><span class="k" data-group-id="0322885373-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8781012082-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8781012082-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="8781012082-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8781012082-3">{</span><span class="ss">:always_halts</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8781012082-3">}</span><span class="p" data-group-id="8781012082-1">}</span></code></pre><p>The loop will immediately stop executing and return the current state at the time it was halted:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="2092388203-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="2092388203-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="2092388203-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler1</span><span class="o">.</span><span class="n">always_halts</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2092388203-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2092388203-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2092388203-4">%{</span><span class="p" data-group-id="2092388203-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="2092388203-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2201974</span><span class="w">
-</span><span class="n">stopping</span><span class="w"> </span><span class="n">loop</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1862048730-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-3">#</span><span class="nc" data-group-id="1862048730-3">Nx.Tensor</span><span class="p" data-group-id="1862048730-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1862048730-4">[</span><span class="mi">8</span><span class="p" data-group-id="1862048730-4">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-5">[</span><span class="mf">0.07676638662815094</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18689222633838654</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10066182911396027</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.021994125097990036</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12006694823503494</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.014219668693840504</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13600556552410126</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.017512166872620583</span><span class="p" data-group-id="1862048730-5">]</span><span class="w">
-    </span><span class="p" data-group-id="1862048730-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-6">#</span><span class="nc" data-group-id="1862048730-6">Nx.Tensor</span><span class="p" data-group-id="1862048730-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1862048730-7">[</span><span class="mi">1</span><span class="p" data-group-id="1862048730-7">]</span><span class="p" data-group-id="1862048730-8">[</span><span class="mi">8</span><span class="p" data-group-id="1862048730-8">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-9">[</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-10">[</span><span class="o">-</span><span class="mf">0.5354958772659302</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.216745987534523</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5694359540939331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.023495405912399292</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17701618373394012</span><span class="p">,</span><span class="w"> </span><span class="mf">0.011712944135069847</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5289720892906189</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07360327988862991</span><span class="p" data-group-id="1862048730-10">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-9">]</span><span class="w">
-    </span><span class="p" data-group-id="1862048730-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1862048730-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-12">#</span><span class="nc" data-group-id="1862048730-12">Nx.Tensor</span><span class="p" data-group-id="1862048730-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1862048730-13">[</span><span class="mi">4</span><span class="p" data-group-id="1862048730-13">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-14">[</span><span class="mf">0.0012482400052249432</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09300543367862701</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08570009469985962</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.018982920795679092</span><span class="p" data-group-id="1862048730-14">]</span><span class="w">
-    </span><span class="p" data-group-id="1862048730-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-15">#</span><span class="nc" data-group-id="1862048730-15">Nx.Tensor</span><span class="p" data-group-id="1862048730-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1862048730-16">[</span><span class="mi">8</span><span class="p" data-group-id="1862048730-16">]</span><span class="p" data-group-id="1862048730-17">[</span><span class="mi">4</span><span class="p" data-group-id="1862048730-17">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-18">[</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-19">[</span><span class="mf">0.3016211688518524</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31998082995414734</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3300730884075165</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24982869625091553</span><span class="p" data-group-id="1862048730-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-20">[</span><span class="mf">0.03864569962024689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44071364402770996</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6553062200546265</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5294798612594604</span><span class="p" data-group-id="1862048730-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-21">[</span><span class="mf">0.25020459294319153</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7249991297721863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15611837804317474</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5045580863952637</span><span class="p" data-group-id="1862048730-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-22">[</span><span class="o">-</span><span class="mf">0.5500670075416565</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15677094459533691</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6531851291656494</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09289993345737457</span><span class="p" data-group-id="1862048730-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-23">[</span><span class="mf">0.1618722379207611</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4479053020477295</span><span class="p">,</span><span class="w"> </span><span class="mf">0.705923318862915</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3853490352630615</span><span class="p" data-group-id="1862048730-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-24">[</span><span class="o">-</span><span class="mf">0.6752215623855591</span><span class="p">,</span><span class="w"> </span><span class="mf">0.577272891998291</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1268012821674347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6133111715316772</span><span class="p" data-group-id="1862048730-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-25">[</span><span class="mf">0.5361366271972656</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2996085286140442</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28480708599090576</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47739118337631226</span><span class="p" data-group-id="1862048730-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-26">[</span><span class="o">-</span><span class="mf">0.6443014144897461</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2866927981376648</span><span class="p">,</span><span class="w"> </span><span class="mf">0.023463081568479538</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1491370052099228</span><span class="p" data-group-id="1862048730-26">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-18">]</span><span class="w">
-    </span><span class="p" data-group-id="1862048730-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1862048730-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-28">#</span><span class="nc" data-group-id="1862048730-28">Nx.Tensor</span><span class="p" data-group-id="1862048730-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1862048730-29">[</span><span class="mi">1</span><span class="p" data-group-id="1862048730-29">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-30">[</span><span class="mf">0.0047520860098302364</span><span class="p" data-group-id="1862048730-30">]</span><span class="w">
-    </span><span class="p" data-group-id="1862048730-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1862048730-31">#</span><span class="nc" data-group-id="1862048730-31">Nx.Tensor</span><span class="p" data-group-id="1862048730-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="1862048730-32">[</span><span class="mi">4</span><span class="p" data-group-id="1862048730-32">]</span><span class="p" data-group-id="1862048730-33">[</span><span class="mi">1</span><span class="p" data-group-id="1862048730-33">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-34">[</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-35">[</span><span class="mf">0.3796459138393402</span><span class="p" data-group-id="1862048730-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-36">[</span><span class="o">-</span><span class="mf">0.9757304191589355</span><span class="p" data-group-id="1862048730-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-37">[</span><span class="mf">0.9530885815620422</span><span class="p" data-group-id="1862048730-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="1862048730-38">[</span><span class="o">-</span><span class="mf">0.05134368687868118</span><span class="p" data-group-id="1862048730-38">]</span><span class="w">
-      </span><span class="p" data-group-id="1862048730-34">]</span><span class="w">
-    </span><span class="p" data-group-id="1862048730-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1862048730-27">}</span><span class="w">
-</span><span class="p" data-group-id="1862048730-1">}</span></code></pre><p>Note that halting an epoch will fire a different event than completing an epoch. So if you implement a custom handler to halt the loop when an epoch completes, it will never fire if the epoch always halts prematurely:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler2</span><span class="w"> </span><span class="k" data-group-id="7850027829-1">do</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts</span><span class="p" data-group-id="5176266046-2">(</span><span class="p" data-group-id="5176266046-3">%</span><span class="nc" data-group-id="5176266046-3">State</span><span class="p" data-group-id="5176266046-3">{</span><span class="p" data-group-id="5176266046-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="5176266046-2">)</span><span class="w"> </span><span class="k" data-group-id="5176266046-4">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="5176266046-5">(</span><span class="s">&quot;stopping loop&quot;</span><span class="p" data-group-id="5176266046-5">)</span><span class="w">
+    </span><span class="p" data-group-id="5176266046-6">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="5176266046-6">}</span><span class="w">
+  </span><span class="k" data-group-id="5176266046-4">end</span><span class="w">
+</span><span class="k" data-group-id="5176266046-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0010482138-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler1</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0010482138-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">6</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="0010482138-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0010482138-3">{</span><span class="ss">:always_halts</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0010482138-3">}</span><span class="p" data-group-id="0010482138-1">}</span></code></pre><p>The loop will immediately stop executing and return the current state at the time it was halted:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9455196031-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9455196031-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="9455196031-2">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler1</span><span class="o">.</span><span class="n">always_halts</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="9455196031-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9455196031-3">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9455196031-4">%{</span><span class="p" data-group-id="9455196031-4">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="9455196031-3">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">50</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2201974</span><span class="w">
+</span><span class="n">stopping</span><span class="w"> </span><span class="n">loop</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7655531195-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-3">#</span><span class="nc" data-group-id="7655531195-3">Nx.Tensor</span><span class="p" data-group-id="7655531195-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7655531195-4">[</span><span class="mi">8</span><span class="p" data-group-id="7655531195-4">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-5">[</span><span class="mf">0.07676638662815094</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.18689222633838654</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10066182911396027</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.021994125097990036</span><span class="p">,</span><span class="w"> </span><span class="mf">0.12006694823503494</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.014219668693840504</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13600556552410126</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.017512166872620583</span><span class="p" data-group-id="7655531195-5">]</span><span class="w">
+    </span><span class="p" data-group-id="7655531195-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-6">#</span><span class="nc" data-group-id="7655531195-6">Nx.Tensor</span><span class="p" data-group-id="7655531195-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7655531195-7">[</span><span class="mi">1</span><span class="p" data-group-id="7655531195-7">]</span><span class="p" data-group-id="7655531195-8">[</span><span class="mi">8</span><span class="p" data-group-id="7655531195-8">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-9">[</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-10">[</span><span class="o">-</span><span class="mf">0.5354958772659302</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.216745987534523</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5694359540939331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.023495405912399292</span><span class="p">,</span><span class="w"> </span><span class="mf">0.17701618373394012</span><span class="p">,</span><span class="w"> </span><span class="mf">0.011712944135069847</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5289720892906189</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07360327988862991</span><span class="p" data-group-id="7655531195-10">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-9">]</span><span class="w">
+    </span><span class="p" data-group-id="7655531195-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7655531195-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-12">#</span><span class="nc" data-group-id="7655531195-12">Nx.Tensor</span><span class="p" data-group-id="7655531195-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7655531195-13">[</span><span class="mi">4</span><span class="p" data-group-id="7655531195-13">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-14">[</span><span class="mf">0.0012482400052249432</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09300543367862701</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08570009469985962</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.018982920795679092</span><span class="p" data-group-id="7655531195-14">]</span><span class="w">
+    </span><span class="p" data-group-id="7655531195-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-15">#</span><span class="nc" data-group-id="7655531195-15">Nx.Tensor</span><span class="p" data-group-id="7655531195-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7655531195-16">[</span><span class="mi">8</span><span class="p" data-group-id="7655531195-16">]</span><span class="p" data-group-id="7655531195-17">[</span><span class="mi">4</span><span class="p" data-group-id="7655531195-17">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-18">[</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-19">[</span><span class="mf">0.3016211688518524</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31998082995414734</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3300730884075165</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24982869625091553</span><span class="p" data-group-id="7655531195-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-20">[</span><span class="mf">0.03864569962024689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44071364402770996</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6553062200546265</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5294798612594604</span><span class="p" data-group-id="7655531195-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-21">[</span><span class="mf">0.25020459294319153</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7249991297721863</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15611837804317474</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5045580863952637</span><span class="p" data-group-id="7655531195-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-22">[</span><span class="o">-</span><span class="mf">0.5500670075416565</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15677094459533691</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6531851291656494</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09289993345737457</span><span class="p" data-group-id="7655531195-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-23">[</span><span class="mf">0.1618722379207611</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4479053020477295</span><span class="p">,</span><span class="w"> </span><span class="mf">0.705923318862915</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3853490352630615</span><span class="p" data-group-id="7655531195-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-24">[</span><span class="o">-</span><span class="mf">0.6752215623855591</span><span class="p">,</span><span class="w"> </span><span class="mf">0.577272891998291</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1268012821674347</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6133111715316772</span><span class="p" data-group-id="7655531195-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-25">[</span><span class="mf">0.5361366271972656</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2996085286140442</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28480708599090576</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47739118337631226</span><span class="p" data-group-id="7655531195-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-26">[</span><span class="o">-</span><span class="mf">0.6443014144897461</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2866927981376648</span><span class="p">,</span><span class="w"> </span><span class="mf">0.023463081568479538</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1491370052099228</span><span class="p" data-group-id="7655531195-26">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-18">]</span><span class="w">
+    </span><span class="p" data-group-id="7655531195-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7655531195-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-28">#</span><span class="nc" data-group-id="7655531195-28">Nx.Tensor</span><span class="p" data-group-id="7655531195-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7655531195-29">[</span><span class="mi">1</span><span class="p" data-group-id="7655531195-29">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-30">[</span><span class="mf">0.0047520860098302364</span><span class="p" data-group-id="7655531195-30">]</span><span class="w">
+    </span><span class="p" data-group-id="7655531195-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7655531195-31">#</span><span class="nc" data-group-id="7655531195-31">Nx.Tensor</span><span class="p" data-group-id="7655531195-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7655531195-32">[</span><span class="mi">4</span><span class="p" data-group-id="7655531195-32">]</span><span class="p" data-group-id="7655531195-33">[</span><span class="mi">1</span><span class="p" data-group-id="7655531195-33">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-34">[</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-35">[</span><span class="mf">0.3796459138393402</span><span class="p" data-group-id="7655531195-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-36">[</span><span class="o">-</span><span class="mf">0.9757304191589355</span><span class="p" data-group-id="7655531195-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-37">[</span><span class="mf">0.9530885815620422</span><span class="p" data-group-id="7655531195-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7655531195-38">[</span><span class="o">-</span><span class="mf">0.05134368687868118</span><span class="p" data-group-id="7655531195-38">]</span><span class="w">
+      </span><span class="p" data-group-id="7655531195-34">]</span><span class="w">
+    </span><span class="p" data-group-id="7655531195-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7655531195-27">}</span><span class="w">
+</span><span class="p" data-group-id="7655531195-1">}</span></code></pre><p>Note that halting an epoch will fire a different event than completing an epoch. So if you implement a custom handler to halt the loop when an epoch completes, it will never fire if the epoch always halts prematurely:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomEventHandler2</span><span class="w"> </span><span class="k" data-group-id="2792611909-1">do</span><span class="w">
   </span><span class="kn">alias</span><span class="w"> </span><span class="nc">Axon.Loop.State</span><span class="w">
 
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts_epoch</span><span class="p" data-group-id="7850027829-2">(</span><span class="p" data-group-id="7850027829-3">%</span><span class="nc" data-group-id="7850027829-3">State</span><span class="p" data-group-id="7850027829-3">{</span><span class="p" data-group-id="7850027829-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7850027829-2">)</span><span class="w"> </span><span class="k" data-group-id="7850027829-4">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7850027829-5">(</span><span class="s">&quot;</span><span class="se">\n</span><span class="s">stopping epoch&quot;</span><span class="p" data-group-id="7850027829-5">)</span><span class="w">
-    </span><span class="p" data-group-id="7850027829-6">{</span><span class="ss">:halt_epoch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7850027829-6">}</span><span class="w">
-  </span><span class="k" data-group-id="7850027829-4">end</span><span class="w">
-
-  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts_loop</span><span class="p" data-group-id="7850027829-7">(</span><span class="p" data-group-id="7850027829-8">%</span><span class="nc" data-group-id="7850027829-8">State</span><span class="p" data-group-id="7850027829-8">{</span><span class="p" data-group-id="7850027829-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7850027829-7">)</span><span class="w"> </span><span class="k" data-group-id="7850027829-9">do</span><span class="w">
-    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="7850027829-10">(</span><span class="s">&quot;stopping loop</span><span class="se">\n</span><span class="s">&quot;</span><span class="p" data-group-id="7850027829-10">)</span><span class="w">
-    </span><span class="p" data-group-id="7850027829-11">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="7850027829-11">}</span><span class="w">
-  </span><span class="k" data-group-id="7850027829-9">end</span><span class="w">
-</span><span class="k" data-group-id="7850027829-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6798905428-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6798905428-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6798905428-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6798905428-3">{</span><span class="ss">:always_halts_loop</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6798905428-3">}</span><span class="p" data-group-id="6798905428-1">}</span></code></pre><p>If you run these handlers in conjunction, the loop will not terminate prematurely:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5634211823-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5634211823-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="5634211823-2">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler2</span><span class="o">.</span><span class="n">always_halts_epoch</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5634211823-2">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="5634211823-3">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler2</span><span class="o">.</span><span class="n">always_halts_loop</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5634211823-3">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5634211823-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5634211823-5">%{</span><span class="p" data-group-id="5634211823-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="5634211823-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0000000</span><span class="w">
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts_epoch</span><span class="p" data-group-id="2792611909-2">(</span><span class="p" data-group-id="2792611909-3">%</span><span class="nc" data-group-id="2792611909-3">State</span><span class="p" data-group-id="2792611909-3">{</span><span class="p" data-group-id="2792611909-3">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="2792611909-2">)</span><span class="w"> </span><span class="k" data-group-id="2792611909-4">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="2792611909-5">(</span><span class="s">&quot;</span><span class="se">\n</span><span class="s">stopping epoch&quot;</span><span class="p" data-group-id="2792611909-5">)</span><span class="w">
+    </span><span class="p" data-group-id="2792611909-6">{</span><span class="ss">:halt_epoch</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="2792611909-6">}</span><span class="w">
+  </span><span class="k" data-group-id="2792611909-4">end</span><span class="w">
+
+  </span><span class="kd">def</span><span class="w"> </span><span class="nf">always_halts_loop</span><span class="p" data-group-id="2792611909-7">(</span><span class="p" data-group-id="2792611909-8">%</span><span class="nc" data-group-id="2792611909-8">State</span><span class="p" data-group-id="2792611909-8">{</span><span class="p" data-group-id="2792611909-8">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="2792611909-7">)</span><span class="w"> </span><span class="k" data-group-id="2792611909-9">do</span><span class="w">
+    </span><span class="nc">IO</span><span class="o">.</span><span class="n">puts</span><span class="p" data-group-id="2792611909-10">(</span><span class="s">&quot;stopping loop</span><span class="se">\n</span><span class="s">&quot;</span><span class="p" data-group-id="2792611909-10">)</span><span class="w">
+    </span><span class="p" data-group-id="2792611909-11">{</span><span class="ss">:halt_loop</span><span class="p">,</span><span class="w"> </span><span class="n">state</span><span class="p" data-group-id="2792611909-11">}</span><span class="w">
+  </span><span class="k" data-group-id="2792611909-9">end</span><span class="w">
+</span><span class="k" data-group-id="2792611909-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7293495006-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomEventHandler2</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7293495006-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="7293495006-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7293495006-3">{</span><span class="ss">:always_halts_loop</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7293495006-3">}</span><span class="p" data-group-id="7293495006-1">}</span></code></pre><p>If you run these handlers in conjunction, the loop will not terminate prematurely:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7547900585-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7547900585-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="7547900585-2">(</span><span class="ss">:iteration_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler2</span><span class="o">.</span><span class="n">always_halts_epoch</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7547900585-2">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">handle_event</span><span class="p" data-group-id="7547900585-3">(</span><span class="ss">:epoch_completed</span><span class="p">,</span><span class="w"> </span><span class="o">&amp;</span><span class="nc">CustomEventHandler2</span><span class="o">.</span><span class="n">always_halts_loop</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="7547900585-3">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="7547900585-4">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7547900585-5">%{</span><span class="p" data-group-id="7547900585-5">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">5</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="7547900585-4">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0000000</span><span class="w">
 </span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span><span class="w">
 
 </span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span><span class="w">
@@ -336,54 +336,54 @@ <h1>
 
 </span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span><span class="w">
 
-</span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0756954429-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-3">#</span><span class="nc" data-group-id="0756954429-3">Nx.Tensor</span><span class="p" data-group-id="0756954429-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0756954429-4">[</span><span class="mi">8</span><span class="p" data-group-id="0756954429-4">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-5">[</span><span class="mf">0.009215549565851688</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.005282022058963776</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0023747326340526342</span><span class="p">,</span><span class="w"> </span><span class="mf">0.002623362001031637</span><span class="p">,</span><span class="w"> </span><span class="mf">0.003890525083988905</span><span class="p">,</span><span class="w"> </span><span class="mf">6.010813522152603e-4</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0024882694706320763</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0029246946796774864</span><span class="p" data-group-id="0756954429-5">]</span><span class="w">
-    </span><span class="p" data-group-id="0756954429-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-6">#</span><span class="nc" data-group-id="0756954429-6">Nx.Tensor</span><span class="p" data-group-id="0756954429-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0756954429-7">[</span><span class="mi">1</span><span class="p" data-group-id="0756954429-7">]</span><span class="p" data-group-id="0756954429-8">[</span><span class="mi">8</span><span class="p" data-group-id="0756954429-8">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-9">[</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-10">[</span><span class="o">-</span><span class="mf">0.3484582304954529</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39938971400260925</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03963512182235718</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3549930155277252</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09539157152175903</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5987873077392578</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23635399341583252</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01850329153239727</span><span class="p" data-group-id="0756954429-10">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-9">]</span><span class="w">
-    </span><span class="p" data-group-id="0756954429-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="0756954429-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-12">#</span><span class="nc" data-group-id="0756954429-12">Nx.Tensor</span><span class="p" data-group-id="0756954429-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0756954429-13">[</span><span class="mi">4</span><span class="p" data-group-id="0756954429-13">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-14">[</span><span class="o">-</span><span class="mf">0.00194685033056885</span><span class="p">,</span><span class="w"> </span><span class="mf">0.007812315598130226</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01710106059908867</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0080711729824543</span><span class="p" data-group-id="0756954429-14">]</span><span class="w">
-    </span><span class="p" data-group-id="0756954429-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-15">#</span><span class="nc" data-group-id="0756954429-15">Nx.Tensor</span><span class="p" data-group-id="0756954429-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0756954429-16">[</span><span class="mi">8</span><span class="p" data-group-id="0756954429-16">]</span><span class="p" data-group-id="0756954429-17">[</span><span class="mi">4</span><span class="p" data-group-id="0756954429-17">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-18">[</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-19">[</span><span class="o">-</span><span class="mf">0.6497661471366882</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3379145562648773</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3343344032764435</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4334254860877991</span><span class="p" data-group-id="0756954429-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-20">[</span><span class="o">-</span><span class="mf">0.37884217500686646</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41724908351898193</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19513007998466492</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22494879364967346</span><span class="p" data-group-id="0756954429-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-21">[</span><span class="o">-</span><span class="mf">0.42438197135925293</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.40400123596191406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5355109572410583</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4295356869697571</span><span class="p" data-group-id="0756954429-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-22">[</span><span class="mf">0.15086597204208374</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30529624223709106</span><span class="p">,</span><span class="w"> </span><span class="mf">0.002222923096269369</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32834741473197937</span><span class="p" data-group-id="0756954429-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-23">[</span><span class="o">-</span><span class="mf">0.09336567670106888</span><span class="p">,</span><span class="w"> </span><span class="mf">0.471781849861145</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06567475199699402</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4361487627029419</span><span class="p" data-group-id="0756954429-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-24">[</span><span class="mf">0.23664812743663788</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13572633266448975</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13837064802646637</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09471122920513153</span><span class="p" data-group-id="0756954429-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-25">[</span><span class="mf">0.6461064219474792</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2435072958469391</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04861235246062279</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1969985067844391</span><span class="p" data-group-id="0756954429-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-26">[</span><span class="mf">0.17856749892234802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41614532470703125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06008348613977432</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3271574079990387</span><span class="p" data-group-id="0756954429-26">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-18">]</span><span class="w">
-    </span><span class="p" data-group-id="0756954429-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="0756954429-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-28">#</span><span class="nc" data-group-id="0756954429-28">Nx.Tensor</span><span class="p" data-group-id="0756954429-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0756954429-29">[</span><span class="mi">1</span><span class="p" data-group-id="0756954429-29">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-30">[</span><span class="o">-</span><span class="mf">0.005317525006830692</span><span class="p" data-group-id="0756954429-30">]</span><span class="w">
-    </span><span class="p" data-group-id="0756954429-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0756954429-31">#</span><span class="nc" data-group-id="0756954429-31">Nx.Tensor</span><span class="p" data-group-id="0756954429-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="0756954429-32">[</span><span class="mi">4</span><span class="p" data-group-id="0756954429-32">]</span><span class="p" data-group-id="0756954429-33">[</span><span class="mi">1</span><span class="p" data-group-id="0756954429-33">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-34">[</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-35">[</span><span class="o">-</span><span class="mf">0.07891849428415298</span><span class="p" data-group-id="0756954429-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-36">[</span><span class="mf">0.32653072476387024</span><span class="p" data-group-id="0756954429-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-37">[</span><span class="o">-</span><span class="mf">0.5885495543479919</span><span class="p" data-group-id="0756954429-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="0756954429-38">[</span><span class="o">-</span><span class="mf">0.2781771719455719</span><span class="p" data-group-id="0756954429-38">]</span><span class="w">
-      </span><span class="p" data-group-id="0756954429-34">]</span><span class="w">
-    </span><span class="p" data-group-id="0756954429-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="0756954429-27">}</span><span class="w">
-</span><span class="p" data-group-id="0756954429-1">}</span></code></pre><p>You may access and update any portion of the loop state. Keep in mind that event handlers are <strong>not</strong> JIT-compiled, so you should be certain to manually JIT-compile any long-running or expensive operations.</p>
+</span><span class="n">stopping</span><span class="w"> </span><span class="n">epoch</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1322345472-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-3">#</span><span class="nc" data-group-id="1322345472-3">Nx.Tensor</span><span class="p" data-group-id="1322345472-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1322345472-4">[</span><span class="mi">8</span><span class="p" data-group-id="1322345472-4">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-5">[</span><span class="mf">0.009215549565851688</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.005282022058963776</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0023747326340526342</span><span class="p">,</span><span class="w"> </span><span class="mf">0.002623362001031637</span><span class="p">,</span><span class="w"> </span><span class="mf">0.003890525083988905</span><span class="p">,</span><span class="w"> </span><span class="mf">6.010813522152603e-4</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0024882694706320763</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0029246946796774864</span><span class="p" data-group-id="1322345472-5">]</span><span class="w">
+    </span><span class="p" data-group-id="1322345472-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-6">#</span><span class="nc" data-group-id="1322345472-6">Nx.Tensor</span><span class="p" data-group-id="1322345472-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1322345472-7">[</span><span class="mi">1</span><span class="p" data-group-id="1322345472-7">]</span><span class="p" data-group-id="1322345472-8">[</span><span class="mi">8</span><span class="p" data-group-id="1322345472-8">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-9">[</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-10">[</span><span class="o">-</span><span class="mf">0.3484582304954529</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39938971400260925</span><span class="p">,</span><span class="w"> </span><span class="mf">0.03963512182235718</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3549930155277252</span><span class="p">,</span><span class="w"> </span><span class="mf">0.09539157152175903</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5987873077392578</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23635399341583252</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01850329153239727</span><span class="p" data-group-id="1322345472-10">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-9">]</span><span class="w">
+    </span><span class="p" data-group-id="1322345472-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1322345472-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-12">#</span><span class="nc" data-group-id="1322345472-12">Nx.Tensor</span><span class="p" data-group-id="1322345472-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1322345472-13">[</span><span class="mi">4</span><span class="p" data-group-id="1322345472-13">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-14">[</span><span class="o">-</span><span class="mf">0.00194685033056885</span><span class="p">,</span><span class="w"> </span><span class="mf">0.007812315598130226</span><span class="p">,</span><span class="w"> </span><span class="mf">0.01710106059908867</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0080711729824543</span><span class="p" data-group-id="1322345472-14">]</span><span class="w">
+    </span><span class="p" data-group-id="1322345472-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-15">#</span><span class="nc" data-group-id="1322345472-15">Nx.Tensor</span><span class="p" data-group-id="1322345472-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1322345472-16">[</span><span class="mi">8</span><span class="p" data-group-id="1322345472-16">]</span><span class="p" data-group-id="1322345472-17">[</span><span class="mi">4</span><span class="p" data-group-id="1322345472-17">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-18">[</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-19">[</span><span class="o">-</span><span class="mf">0.6497661471366882</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3379145562648773</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3343344032764435</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4334254860877991</span><span class="p" data-group-id="1322345472-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-20">[</span><span class="o">-</span><span class="mf">0.37884217500686646</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.41724908351898193</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19513007998466492</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22494879364967346</span><span class="p" data-group-id="1322345472-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-21">[</span><span class="o">-</span><span class="mf">0.42438197135925293</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.40400123596191406</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5355109572410583</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4295356869697571</span><span class="p" data-group-id="1322345472-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-22">[</span><span class="mf">0.15086597204208374</span><span class="p">,</span><span class="w"> </span><span class="mf">0.30529624223709106</span><span class="p">,</span><span class="w"> </span><span class="mf">0.002222923096269369</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32834741473197937</span><span class="p" data-group-id="1322345472-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-23">[</span><span class="o">-</span><span class="mf">0.09336567670106888</span><span class="p">,</span><span class="w"> </span><span class="mf">0.471781849861145</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06567475199699402</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4361487627029419</span><span class="p" data-group-id="1322345472-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-24">[</span><span class="mf">0.23664812743663788</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13572633266448975</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13837064802646637</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09471122920513153</span><span class="p" data-group-id="1322345472-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-25">[</span><span class="mf">0.6461064219474792</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2435072958469391</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.04861235246062279</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1969985067844391</span><span class="p" data-group-id="1322345472-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-26">[</span><span class="mf">0.17856749892234802</span><span class="p">,</span><span class="w"> </span><span class="mf">0.41614532470703125</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.06008348613977432</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3271574079990387</span><span class="p" data-group-id="1322345472-26">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-18">]</span><span class="w">
+    </span><span class="p" data-group-id="1322345472-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1322345472-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-28">#</span><span class="nc" data-group-id="1322345472-28">Nx.Tensor</span><span class="p" data-group-id="1322345472-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1322345472-29">[</span><span class="mi">1</span><span class="p" data-group-id="1322345472-29">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-30">[</span><span class="o">-</span><span class="mf">0.005317525006830692</span><span class="p" data-group-id="1322345472-30">]</span><span class="w">
+    </span><span class="p" data-group-id="1322345472-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="1322345472-31">#</span><span class="nc" data-group-id="1322345472-31">Nx.Tensor</span><span class="p" data-group-id="1322345472-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="1322345472-32">[</span><span class="mi">4</span><span class="p" data-group-id="1322345472-32">]</span><span class="p" data-group-id="1322345472-33">[</span><span class="mi">1</span><span class="p" data-group-id="1322345472-33">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-34">[</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-35">[</span><span class="o">-</span><span class="mf">0.07891849428415298</span><span class="p" data-group-id="1322345472-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-36">[</span><span class="mf">0.32653072476387024</span><span class="p" data-group-id="1322345472-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-37">[</span><span class="o">-</span><span class="mf">0.5885495543479919</span><span class="p" data-group-id="1322345472-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="1322345472-38">[</span><span class="o">-</span><span class="mf">0.2781771719455719</span><span class="p" data-group-id="1322345472-38">]</span><span class="w">
+      </span><span class="p" data-group-id="1322345472-34">]</span><span class="w">
+    </span><span class="p" data-group-id="1322345472-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="1322345472-27">}</span><span class="w">
+</span><span class="p" data-group-id="1322345472-1">}</span></code></pre><p>You may access and update any portion of the loop state. Keep in mind that event handlers are <strong>not</strong> JIT-compiled, so you should be certain to manually JIT-compile any long-running or expensive operations.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/writing_custom_metrics.html b/writing_custom_metrics.html
index c7047287..11ec7587 100644
--- a/writing_custom_metrics.html
+++ b/writing_custom_metrics.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,323 +136,323 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1461564533-1">(</span><span class="p" data-group-id="1461564533-2">[</span><span class="w">
-  </span><span class="p" data-group-id="1461564533-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="1461564533-3">}</span><span class="w">
-</span><span class="p" data-group-id="1461564533-2">]</span><span class="p" data-group-id="1461564533-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="writing-custom-metrics" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="3653873974-1">(</span><span class="p" data-group-id="3653873974-2">[</span><span class="w">
+  </span><span class="p" data-group-id="3653873974-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="3653873974-3">}</span><span class="w">
+</span><span class="p" data-group-id="3653873974-2">]</span><span class="p" data-group-id="3653873974-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="writing-custom-metrics" class="section-heading">
   <a href="#writing-custom-metrics" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Writing custom metrics</span>
 </h2>
-<p>When passing an atom to <a href="Axon.Loop.html#metric/5"><code class="inline">Axon.Loop.metric/5</code></a>, Axon dispatches the function to a built-in function in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>. If you find you'd like to use a metric that does not exist in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>, you can define a custom function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomMetric</span><span class="w"> </span><span class="k" data-group-id="3548397105-1">do</span><span class="w">
+<p>When passing an atom to <a href="Axon.Loop.html#metric/5"><code class="inline">Axon.Loop.metric/5</code></a>, Axon dispatches the function to a built-in function in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>. If you find you'd like to use a metric that does not exist in <a href="Axon.Metrics.html"><code class="inline">Axon.Metrics</code></a>, you can define a custom function:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomMetric</span><span class="w"> </span><span class="k" data-group-id="3447382742-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_weird_metric</span><span class="p" data-group-id="3548397105-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3548397105-2">)</span><span class="w"> </span><span class="k" data-group-id="3548397105-3">do</span><span class="w">
-    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">atan2</span><span class="p" data-group-id="3548397105-4">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3548397105-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="3548397105-5">(</span><span class="p" data-group-id="3548397105-5">)</span><span class="w">
-  </span><span class="k" data-group-id="3548397105-3">end</span><span class="w">
-</span><span class="k" data-group-id="3548397105-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5998900820-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomMetric</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5998900820-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="5998900820-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="5998900820-1">}</span></code></pre><p>Then you can pass that directly to <a href="Axon.Loop.html#metric/5"><code class="inline">Axon.Loop.metric/5</code></a>. You must provide a name for your custom metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5957038444-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="5957038444-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5957038444-2">(</span><span class="mi">8</span><span class="p" data-group-id="5957038444-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5957038444-3">(</span><span class="p" data-group-id="5957038444-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5957038444-4">(</span><span class="mi">4</span><span class="p" data-group-id="5957038444-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="5957038444-5">(</span><span class="p" data-group-id="5957038444-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5957038444-6">(</span><span class="mi">1</span><span class="p" data-group-id="5957038444-6">)</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">my_weird_metric</span><span class="p" data-group-id="3447382742-2">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3447382742-2">)</span><span class="w"> </span><span class="k" data-group-id="3447382742-3">do</span><span class="w">
+    </span><span class="nc">Nx</span><span class="o">.</span><span class="n">atan2</span><span class="p" data-group-id="3447382742-4">(</span><span class="n">y_true</span><span class="p">,</span><span class="w"> </span><span class="n">y_pred</span><span class="p" data-group-id="3447382742-4">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sum</span><span class="p" data-group-id="3447382742-5">(</span><span class="p" data-group-id="3447382742-5">)</span><span class="w">
+  </span><span class="k" data-group-id="3447382742-3">end</span><span class="w">
+</span><span class="k" data-group-id="3447382742-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9385266913-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomMetric</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9385266913-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="9385266913-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="9385266913-1">}</span></code></pre><p>Then you can pass that directly to <a href="Axon.Loop.html#metric/5"><code class="inline">Axon.Loop.metric/5</code></a>. You must provide a name for your custom metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9974817347-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="9974817347-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9974817347-2">(</span><span class="mi">8</span><span class="p" data-group-id="9974817347-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9974817347-3">(</span><span class="p" data-group-id="9974817347-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9974817347-4">(</span><span class="mi">4</span><span class="p" data-group-id="9974817347-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9974817347-5">(</span><span class="p" data-group-id="9974817347-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9974817347-6">(</span><span class="mi">1</span><span class="p" data-group-id="9974817347-6">)</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5957038444-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="5957038444-7">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="5957038444-8">(</span><span class="o">&amp;</span><span class="nc">CustomMetric</span><span class="o">.</span><span class="n">my_weird_metric</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;my weird metric&quot;</span><span class="p" data-group-id="5957038444-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3017985947-1">#</span><span class="nc" data-group-id="3017985947-1">Axon.Loop</span><span class="p" data-group-id="3017985947-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-2">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3017985947-3">{</span><span class="p" data-group-id="3017985947-4">#</span><span class="nc" data-group-id="3017985947-4">Function</span><span class="p" data-group-id="3017985947-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3017985947-4">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="3017985947-5">#</span><span class="nc" data-group-id="3017985947-5">Function</span><span class="p" data-group-id="3017985947-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3017985947-5">&gt;</span><span class="p" data-group-id="3017985947-3">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;my weird metric&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3017985947-6">{</span><span class="p" data-group-id="3017985947-7">#</span><span class="nc" data-group-id="3017985947-7">Function</span><span class="p" data-group-id="3017985947-7">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3017985947-7">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="o">&amp;</span><span class="nc">CustomMetric</span><span class="o">.</span><span class="n">my_weird_metric</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="3017985947-6">}</span><span class="w">
-  </span><span class="p" data-group-id="3017985947-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-8">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-9">[</span><span class="p" data-group-id="3017985947-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-10">[</span><span class="w">
-      </span><span class="p" data-group-id="3017985947-11">{</span><span class="p" data-group-id="3017985947-12">#</span><span class="nc" data-group-id="3017985947-12">Function</span><span class="p" data-group-id="3017985947-12">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="3017985947-12">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="3017985947-13">#</span><span class="nc" data-group-id="3017985947-13">Function</span><span class="p" data-group-id="3017985947-13">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3017985947-13">&gt;</span><span class="p" data-group-id="3017985947-11">}</span><span class="w">
-    </span><span class="p" data-group-id="3017985947-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-14">[</span><span class="p" data-group-id="3017985947-14">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-15">[</span><span class="p" data-group-id="3017985947-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-16">[</span><span class="p" data-group-id="3017985947-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-17">[</span><span class="w">
-      </span><span class="p" data-group-id="3017985947-18">{</span><span class="p" data-group-id="3017985947-19">#</span><span class="nc" data-group-id="3017985947-19">Function</span><span class="p" data-group-id="3017985947-19">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="3017985947-19">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="3017985947-20">#</span><span class="nc" data-group-id="3017985947-20">Function</span><span class="p" data-group-id="3017985947-20">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3017985947-20">&gt;</span><span class="p" data-group-id="3017985947-18">}</span><span class="w">
-    </span><span class="p" data-group-id="3017985947-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-21">[</span><span class="p" data-group-id="3017985947-21">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3017985947-22">[</span><span class="p" data-group-id="3017985947-22">]</span><span class="w">
-  </span><span class="p" data-group-id="3017985947-8">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9974817347-7">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9974817347-7">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9974817347-8">(</span><span class="o">&amp;</span><span class="nc">CustomMetric</span><span class="o">.</span><span class="n">my_weird_metric</span><span class="o">/</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;my weird metric&quot;</span><span class="p" data-group-id="9974817347-8">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2179405446-1">#</span><span class="nc" data-group-id="2179405446-1">Axon.Loop</span><span class="p" data-group-id="2179405446-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-2">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2179405446-3">{</span><span class="p" data-group-id="2179405446-4">#</span><span class="nc" data-group-id="2179405446-4">Function</span><span class="p" data-group-id="2179405446-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2179405446-4">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="2179405446-5">#</span><span class="nc" data-group-id="2179405446-5">Function</span><span class="p" data-group-id="2179405446-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2179405446-5">&gt;</span><span class="p" data-group-id="2179405446-3">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;my weird metric&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2179405446-6">{</span><span class="p" data-group-id="2179405446-7">#</span><span class="nc" data-group-id="2179405446-7">Function</span><span class="p" data-group-id="2179405446-7">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2179405446-7">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="o">&amp;</span><span class="nc">CustomMetric</span><span class="o">.</span><span class="n">my_weird_metric</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2179405446-6">}</span><span class="w">
+  </span><span class="p" data-group-id="2179405446-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-8">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-9">[</span><span class="p" data-group-id="2179405446-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-10">[</span><span class="w">
+      </span><span class="p" data-group-id="2179405446-11">{</span><span class="p" data-group-id="2179405446-12">#</span><span class="nc" data-group-id="2179405446-12">Function</span><span class="p" data-group-id="2179405446-12">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="2179405446-12">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="2179405446-13">#</span><span class="nc" data-group-id="2179405446-13">Function</span><span class="p" data-group-id="2179405446-13">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2179405446-13">&gt;</span><span class="p" data-group-id="2179405446-11">}</span><span class="w">
+    </span><span class="p" data-group-id="2179405446-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-14">[</span><span class="p" data-group-id="2179405446-14">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-15">[</span><span class="p" data-group-id="2179405446-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-16">[</span><span class="p" data-group-id="2179405446-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-17">[</span><span class="w">
+      </span><span class="p" data-group-id="2179405446-18">{</span><span class="p" data-group-id="2179405446-19">#</span><span class="nc" data-group-id="2179405446-19">Function</span><span class="p" data-group-id="2179405446-19">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="2179405446-19">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="2179405446-20">#</span><span class="nc" data-group-id="2179405446-20">Function</span><span class="p" data-group-id="2179405446-20">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2179405446-20">&gt;</span><span class="p" data-group-id="2179405446-18">}</span><span class="w">
+    </span><span class="p" data-group-id="2179405446-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-21">[</span><span class="p" data-group-id="2179405446-21">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2179405446-22">[</span><span class="p" data-group-id="2179405446-22">]</span><span class="w">
+  </span><span class="p" data-group-id="2179405446-8">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="3017985947-1">&gt;</span></code></pre><p>Then when running, Axon will invoke your custom metric function and accumulate it with the given aggregator:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="9298091498-1">(</span><span class="k" data-group-id="9298091498-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="9298091498-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="9298091498-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="9298091498-4">(</span><span class="mi">9999</span><span class="p" data-group-id="9298091498-4">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9298091498-5">(</span><span class="p" data-group-id="9298091498-5">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="9298091498-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9298091498-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9298091498-7">}</span><span class="p" data-group-id="9298091498-6">)</span><span class="w">
-
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="9298091498-8">(</span><span class="n">xs</span><span class="p" data-group-id="9298091498-8">)</span><span class="w">
-    </span><span class="p" data-group-id="9298091498-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="9298091498-9">}</span><span class="w">
-  </span><span class="k" data-group-id="9298091498-2">end</span><span class="p" data-group-id="9298091498-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9298091498-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9298091498-11">%{</span><span class="p" data-group-id="9298091498-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="9298091498-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0681635</span><span class="w"> </span><span class="n">my</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">metric</span><span class="p">:</span><span class="w"> </span><span class="o">-</span><span class="mf">5.2842808</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2119302330-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-3">#</span><span class="nc" data-group-id="2119302330-3">Nx.Tensor</span><span class="p" data-group-id="2119302330-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2119302330-4">[</span><span class="mi">8</span><span class="p" data-group-id="2119302330-4">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-5">[</span><span class="mf">0.0866982489824295</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4234408140182495</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18205422163009644</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34029239416122437</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25770726799964905</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07117943465709686</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11470477283000946</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.027526771649718285</span><span class="p" data-group-id="2119302330-5">]</span><span class="w">
-    </span><span class="p" data-group-id="2119302330-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-6">#</span><span class="nc" data-group-id="2119302330-6">Nx.Tensor</span><span class="p" data-group-id="2119302330-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2119302330-7">[</span><span class="mi">1</span><span class="p" data-group-id="2119302330-7">]</span><span class="p" data-group-id="2119302330-8">[</span><span class="mi">8</span><span class="p" data-group-id="2119302330-8">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-9">[</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-10">[</span><span class="o">-</span><span class="mf">0.7088809013366699</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4486531913280487</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4666421115398407</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4163222312927246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5076444149017334</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10119977593421936</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6628422141075134</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.024421442300081253</span><span class="p" data-group-id="2119302330-10">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-9">]</span><span class="w">
-    </span><span class="p" data-group-id="2119302330-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2119302330-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-12">#</span><span class="nc" data-group-id="2119302330-12">Nx.Tensor</span><span class="p" data-group-id="2119302330-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2119302330-13">[</span><span class="mi">4</span><span class="p" data-group-id="2119302330-13">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-14">[</span><span class="mf">0.2924745976924896</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0065560233779251575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21106423437595367</span><span class="p" data-group-id="2119302330-14">]</span><span class="w">
-    </span><span class="p" data-group-id="2119302330-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-15">#</span><span class="nc" data-group-id="2119302330-15">Nx.Tensor</span><span class="p" data-group-id="2119302330-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2119302330-16">[</span><span class="mi">8</span><span class="p" data-group-id="2119302330-16">]</span><span class="p" data-group-id="2119302330-17">[</span><span class="mi">4</span><span class="p" data-group-id="2119302330-17">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-18">[</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-19">[</span><span class="o">-</span><span class="mf">0.3407173752784729</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6905813217163086</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5984221696853638</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23955762386322021</span><span class="p" data-group-id="2119302330-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-20">[</span><span class="mf">0.42608022689819336</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5949274301528931</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24687853455543518</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4948572516441345</span><span class="p" data-group-id="2119302330-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-21">[</span><span class="mf">0.27617380023002625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44326621294021606</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5848686099052429</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31592807173728943</span><span class="p" data-group-id="2119302330-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-22">[</span><span class="mf">0.5401414632797241</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1041281446814537</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4072037935256958</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4387882947921753</span><span class="p" data-group-id="2119302330-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-23">[</span><span class="o">-</span><span class="mf">0.5410752892494202</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4544697403907776</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6238576173782349</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2077195793390274</span><span class="p" data-group-id="2119302330-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-24">[</span><span class="o">-</span><span class="mf">0.41753143072128296</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11599045991897583</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22447934746742249</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5805748701095581</span><span class="p" data-group-id="2119302330-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-25">[</span><span class="mf">0.1651047021150589</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.526184618473053</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34729963541030884</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3307822048664093</span><span class="p" data-group-id="2119302330-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-26">[</span><span class="mf">0.6879482865333557</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27184563875198364</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4907835125923157</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3555335998535156</span><span class="p" data-group-id="2119302330-26">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-18">]</span><span class="w">
-    </span><span class="p" data-group-id="2119302330-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2119302330-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-28">#</span><span class="nc" data-group-id="2119302330-28">Nx.Tensor</span><span class="p" data-group-id="2119302330-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2119302330-29">[</span><span class="mi">1</span><span class="p" data-group-id="2119302330-29">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-30">[</span><span class="o">-</span><span class="mf">0.8146252036094666</span><span class="p" data-group-id="2119302330-30">]</span><span class="w">
-    </span><span class="p" data-group-id="2119302330-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2119302330-31">#</span><span class="nc" data-group-id="2119302330-31">Nx.Tensor</span><span class="p" data-group-id="2119302330-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="2119302330-32">[</span><span class="mi">4</span><span class="p" data-group-id="2119302330-32">]</span><span class="p" data-group-id="2119302330-33">[</span><span class="mi">1</span><span class="p" data-group-id="2119302330-33">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-34">[</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-35">[</span><span class="mf">1.2187021970748901</span><span class="p" data-group-id="2119302330-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-36">[</span><span class="mf">0.13001228868961334</span><span class="p" data-group-id="2119302330-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-37">[</span><span class="mf">0.2703772783279419</span><span class="p" data-group-id="2119302330-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="2119302330-38">[</span><span class="o">-</span><span class="mf">0.3591017723083496</span><span class="p" data-group-id="2119302330-38">]</span><span class="w">
-      </span><span class="p" data-group-id="2119302330-34">]</span><span class="w">
-    </span><span class="p" data-group-id="2119302330-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="2119302330-27">}</span><span class="w">
-</span><span class="p" data-group-id="2119302330-1">}</span></code></pre><p>While the metric defaults are designed with supervised training loops in mind, they can be used for much more flexible purposes. By default, metrics look for the fields <code class="inline">:y_true</code> and <code class="inline">:y_pred</code> in the given loop's step state. They then apply the given metric function on those inputs. You can also define metrics which work on other fields. For example you can track the running average of a given parameter with a metric just by defining a custom output transform:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9131331647-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="9131331647-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9131331647-2">(</span><span class="mi">8</span><span class="p" data-group-id="9131331647-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9131331647-3">(</span><span class="p" data-group-id="9131331647-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9131331647-4">(</span><span class="mi">4</span><span class="p" data-group-id="9131331647-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9131331647-5">(</span><span class="p" data-group-id="9131331647-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9131331647-6">(</span><span class="mi">1</span><span class="p" data-group-id="9131331647-6">)</span><span class="w">
-
-</span><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="9131331647-7">fn</span><span class="w"> </span><span class="p" data-group-id="9131331647-8">%{</span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">model_state</span><span class="p" data-group-id="9131331647-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9131331647-9">[</span><span class="n">model_state</span><span class="p" data-group-id="9131331647-10">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="9131331647-10">]</span><span class="p" data-group-id="9131331647-11">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="9131331647-11">]</span><span class="p" data-group-id="9131331647-9">]</span><span class="w">
-</span><span class="k" data-group-id="9131331647-7">end</span><span class="w">
+</span><span class="p" data-group-id="2179405446-1">&gt;</span></code></pre><p>Then when running, Axon will invoke your custom metric function and accumulate it with the given aggregator:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="8715111517-1">(</span><span class="k" data-group-id="8715111517-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="8715111517-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="8715111517-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="8715111517-4">(</span><span class="mi">9999</span><span class="p" data-group-id="8715111517-4">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="8715111517-5">(</span><span class="p" data-group-id="8715111517-5">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="8715111517-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8715111517-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8715111517-7">}</span><span class="p" data-group-id="8715111517-6">)</span><span class="w">
+
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="8715111517-8">(</span><span class="n">xs</span><span class="p" data-group-id="8715111517-8">)</span><span class="w">
+    </span><span class="p" data-group-id="8715111517-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="8715111517-9">}</span><span class="w">
+  </span><span class="k" data-group-id="8715111517-2">end</span><span class="p" data-group-id="8715111517-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8715111517-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8715111517-11">%{</span><span class="p" data-group-id="8715111517-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="8715111517-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0681635</span><span class="w"> </span><span class="n">my</span><span class="w"> </span><span class="n">weird</span><span class="w"> </span><span class="ss">metric</span><span class="p">:</span><span class="w"> </span><span class="o">-</span><span class="mf">5.2842808</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7440695441-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-3">#</span><span class="nc" data-group-id="7440695441-3">Nx.Tensor</span><span class="p" data-group-id="7440695441-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7440695441-4">[</span><span class="mi">8</span><span class="p" data-group-id="7440695441-4">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-5">[</span><span class="mf">0.0866982489824295</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4234408140182495</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18205422163009644</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34029239416122437</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25770726799964905</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07117943465709686</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11470477283000946</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.027526771649718285</span><span class="p" data-group-id="7440695441-5">]</span><span class="w">
+    </span><span class="p" data-group-id="7440695441-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-6">#</span><span class="nc" data-group-id="7440695441-6">Nx.Tensor</span><span class="p" data-group-id="7440695441-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7440695441-7">[</span><span class="mi">1</span><span class="p" data-group-id="7440695441-7">]</span><span class="p" data-group-id="7440695441-8">[</span><span class="mi">8</span><span class="p" data-group-id="7440695441-8">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-9">[</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-10">[</span><span class="o">-</span><span class="mf">0.7088809013366699</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4486531913280487</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4666421115398407</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4163222312927246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5076444149017334</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10119977593421936</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6628422141075134</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.024421442300081253</span><span class="p" data-group-id="7440695441-10">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-9">]</span><span class="w">
+    </span><span class="p" data-group-id="7440695441-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7440695441-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-12">#</span><span class="nc" data-group-id="7440695441-12">Nx.Tensor</span><span class="p" data-group-id="7440695441-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7440695441-13">[</span><span class="mi">4</span><span class="p" data-group-id="7440695441-13">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-14">[</span><span class="mf">0.2924745976924896</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0065560233779251575</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21106423437595367</span><span class="p" data-group-id="7440695441-14">]</span><span class="w">
+    </span><span class="p" data-group-id="7440695441-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-15">#</span><span class="nc" data-group-id="7440695441-15">Nx.Tensor</span><span class="p" data-group-id="7440695441-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7440695441-16">[</span><span class="mi">8</span><span class="p" data-group-id="7440695441-16">]</span><span class="p" data-group-id="7440695441-17">[</span><span class="mi">4</span><span class="p" data-group-id="7440695441-17">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-18">[</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-19">[</span><span class="o">-</span><span class="mf">0.3407173752784729</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6905813217163086</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5984221696853638</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.23955762386322021</span><span class="p" data-group-id="7440695441-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-20">[</span><span class="mf">0.42608022689819336</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5949274301528931</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24687853455543518</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4948572516441345</span><span class="p" data-group-id="7440695441-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-21">[</span><span class="mf">0.27617380023002625</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44326621294021606</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5848686099052429</span><span class="p">,</span><span class="w"> </span><span class="mf">0.31592807173728943</span><span class="p" data-group-id="7440695441-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-22">[</span><span class="mf">0.5401414632797241</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1041281446814537</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4072037935256958</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4387882947921753</span><span class="p" data-group-id="7440695441-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-23">[</span><span class="o">-</span><span class="mf">0.5410752892494202</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4544697403907776</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6238576173782349</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2077195793390274</span><span class="p" data-group-id="7440695441-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-24">[</span><span class="o">-</span><span class="mf">0.41753143072128296</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11599045991897583</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.22447934746742249</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5805748701095581</span><span class="p" data-group-id="7440695441-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-25">[</span><span class="mf">0.1651047021150589</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.526184618473053</span><span class="p">,</span><span class="w"> </span><span class="mf">0.34729963541030884</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3307822048664093</span><span class="p" data-group-id="7440695441-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-26">[</span><span class="mf">0.6879482865333557</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27184563875198364</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4907835125923157</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3555335998535156</span><span class="p" data-group-id="7440695441-26">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-18">]</span><span class="w">
+    </span><span class="p" data-group-id="7440695441-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7440695441-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-28">#</span><span class="nc" data-group-id="7440695441-28">Nx.Tensor</span><span class="p" data-group-id="7440695441-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7440695441-29">[</span><span class="mi">1</span><span class="p" data-group-id="7440695441-29">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-30">[</span><span class="o">-</span><span class="mf">0.8146252036094666</span><span class="p" data-group-id="7440695441-30">]</span><span class="w">
+    </span><span class="p" data-group-id="7440695441-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7440695441-31">#</span><span class="nc" data-group-id="7440695441-31">Nx.Tensor</span><span class="p" data-group-id="7440695441-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7440695441-32">[</span><span class="mi">4</span><span class="p" data-group-id="7440695441-32">]</span><span class="p" data-group-id="7440695441-33">[</span><span class="mi">1</span><span class="p" data-group-id="7440695441-33">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-34">[</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-35">[</span><span class="mf">1.2187021970748901</span><span class="p" data-group-id="7440695441-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-36">[</span><span class="mf">0.13001228868961334</span><span class="p" data-group-id="7440695441-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-37">[</span><span class="mf">0.2703772783279419</span><span class="p" data-group-id="7440695441-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7440695441-38">[</span><span class="o">-</span><span class="mf">0.3591017723083496</span><span class="p" data-group-id="7440695441-38">]</span><span class="w">
+      </span><span class="p" data-group-id="7440695441-34">]</span><span class="w">
+    </span><span class="p" data-group-id="7440695441-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7440695441-27">}</span><span class="w">
+</span><span class="p" data-group-id="7440695441-1">}</span></code></pre><p>While the metric defaults are designed with supervised training loops in mind, they can be used for much more flexible purposes. By default, metrics look for the fields <code class="inline">:y_true</code> and <code class="inline">:y_pred</code> in the given loop's step state. They then apply the given metric function on those inputs. You can also define metrics which work on other fields. For example you can track the running average of a given parameter with a metric just by defining a custom output transform:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="8278280083-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="8278280083-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8278280083-2">(</span><span class="mi">8</span><span class="p" data-group-id="8278280083-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8278280083-3">(</span><span class="p" data-group-id="8278280083-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8278280083-4">(</span><span class="mi">4</span><span class="p" data-group-id="8278280083-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="8278280083-5">(</span><span class="p" data-group-id="8278280083-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="8278280083-6">(</span><span class="mi">1</span><span class="p" data-group-id="8278280083-6">)</span><span class="w">
+
+</span><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="8278280083-7">fn</span><span class="w"> </span><span class="p" data-group-id="8278280083-8">%{</span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">model_state</span><span class="p" data-group-id="8278280083-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8278280083-9">[</span><span class="n">model_state</span><span class="p" data-group-id="8278280083-10">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="8278280083-10">]</span><span class="p" data-group-id="8278280083-11">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="8278280083-11">]</span><span class="p" data-group-id="8278280083-9">]</span><span class="w">
+</span><span class="k" data-group-id="8278280083-7">end</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9131331647-12">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9131331647-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9131331647-13">(</span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dense_0_kernel_mean&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_average</span><span class="p">,</span><span class="w"> </span><span class="n">output_transform</span><span class="p" data-group-id="9131331647-13">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="9131331647-14">(</span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">variance</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dense_0_kernel_var&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_average</span><span class="p">,</span><span class="w"> </span><span class="n">output_transform</span><span class="p" data-group-id="9131331647-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8140375427-1">#</span><span class="nc" data-group-id="8140375427-1">Axon.Loop</span><span class="p" data-group-id="8140375427-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-2">%{</span><span class="w">
-    </span><span class="s">&quot;dense_0_kernel_mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8140375427-3">{</span><span class="p" data-group-id="8140375427-4">#</span><span class="nc" data-group-id="8140375427-4">Function</span><span class="p" data-group-id="8140375427-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8140375427-4">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8140375427-3">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;dense_0_kernel_var&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8140375427-5">{</span><span class="p" data-group-id="8140375427-6">#</span><span class="nc" data-group-id="8140375427-6">Function</span><span class="p" data-group-id="8140375427-6">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8140375427-6">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">variance</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8140375427-5">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8140375427-7">{</span><span class="p" data-group-id="8140375427-8">#</span><span class="nc" data-group-id="8140375427-8">Function</span><span class="p" data-group-id="8140375427-8">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8140375427-8">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="8140375427-9">#</span><span class="nc" data-group-id="8140375427-9">Function</span><span class="p" data-group-id="8140375427-9">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8140375427-9">&gt;</span><span class="p" data-group-id="8140375427-7">}</span><span class="w">
-  </span><span class="p" data-group-id="8140375427-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-10">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-11">[</span><span class="p" data-group-id="8140375427-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-12">[</span><span class="w">
-      </span><span class="p" data-group-id="8140375427-13">{</span><span class="p" data-group-id="8140375427-14">#</span><span class="nc" data-group-id="8140375427-14">Function</span><span class="p" data-group-id="8140375427-14">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="8140375427-14">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="8140375427-15">#</span><span class="nc" data-group-id="8140375427-15">Function</span><span class="p" data-group-id="8140375427-15">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8140375427-15">&gt;</span><span class="p" data-group-id="8140375427-13">}</span><span class="w">
-    </span><span class="p" data-group-id="8140375427-12">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-16">[</span><span class="p" data-group-id="8140375427-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-17">[</span><span class="p" data-group-id="8140375427-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-18">[</span><span class="p" data-group-id="8140375427-18">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-19">[</span><span class="w">
-      </span><span class="p" data-group-id="8140375427-20">{</span><span class="p" data-group-id="8140375427-21">#</span><span class="nc" data-group-id="8140375427-21">Function</span><span class="p" data-group-id="8140375427-21">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="8140375427-21">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="8140375427-22">#</span><span class="nc" data-group-id="8140375427-22">Function</span><span class="p" data-group-id="8140375427-22">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="8140375427-22">&gt;</span><span class="p" data-group-id="8140375427-20">}</span><span class="w">
-    </span><span class="p" data-group-id="8140375427-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-23">[</span><span class="p" data-group-id="8140375427-23">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8140375427-24">[</span><span class="p" data-group-id="8140375427-24">]</span><span class="w">
-  </span><span class="p" data-group-id="8140375427-10">}</span><span class="p">,</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8278280083-12">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="8278280083-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8278280083-13">(</span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dense_0_kernel_mean&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_average</span><span class="p">,</span><span class="w"> </span><span class="n">output_transform</span><span class="p" data-group-id="8278280083-13">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="8278280083-14">(</span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">variance</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;dense_0_kernel_var&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">:running_average</span><span class="p">,</span><span class="w"> </span><span class="n">output_transform</span><span class="p" data-group-id="8278280083-14">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0865272536-1">#</span><span class="nc" data-group-id="0865272536-1">Axon.Loop</span><span class="p" data-group-id="0865272536-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-2">%{</span><span class="w">
+    </span><span class="s">&quot;dense_0_kernel_mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0865272536-3">{</span><span class="p" data-group-id="0865272536-4">#</span><span class="nc" data-group-id="0865272536-4">Function</span><span class="p" data-group-id="0865272536-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0865272536-4">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0865272536-3">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;dense_0_kernel_var&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0865272536-5">{</span><span class="p" data-group-id="0865272536-6">#</span><span class="nc" data-group-id="0865272536-6">Function</span><span class="p" data-group-id="0865272536-6">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0865272536-6">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">variance</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0865272536-5">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0865272536-7">{</span><span class="p" data-group-id="0865272536-8">#</span><span class="nc" data-group-id="0865272536-8">Function</span><span class="p" data-group-id="0865272536-8">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0865272536-8">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="0865272536-9">#</span><span class="nc" data-group-id="0865272536-9">Function</span><span class="p" data-group-id="0865272536-9">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0865272536-9">&gt;</span><span class="p" data-group-id="0865272536-7">}</span><span class="w">
+  </span><span class="p" data-group-id="0865272536-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-10">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-11">[</span><span class="p" data-group-id="0865272536-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-12">[</span><span class="w">
+      </span><span class="p" data-group-id="0865272536-13">{</span><span class="p" data-group-id="0865272536-14">#</span><span class="nc" data-group-id="0865272536-14">Function</span><span class="p" data-group-id="0865272536-14">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="0865272536-14">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="0865272536-15">#</span><span class="nc" data-group-id="0865272536-15">Function</span><span class="p" data-group-id="0865272536-15">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0865272536-15">&gt;</span><span class="p" data-group-id="0865272536-13">}</span><span class="w">
+    </span><span class="p" data-group-id="0865272536-12">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-16">[</span><span class="p" data-group-id="0865272536-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-17">[</span><span class="p" data-group-id="0865272536-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-18">[</span><span class="p" data-group-id="0865272536-18">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-19">[</span><span class="w">
+      </span><span class="p" data-group-id="0865272536-20">{</span><span class="p" data-group-id="0865272536-21">#</span><span class="nc" data-group-id="0865272536-21">Function</span><span class="p" data-group-id="0865272536-21">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="0865272536-21">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="0865272536-22">#</span><span class="nc" data-group-id="0865272536-22">Function</span><span class="p" data-group-id="0865272536-22">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0865272536-22">&gt;</span><span class="p" data-group-id="0865272536-20">}</span><span class="w">
+    </span><span class="p" data-group-id="0865272536-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-23">[</span><span class="p" data-group-id="0865272536-23">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0865272536-24">[</span><span class="p" data-group-id="0865272536-24">]</span><span class="w">
+  </span><span class="p" data-group-id="0865272536-10">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="8140375427-1">&gt;</span></code></pre><p>Axon will apply your custom output transform to the loop's step state and forward the result to your custom metric function:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="8994880308-1">(</span><span class="k" data-group-id="8994880308-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="8994880308-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="8994880308-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="8994880308-4">(</span><span class="mi">9999</span><span class="p" data-group-id="8994880308-4">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="8994880308-5">(</span><span class="p" data-group-id="8994880308-5">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="8994880308-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="8994880308-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8994880308-7">}</span><span class="p" data-group-id="8994880308-6">)</span><span class="w">
-
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="8994880308-8">(</span><span class="n">xs</span><span class="p" data-group-id="8994880308-8">)</span><span class="w">
-    </span><span class="p" data-group-id="8994880308-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="8994880308-9">}</span><span class="w">
-  </span><span class="k" data-group-id="8994880308-2">end</span><span class="p" data-group-id="8994880308-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8994880308-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8994880308-11">%{</span><span class="p" data-group-id="8994880308-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="8994880308-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">dense_0_kernel_mean</span><span class="p">:</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1978206</span><span class="w"> </span><span class="ss">dense_0_kernel_var</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2699870</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0605523</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5448271457-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-3">#</span><span class="nc" data-group-id="5448271457-3">Nx.Tensor</span><span class="p" data-group-id="5448271457-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5448271457-4">[</span><span class="mi">8</span><span class="p" data-group-id="5448271457-4">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-5">[</span><span class="mf">0.371105819940567</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26451945304870605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.048297226428985596</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14616385102272034</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19356133043766022</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2924956679344177</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08295489847660065</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25213995575904846</span><span class="p" data-group-id="5448271457-5">]</span><span class="w">
-    </span><span class="p" data-group-id="5448271457-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-6">#</span><span class="nc" data-group-id="5448271457-6">Nx.Tensor</span><span class="p" data-group-id="5448271457-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5448271457-7">[</span><span class="mi">1</span><span class="p" data-group-id="5448271457-7">]</span><span class="p" data-group-id="5448271457-8">[</span><span class="mi">8</span><span class="p" data-group-id="5448271457-8">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-9">[</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-10">[</span><span class="o">-</span><span class="mf">0.3888320028781891</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39463144540786743</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5427617430686951</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776488721370697</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2402891218662262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6489362716674805</span><span class="p">,</span><span class="w"> </span><span class="mf">0.772796094417572</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3739306926727295</span><span class="p" data-group-id="5448271457-10">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-9">]</span><span class="w">
-    </span><span class="p" data-group-id="5448271457-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5448271457-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-12">#</span><span class="nc" data-group-id="5448271457-12">Nx.Tensor</span><span class="p" data-group-id="5448271457-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5448271457-13">[</span><span class="mi">4</span><span class="p" data-group-id="5448271457-13">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.006653765682131052</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3086839020252228</span><span class="p" data-group-id="5448271457-14">]</span><span class="w">
-    </span><span class="p" data-group-id="5448271457-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-15">#</span><span class="nc" data-group-id="5448271457-15">Nx.Tensor</span><span class="p" data-group-id="5448271457-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5448271457-16">[</span><span class="mi">8</span><span class="p" data-group-id="5448271457-16">]</span><span class="p" data-group-id="5448271457-17">[</span><span class="mi">4</span><span class="p" data-group-id="5448271457-17">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-18">[</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-19">[</span><span class="o">-</span><span class="mf">0.5556576251983643</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5547546148300171</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2708005905151367</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7341570258140564</span><span class="p" data-group-id="5448271457-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-20">[</span><span class="o">-</span><span class="mf">0.01800161600112915</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19749529659748077</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09523773193359375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4989740252494812</span><span class="p" data-group-id="5448271457-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-21">[</span><span class="o">-</span><span class="mf">0.19737857580184937</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2741832435131073</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3699955344200134</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21036939322948456</span><span class="p" data-group-id="5448271457-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-22">[</span><span class="o">-</span><span class="mf">0.09787613153457642</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5631319284439087</span><span class="p">,</span><span class="w"> </span><span class="mf">0.007957160472869873</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23681949079036713</span><span class="p" data-group-id="5448271457-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-23">[</span><span class="o">-</span><span class="mf">0.469108909368515</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24062377214431763</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.012939095497131348</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5055088400840759</span><span class="p" data-group-id="5448271457-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-24">[</span><span class="mf">0.11229842901229858</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5476430058479309</span><span class="p">,</span><span class="w"> </span><span class="mf">0.013744592666625977</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.631401538848877</span><span class="p" data-group-id="5448271457-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-25">[</span><span class="o">-</span><span class="mf">0.5834296941757202</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.42305096983909607</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1393480896949768</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4647532105445862</span><span class="p" data-group-id="5448271457-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-26">[</span><span class="o">-</span><span class="mf">0.3684111535549164</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5147689580917358</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3725535273551941</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46682292222976685</span><span class="p" data-group-id="5448271457-26">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-18">]</span><span class="w">
-    </span><span class="p" data-group-id="5448271457-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5448271457-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-28">#</span><span class="nc" data-group-id="5448271457-28">Nx.Tensor</span><span class="p" data-group-id="5448271457-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5448271457-29">[</span><span class="mi">1</span><span class="p" data-group-id="5448271457-29">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-30">[</span><span class="mf">0.8305950164794922</span><span class="p" data-group-id="5448271457-30">]</span><span class="w">
-    </span><span class="p" data-group-id="5448271457-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5448271457-31">#</span><span class="nc" data-group-id="5448271457-31">Nx.Tensor</span><span class="p" data-group-id="5448271457-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="5448271457-32">[</span><span class="mi">4</span><span class="p" data-group-id="5448271457-32">]</span><span class="p" data-group-id="5448271457-33">[</span><span class="mi">1</span><span class="p" data-group-id="5448271457-33">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-34">[</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-35">[</span><span class="mf">0.7111979722976685</span><span class="p" data-group-id="5448271457-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-36">[</span><span class="o">-</span><span class="mf">0.49341335892677307</span><span class="p" data-group-id="5448271457-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-37">[</span><span class="o">-</span><span class="mf">0.32701319456100464</span><span class="p" data-group-id="5448271457-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="5448271457-38">[</span><span class="o">-</span><span class="mf">1.0638068914413452</span><span class="p" data-group-id="5448271457-38">]</span><span class="w">
-      </span><span class="p" data-group-id="5448271457-34">]</span><span class="w">
-    </span><span class="p" data-group-id="5448271457-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="5448271457-27">}</span><span class="w">
-</span><span class="p" data-group-id="5448271457-1">}</span></code></pre><p>You can also define custom accumulation functions. Axon has definitions for computing running averages and running sums; however, you might find you need something like an exponential moving average:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomAccumulator</span><span class="w"> </span><span class="k" data-group-id="1597515012-1">do</span><span class="w">
+</span><span class="p" data-group-id="0865272536-1">&gt;</span></code></pre><p>Axon will apply your custom output transform to the loop's step state and forward the result to your custom metric function:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="2812889662-1">(</span><span class="k" data-group-id="2812889662-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="2812889662-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="2812889662-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="2812889662-4">(</span><span class="mi">9999</span><span class="p" data-group-id="2812889662-4">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2812889662-5">(</span><span class="p" data-group-id="2812889662-5">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="2812889662-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2812889662-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2812889662-7">}</span><span class="p" data-group-id="2812889662-6">)</span><span class="w">
+
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="2812889662-8">(</span><span class="n">xs</span><span class="p" data-group-id="2812889662-8">)</span><span class="w">
+    </span><span class="p" data-group-id="2812889662-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="2812889662-9">}</span><span class="w">
+  </span><span class="k" data-group-id="2812889662-2">end</span><span class="p" data-group-id="2812889662-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2812889662-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2812889662-11">%{</span><span class="p" data-group-id="2812889662-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="2812889662-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">dense_0_kernel_mean</span><span class="p">:</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1978206</span><span class="w"> </span><span class="ss">dense_0_kernel_var</span><span class="p">:</span><span class="w"> </span><span class="mf">0.2699870</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0605523</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3022438367-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-3">#</span><span class="nc" data-group-id="3022438367-3">Nx.Tensor</span><span class="p" data-group-id="3022438367-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3022438367-4">[</span><span class="mi">8</span><span class="p" data-group-id="3022438367-4">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-5">[</span><span class="mf">0.371105819940567</span><span class="p">,</span><span class="w"> </span><span class="mf">0.26451945304870605</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.048297226428985596</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14616385102272034</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19356133043766022</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2924956679344177</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08295489847660065</span><span class="p">,</span><span class="w"> </span><span class="mf">0.25213995575904846</span><span class="p" data-group-id="3022438367-5">]</span><span class="w">
+    </span><span class="p" data-group-id="3022438367-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-6">#</span><span class="nc" data-group-id="3022438367-6">Nx.Tensor</span><span class="p" data-group-id="3022438367-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3022438367-7">[</span><span class="mi">1</span><span class="p" data-group-id="3022438367-7">]</span><span class="p" data-group-id="3022438367-8">[</span><span class="mi">8</span><span class="p" data-group-id="3022438367-8">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-9">[</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-10">[</span><span class="o">-</span><span class="mf">0.3888320028781891</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.39463144540786743</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5427617430686951</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.776488721370697</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2402891218662262</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6489362716674805</span><span class="p">,</span><span class="w"> </span><span class="mf">0.772796094417572</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3739306926727295</span><span class="p" data-group-id="3022438367-10">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-9">]</span><span class="w">
+    </span><span class="p" data-group-id="3022438367-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3022438367-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-12">#</span><span class="nc" data-group-id="3022438367-12">Nx.Tensor</span><span class="p" data-group-id="3022438367-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3022438367-13">[</span><span class="mi">4</span><span class="p" data-group-id="3022438367-13">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-14">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.006653765682131052</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3086839020252228</span><span class="p" data-group-id="3022438367-14">]</span><span class="w">
+    </span><span class="p" data-group-id="3022438367-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-15">#</span><span class="nc" data-group-id="3022438367-15">Nx.Tensor</span><span class="p" data-group-id="3022438367-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3022438367-16">[</span><span class="mi">8</span><span class="p" data-group-id="3022438367-16">]</span><span class="p" data-group-id="3022438367-17">[</span><span class="mi">4</span><span class="p" data-group-id="3022438367-17">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-18">[</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-19">[</span><span class="o">-</span><span class="mf">0.5556576251983643</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5547546148300171</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2708005905151367</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7341570258140564</span><span class="p" data-group-id="3022438367-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-20">[</span><span class="o">-</span><span class="mf">0.01800161600112915</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19749529659748077</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.09523773193359375</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4989740252494812</span><span class="p" data-group-id="3022438367-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-21">[</span><span class="o">-</span><span class="mf">0.19737857580184937</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2741832435131073</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3699955344200134</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21036939322948456</span><span class="p" data-group-id="3022438367-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-22">[</span><span class="o">-</span><span class="mf">0.09787613153457642</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5631319284439087</span><span class="p">,</span><span class="w"> </span><span class="mf">0.007957160472869873</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23681949079036713</span><span class="p" data-group-id="3022438367-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-23">[</span><span class="o">-</span><span class="mf">0.469108909368515</span><span class="p">,</span><span class="w"> </span><span class="mf">0.24062377214431763</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.012939095497131348</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5055088400840759</span><span class="p" data-group-id="3022438367-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-24">[</span><span class="mf">0.11229842901229858</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5476430058479309</span><span class="p">,</span><span class="w"> </span><span class="mf">0.013744592666625977</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.631401538848877</span><span class="p" data-group-id="3022438367-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-25">[</span><span class="o">-</span><span class="mf">0.5834296941757202</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.42305096983909607</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1393480896949768</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4647532105445862</span><span class="p" data-group-id="3022438367-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-26">[</span><span class="o">-</span><span class="mf">0.3684111535549164</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5147689580917358</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3725535273551941</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46682292222976685</span><span class="p" data-group-id="3022438367-26">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-18">]</span><span class="w">
+    </span><span class="p" data-group-id="3022438367-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3022438367-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-28">#</span><span class="nc" data-group-id="3022438367-28">Nx.Tensor</span><span class="p" data-group-id="3022438367-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3022438367-29">[</span><span class="mi">1</span><span class="p" data-group-id="3022438367-29">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-30">[</span><span class="mf">0.8305950164794922</span><span class="p" data-group-id="3022438367-30">]</span><span class="w">
+    </span><span class="p" data-group-id="3022438367-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="3022438367-31">#</span><span class="nc" data-group-id="3022438367-31">Nx.Tensor</span><span class="p" data-group-id="3022438367-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="3022438367-32">[</span><span class="mi">4</span><span class="p" data-group-id="3022438367-32">]</span><span class="p" data-group-id="3022438367-33">[</span><span class="mi">1</span><span class="p" data-group-id="3022438367-33">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-34">[</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-35">[</span><span class="mf">0.7111979722976685</span><span class="p" data-group-id="3022438367-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-36">[</span><span class="o">-</span><span class="mf">0.49341335892677307</span><span class="p" data-group-id="3022438367-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-37">[</span><span class="o">-</span><span class="mf">0.32701319456100464</span><span class="p" data-group-id="3022438367-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="3022438367-38">[</span><span class="o">-</span><span class="mf">1.0638068914413452</span><span class="p" data-group-id="3022438367-38">]</span><span class="w">
+      </span><span class="p" data-group-id="3022438367-34">]</span><span class="w">
+    </span><span class="p" data-group-id="3022438367-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="3022438367-27">}</span><span class="w">
+</span><span class="p" data-group-id="3022438367-1">}</span></code></pre><p>You can also define custom accumulation functions. Axon has definitions for computing running averages and running sums; however, you might find you need something like an exponential moving average:</p><pre><code class="makeup elixir" translate="no"><span class="kd">defmodule</span><span class="w"> </span><span class="nc">CustomAccumulator</span><span class="w"> </span><span class="k" data-group-id="2414182462-1">do</span><span class="w">
   </span><span class="kn">import</span><span class="w"> </span><span class="nc">Nx.Defn</span><span class="w">
 
-  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">running_ema</span><span class="p" data-group-id="1597515012-2">(</span><span class="n">acc</span><span class="p">,</span><span class="w"> </span><span class="n">obs</span><span class="p">,</span><span class="w"> </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="1597515012-3">[</span><span class="p" data-group-id="1597515012-3">]</span><span class="p" data-group-id="1597515012-2">)</span><span class="w"> </span><span class="k" data-group-id="1597515012-4">do</span><span class="w">
-    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">keyword!</span><span class="p" data-group-id="1597515012-5">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.9</span><span class="p" data-group-id="1597515012-5">)</span><span class="w">
-    </span><span class="n">obs</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="1597515012-6">[</span><span class="ss">:alpha</span><span class="p" data-group-id="1597515012-6">]</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="1597515012-7">(</span><span class="mi">1</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="1597515012-8">[</span><span class="ss">:alpha</span><span class="p" data-group-id="1597515012-8">]</span><span class="p" data-group-id="1597515012-7">)</span><span class="w">
-  </span><span class="k" data-group-id="1597515012-4">end</span><span class="w">
-</span><span class="k" data-group-id="1597515012-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4083198597-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomAccumulator</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4083198597-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">11</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="4083198597-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="4083198597-1">}</span></code></pre><p>Your accumulator must be an arity-3 function which accepts the current accumulated value, the current observation, and the current iteration and returns the aggregated metric. You can pass a function direct as an accumulator in your metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1116021853-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="1116021853-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1116021853-2">(</span><span class="mi">8</span><span class="p" data-group-id="1116021853-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1116021853-3">(</span><span class="p" data-group-id="1116021853-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1116021853-4">(</span><span class="mi">4</span><span class="p" data-group-id="1116021853-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="1116021853-5">(</span><span class="p" data-group-id="1116021853-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="1116021853-6">(</span><span class="mi">1</span><span class="p" data-group-id="1116021853-6">)</span><span class="w">
-
-</span><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="1116021853-7">fn</span><span class="w"> </span><span class="p" data-group-id="1116021853-8">%{</span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">model_state</span><span class="p" data-group-id="1116021853-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-  </span><span class="p" data-group-id="1116021853-9">[</span><span class="n">model_state</span><span class="p" data-group-id="1116021853-10">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="1116021853-10">]</span><span class="p" data-group-id="1116021853-11">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="1116021853-11">]</span><span class="p" data-group-id="1116021853-9">]</span><span class="w">
-</span><span class="k" data-group-id="1116021853-7">end</span><span class="w">
+  </span><span class="kd">defn</span><span class="w"> </span><span class="nf">running_ema</span><span class="p" data-group-id="2414182462-2">(</span><span class="n">acc</span><span class="p">,</span><span class="w"> </span><span class="n">obs</span><span class="p">,</span><span class="w"> </span><span class="c">_i</span><span class="p">,</span><span class="w"> </span><span class="n">opts</span><span class="w"> </span><span class="o">\\</span><span class="w"> </span><span class="p" data-group-id="2414182462-3">[</span><span class="p" data-group-id="2414182462-3">]</span><span class="p" data-group-id="2414182462-2">)</span><span class="w"> </span><span class="k" data-group-id="2414182462-4">do</span><span class="w">
+    </span><span class="n">opts</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">keyword!</span><span class="p" data-group-id="2414182462-5">(</span><span class="n">opts</span><span class="p">,</span><span class="w"> </span><span class="ss">alpha</span><span class="p">:</span><span class="w"> </span><span class="mf">0.9</span><span class="p" data-group-id="2414182462-5">)</span><span class="w">
+    </span><span class="n">obs</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="2414182462-6">[</span><span class="ss">:alpha</span><span class="p" data-group-id="2414182462-6">]</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">acc</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="p" data-group-id="2414182462-7">(</span><span class="mi">1</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">opts</span><span class="p" data-group-id="2414182462-8">[</span><span class="ss">:alpha</span><span class="p" data-group-id="2414182462-8">]</span><span class="p" data-group-id="2414182462-7">)</span><span class="w">
+  </span><span class="k" data-group-id="2414182462-4">end</span><span class="w">
+</span><span class="k" data-group-id="2414182462-1">end</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6055950956-1">{</span><span class="ss">:module</span><span class="p">,</span><span class="w"> </span><span class="nc">CustomAccumulator</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6055950956-2">&lt;&lt;</span><span class="mi">70</span><span class="p">,</span><span class="w"> </span><span class="mi">79</span><span class="p">,</span><span class="w"> </span><span class="mi">82</span><span class="p">,</span><span class="w"> </span><span class="mi">49</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">11</span><span class="p">,</span><span class="w"> </span><span class="n">...</span><span class="p" data-group-id="6055950956-2">&gt;&gt;</span><span class="p">,</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="6055950956-1">}</span></code></pre><p>Your accumulator must be an arity-3 function which accepts the current accumulated value, the current observation, and the current iteration and returns the aggregated metric. You can pass a function direct as an accumulator in your metric:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="7964954141-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="7964954141-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7964954141-2">(</span><span class="mi">8</span><span class="p" data-group-id="7964954141-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7964954141-3">(</span><span class="p" data-group-id="7964954141-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7964954141-4">(</span><span class="mi">4</span><span class="p" data-group-id="7964954141-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="7964954141-5">(</span><span class="p" data-group-id="7964954141-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="7964954141-6">(</span><span class="mi">1</span><span class="p" data-group-id="7964954141-6">)</span><span class="w">
+
+</span><span class="n">output_transform</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="k" data-group-id="7964954141-7">fn</span><span class="w"> </span><span class="p" data-group-id="7964954141-8">%{</span><span class="ss">model_state</span><span class="p">:</span><span class="w"> </span><span class="n">model_state</span><span class="p" data-group-id="7964954141-8">}</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7964954141-9">[</span><span class="n">model_state</span><span class="p" data-group-id="7964954141-10">[</span><span class="s">&quot;dense_0&quot;</span><span class="p" data-group-id="7964954141-10">]</span><span class="p" data-group-id="7964954141-11">[</span><span class="s">&quot;kernel&quot;</span><span class="p" data-group-id="7964954141-11">]</span><span class="p" data-group-id="7964954141-9">]</span><span class="w">
+</span><span class="k" data-group-id="7964954141-7">end</span><span class="w">
 
 </span><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1116021853-12">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="1116021853-12">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1116021853-13">(</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="7964954141-12">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="7964954141-12">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="7964954141-13">(</span><span class="w">
     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p">,</span><span class="w">
     </span><span class="s">&quot;dense_0_kernel_ema_mean&quot;</span><span class="p">,</span><span class="w">
     </span><span class="o">&amp;</span><span class="nc">CustomAccumulator</span><span class="o">.</span><span class="n">running_ema</span><span class="o">/</span><span class="mi">3</span><span class="p">,</span><span class="w">
     </span><span class="n">output_transform</span><span class="w">
-  </span><span class="p" data-group-id="1116021853-13">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5606989578-1">#</span><span class="nc" data-group-id="5606989578-1">Axon.Loop</span><span class="p" data-group-id="5606989578-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-2">%{</span><span class="w">
-    </span><span class="s">&quot;dense_0_kernel_ema_mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5606989578-3">{</span><span class="p" data-group-id="5606989578-4">#</span><span class="nc" data-group-id="5606989578-4">Function</span><span class="p" data-group-id="5606989578-4">&lt;</span><span class="mf">15.37390314</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_metric_fn</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5606989578-4">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5606989578-3">}</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5606989578-5">{</span><span class="p" data-group-id="5606989578-6">#</span><span class="nc" data-group-id="5606989578-6">Function</span><span class="p" data-group-id="5606989578-6">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5606989578-6">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="5606989578-7">#</span><span class="nc" data-group-id="5606989578-7">Function</span><span class="p" data-group-id="5606989578-7">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5606989578-7">&gt;</span><span class="p" data-group-id="5606989578-5">}</span><span class="w">
-  </span><span class="p" data-group-id="5606989578-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-8">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-9">[</span><span class="p" data-group-id="5606989578-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-10">[</span><span class="w">
-      </span><span class="p" data-group-id="5606989578-11">{</span><span class="p" data-group-id="5606989578-12">#</span><span class="nc" data-group-id="5606989578-12">Function</span><span class="p" data-group-id="5606989578-12">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5606989578-12">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="5606989578-13">#</span><span class="nc" data-group-id="5606989578-13">Function</span><span class="p" data-group-id="5606989578-13">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5606989578-13">&gt;</span><span class="p" data-group-id="5606989578-11">}</span><span class="w">
-    </span><span class="p" data-group-id="5606989578-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-14">[</span><span class="p" data-group-id="5606989578-14">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-15">[</span><span class="p" data-group-id="5606989578-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-16">[</span><span class="p" data-group-id="5606989578-16">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-17">[</span><span class="w">
-      </span><span class="p" data-group-id="5606989578-18">{</span><span class="p" data-group-id="5606989578-19">#</span><span class="nc" data-group-id="5606989578-19">Function</span><span class="p" data-group-id="5606989578-19">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5606989578-19">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="5606989578-20">#</span><span class="nc" data-group-id="5606989578-20">Function</span><span class="p" data-group-id="5606989578-20">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5606989578-20">&gt;</span><span class="p" data-group-id="5606989578-18">}</span><span class="w">
-    </span><span class="p" data-group-id="5606989578-17">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-21">[</span><span class="p" data-group-id="5606989578-21">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5606989578-22">[</span><span class="p" data-group-id="5606989578-22">]</span><span class="w">
-  </span><span class="p" data-group-id="5606989578-8">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="7964954141-13">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5131178017-1">#</span><span class="nc" data-group-id="5131178017-1">Axon.Loop</span><span class="p" data-group-id="5131178017-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-2">%{</span><span class="w">
+    </span><span class="s">&quot;dense_0_kernel_ema_mean&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5131178017-3">{</span><span class="p" data-group-id="5131178017-4">#</span><span class="nc" data-group-id="5131178017-4">Function</span><span class="p" data-group-id="5131178017-4">&lt;</span><span class="mf">15.37390314</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_metric_fn</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5131178017-4">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="o">&amp;</span><span class="nc">Nx</span><span class="o">.</span><span class="n">mean</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5131178017-3">}</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5131178017-5">{</span><span class="p" data-group-id="5131178017-6">#</span><span class="nc" data-group-id="5131178017-6">Function</span><span class="p" data-group-id="5131178017-6">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5131178017-6">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="5131178017-7">#</span><span class="nc" data-group-id="5131178017-7">Function</span><span class="p" data-group-id="5131178017-7">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5131178017-7">&gt;</span><span class="p" data-group-id="5131178017-5">}</span><span class="w">
+  </span><span class="p" data-group-id="5131178017-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-8">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-9">[</span><span class="p" data-group-id="5131178017-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-10">[</span><span class="w">
+      </span><span class="p" data-group-id="5131178017-11">{</span><span class="p" data-group-id="5131178017-12">#</span><span class="nc" data-group-id="5131178017-12">Function</span><span class="p" data-group-id="5131178017-12">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5131178017-12">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="5131178017-13">#</span><span class="nc" data-group-id="5131178017-13">Function</span><span class="p" data-group-id="5131178017-13">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5131178017-13">&gt;</span><span class="p" data-group-id="5131178017-11">}</span><span class="w">
+    </span><span class="p" data-group-id="5131178017-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-14">[</span><span class="p" data-group-id="5131178017-14">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-15">[</span><span class="p" data-group-id="5131178017-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-16">[</span><span class="p" data-group-id="5131178017-16">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-17">[</span><span class="w">
+      </span><span class="p" data-group-id="5131178017-18">{</span><span class="p" data-group-id="5131178017-19">#</span><span class="nc" data-group-id="5131178017-19">Function</span><span class="p" data-group-id="5131178017-19">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5131178017-19">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="5131178017-20">#</span><span class="nc" data-group-id="5131178017-20">Function</span><span class="p" data-group-id="5131178017-20">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5131178017-20">&gt;</span><span class="p" data-group-id="5131178017-18">}</span><span class="w">
+    </span><span class="p" data-group-id="5131178017-17">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-21">[</span><span class="p" data-group-id="5131178017-21">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5131178017-22">[</span><span class="p" data-group-id="5131178017-22">]</span><span class="w">
+  </span><span class="p" data-group-id="5131178017-8">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="5606989578-1">&gt;</span></code></pre><p>Then when you run the loop, Axon will use your custom accumulator:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="2427775808-1">(</span><span class="k" data-group-id="2427775808-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="2427775808-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="2427775808-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="2427775808-4">(</span><span class="mi">9999</span><span class="p" data-group-id="2427775808-4">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="2427775808-5">(</span><span class="p" data-group-id="2427775808-5">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="2427775808-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2427775808-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="2427775808-7">}</span><span class="p" data-group-id="2427775808-6">)</span><span class="w">
-
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="2427775808-8">(</span><span class="n">xs</span><span class="p" data-group-id="2427775808-8">)</span><span class="w">
-    </span><span class="p" data-group-id="2427775808-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="2427775808-9">}</span><span class="w">
-  </span><span class="k" data-group-id="2427775808-2">end</span><span class="p" data-group-id="2427775808-1">)</span><span class="w">
-
-</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2427775808-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="2427775808-11">%{</span><span class="p" data-group-id="2427775808-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="2427775808-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">dense_0_kernel_ema_mean</span><span class="p">:</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0139760</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0682910</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4923756606-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-3">#</span><span class="nc" data-group-id="4923756606-3">Nx.Tensor</span><span class="p" data-group-id="4923756606-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4923756606-4">[</span><span class="mi">8</span><span class="p" data-group-id="4923756606-4">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-5">[</span><span class="o">-</span><span class="mf">0.3344854414463043</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14519920945167542</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1061621680855751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36911827325820923</span><span class="p">,</span><span class="w"> </span><span class="mf">0.014146199449896812</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46089673042297363</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1707312911748886</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.054649338126182556</span><span class="p" data-group-id="4923756606-5">]</span><span class="w">
-    </span><span class="p" data-group-id="4923756606-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-6">#</span><span class="nc" data-group-id="4923756606-6">Nx.Tensor</span><span class="p" data-group-id="4923756606-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4923756606-7">[</span><span class="mi">1</span><span class="p" data-group-id="4923756606-7">]</span><span class="p" data-group-id="4923756606-8">[</span><span class="mi">8</span><span class="p" data-group-id="4923756606-8">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-9">[</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-10">[</span><span class="mf">0.6524605751037598</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3795280158519745</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2069108486175537</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6815686821937561</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5734748840332031</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5515486001968384</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13509605824947357</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.711794912815094</span><span class="p" data-group-id="4923756606-10">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-9">]</span><span class="w">
-    </span><span class="p" data-group-id="4923756606-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4923756606-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-12">#</span><span class="nc" data-group-id="4923756606-12">Nx.Tensor</span><span class="p" data-group-id="4923756606-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4923756606-13">[</span><span class="mi">4</span><span class="p" data-group-id="4923756606-13">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-14">[</span><span class="mf">0.3078235387802124</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24773009121418</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.027328377589583397</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0769796073436737</span><span class="p" data-group-id="4923756606-14">]</span><span class="w">
-    </span><span class="p" data-group-id="4923756606-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-15">#</span><span class="nc" data-group-id="4923756606-15">Nx.Tensor</span><span class="p" data-group-id="4923756606-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4923756606-16">[</span><span class="mi">8</span><span class="p" data-group-id="4923756606-16">]</span><span class="p" data-group-id="4923756606-17">[</span><span class="mi">4</span><span class="p" data-group-id="4923756606-17">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-18">[</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-19">[</span><span class="o">-</span><span class="mf">0.785156786441803</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07306647300720215</span><span class="p">,</span><span class="w"> </span><span class="mf">0.339533269405365</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2188076674938202</span><span class="p" data-group-id="4923756606-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-20">[</span><span class="mf">0.29139244556427</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15977036952972412</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6193944215774536</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4305708408355713</span><span class="p" data-group-id="4923756606-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-21">[</span><span class="o">-</span><span class="mf">0.21063144505023956</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3738138973712921</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27965712547302246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.051842525601387024</span><span class="p" data-group-id="4923756606-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-22">[</span><span class="mf">0.7297297716140747</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08164620399475098</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07651054859161377</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43577027320861816</span><span class="p" data-group-id="4923756606-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-23">[</span><span class="mf">0.07917583733797073</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27750709652900696</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21028375625610352</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6430750489234924</span><span class="p" data-group-id="4923756606-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-24">[</span><span class="mf">0.7177602648735046</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2743614912033081</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5894488096237183</span><span class="p">,</span><span class="w"> </span><span class="mf">0.634209156036377</span><span class="p" data-group-id="4923756606-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-25">[</span><span class="mf">0.4251592457294464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6134526133537292</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.35339266061782837</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4966743588447571</span><span class="p" data-group-id="4923756606-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-26">[</span><span class="o">-</span><span class="mf">0.49672019481658936</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46769094467163086</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44432300329208374</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3249942660331726</span><span class="p" data-group-id="4923756606-26">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-18">]</span><span class="w">
-    </span><span class="p" data-group-id="4923756606-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4923756606-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-28">#</span><span class="nc" data-group-id="4923756606-28">Nx.Tensor</span><span class="p" data-group-id="4923756606-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4923756606-29">[</span><span class="mi">1</span><span class="p" data-group-id="4923756606-29">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-30">[</span><span class="o">-</span><span class="mf">0.8245151042938232</span><span class="p" data-group-id="4923756606-30">]</span><span class="w">
-    </span><span class="p" data-group-id="4923756606-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4923756606-31">#</span><span class="nc" data-group-id="4923756606-31">Nx.Tensor</span><span class="p" data-group-id="4923756606-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4923756606-32">[</span><span class="mi">4</span><span class="p" data-group-id="4923756606-32">]</span><span class="p" data-group-id="4923756606-33">[</span><span class="mi">1</span><span class="p" data-group-id="4923756606-33">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-34">[</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-35">[</span><span class="mf">0.9500011205673218</span><span class="p" data-group-id="4923756606-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-36">[</span><span class="mf">0.9115968942642212</span><span class="p" data-group-id="4923756606-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-37">[</span><span class="mf">0.39282673597335815</span><span class="p" data-group-id="4923756606-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4923756606-38">[</span><span class="mf">0.19936752319335938</span><span class="p" data-group-id="4923756606-38">]</span><span class="w">
-      </span><span class="p" data-group-id="4923756606-34">]</span><span class="w">
-    </span><span class="p" data-group-id="4923756606-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4923756606-27">}</span><span class="w">
-</span><span class="p" data-group-id="4923756606-1">}</span></code></pre>
+</span><span class="p" data-group-id="5131178017-1">&gt;</span></code></pre><p>Then when you run the loop, Axon will use your custom accumulator:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="0971208923-1">(</span><span class="k" data-group-id="0971208923-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="0971208923-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="0971208923-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="0971208923-4">(</span><span class="mi">9999</span><span class="p" data-group-id="0971208923-4">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="0971208923-5">(</span><span class="p" data-group-id="0971208923-5">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="0971208923-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0971208923-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="0971208923-7">}</span><span class="p" data-group-id="0971208923-6">)</span><span class="w">
+
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="0971208923-8">(</span><span class="n">xs</span><span class="p" data-group-id="0971208923-8">)</span><span class="w">
+    </span><span class="p" data-group-id="0971208923-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="0971208923-9">}</span><span class="w">
+  </span><span class="k" data-group-id="0971208923-2">end</span><span class="p" data-group-id="0971208923-1">)</span><span class="w">
+
+</span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="0971208923-10">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="0971208923-11">%{</span><span class="p" data-group-id="0971208923-11">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="0971208923-10">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">dense_0_kernel_ema_mean</span><span class="p">:</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0139760</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0682910</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="7293032682-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-3">#</span><span class="nc" data-group-id="7293032682-3">Nx.Tensor</span><span class="p" data-group-id="7293032682-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7293032682-4">[</span><span class="mi">8</span><span class="p" data-group-id="7293032682-4">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-5">[</span><span class="o">-</span><span class="mf">0.3344854414463043</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14519920945167542</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1061621680855751</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36911827325820923</span><span class="p">,</span><span class="w"> </span><span class="mf">0.014146199449896812</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46089673042297363</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1707312911748886</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.054649338126182556</span><span class="p" data-group-id="7293032682-5">]</span><span class="w">
+    </span><span class="p" data-group-id="7293032682-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-6">#</span><span class="nc" data-group-id="7293032682-6">Nx.Tensor</span><span class="p" data-group-id="7293032682-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7293032682-7">[</span><span class="mi">1</span><span class="p" data-group-id="7293032682-7">]</span><span class="p" data-group-id="7293032682-8">[</span><span class="mi">8</span><span class="p" data-group-id="7293032682-8">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-9">[</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-10">[</span><span class="mf">0.6524605751037598</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3795280158519745</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2069108486175537</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6815686821937561</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5734748840332031</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5515486001968384</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.13509605824947357</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.711794912815094</span><span class="p" data-group-id="7293032682-10">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-9">]</span><span class="w">
+    </span><span class="p" data-group-id="7293032682-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7293032682-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-12">#</span><span class="nc" data-group-id="7293032682-12">Nx.Tensor</span><span class="p" data-group-id="7293032682-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7293032682-13">[</span><span class="mi">4</span><span class="p" data-group-id="7293032682-13">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-14">[</span><span class="mf">0.3078235387802124</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.24773009121418</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.027328377589583397</span><span class="p">,</span><span class="w"> </span><span class="mf">0.0769796073436737</span><span class="p" data-group-id="7293032682-14">]</span><span class="w">
+    </span><span class="p" data-group-id="7293032682-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-15">#</span><span class="nc" data-group-id="7293032682-15">Nx.Tensor</span><span class="p" data-group-id="7293032682-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7293032682-16">[</span><span class="mi">8</span><span class="p" data-group-id="7293032682-16">]</span><span class="p" data-group-id="7293032682-17">[</span><span class="mi">4</span><span class="p" data-group-id="7293032682-17">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-18">[</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-19">[</span><span class="o">-</span><span class="mf">0.785156786441803</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07306647300720215</span><span class="p">,</span><span class="w"> </span><span class="mf">0.339533269405365</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2188076674938202</span><span class="p" data-group-id="7293032682-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-20">[</span><span class="mf">0.29139244556427</span><span class="p">,</span><span class="w"> </span><span class="mf">0.15977036952972412</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6193944215774536</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4305708408355713</span><span class="p" data-group-id="7293032682-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-21">[</span><span class="o">-</span><span class="mf">0.21063144505023956</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3738138973712921</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27965712547302246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.051842525601387024</span><span class="p" data-group-id="7293032682-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-22">[</span><span class="mf">0.7297297716140747</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08164620399475098</span><span class="p">,</span><span class="w"> </span><span class="mf">0.07651054859161377</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43577027320861816</span><span class="p" data-group-id="7293032682-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-23">[</span><span class="mf">0.07917583733797073</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27750709652900696</span><span class="p">,</span><span class="w"> </span><span class="mf">0.21028375625610352</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6430750489234924</span><span class="p" data-group-id="7293032682-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-24">[</span><span class="mf">0.7177602648735046</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2743614912033081</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5894488096237183</span><span class="p">,</span><span class="w"> </span><span class="mf">0.634209156036377</span><span class="p" data-group-id="7293032682-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-25">[</span><span class="mf">0.4251592457294464</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6134526133537292</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.35339266061782837</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4966743588447571</span><span class="p" data-group-id="7293032682-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-26">[</span><span class="o">-</span><span class="mf">0.49672019481658936</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46769094467163086</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.44432300329208374</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3249942660331726</span><span class="p" data-group-id="7293032682-26">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-18">]</span><span class="w">
+    </span><span class="p" data-group-id="7293032682-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7293032682-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-28">#</span><span class="nc" data-group-id="7293032682-28">Nx.Tensor</span><span class="p" data-group-id="7293032682-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7293032682-29">[</span><span class="mi">1</span><span class="p" data-group-id="7293032682-29">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-30">[</span><span class="o">-</span><span class="mf">0.8245151042938232</span><span class="p" data-group-id="7293032682-30">]</span><span class="w">
+    </span><span class="p" data-group-id="7293032682-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="7293032682-31">#</span><span class="nc" data-group-id="7293032682-31">Nx.Tensor</span><span class="p" data-group-id="7293032682-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="7293032682-32">[</span><span class="mi">4</span><span class="p" data-group-id="7293032682-32">]</span><span class="p" data-group-id="7293032682-33">[</span><span class="mi">1</span><span class="p" data-group-id="7293032682-33">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-34">[</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-35">[</span><span class="mf">0.9500011205673218</span><span class="p" data-group-id="7293032682-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-36">[</span><span class="mf">0.9115968942642212</span><span class="p" data-group-id="7293032682-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-37">[</span><span class="mf">0.39282673597335815</span><span class="p" data-group-id="7293032682-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="7293032682-38">[</span><span class="mf">0.19936752319335938</span><span class="p" data-group-id="7293032682-38">]</span><span class="w">
+      </span><span class="p" data-group-id="7293032682-34">]</span><span class="w">
+    </span><span class="p" data-group-id="7293032682-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="7293032682-27">}</span><span class="w">
+</span><span class="p" data-group-id="7293032682-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/xor.html b/xor.html
index 6f8b184b..82d3a515 100644
--- a/xor.html
+++ b/xor.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,14 +136,14 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="5783990995-1">(</span><span class="p" data-group-id="5783990995-2">[</span><span class="w">
-  </span><span class="p" data-group-id="5783990995-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="5783990995-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5783990995-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="5783990995-4">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5783990995-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="5783990995-5">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="5783990995-6">{</span><span class="ss">:kino_vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="5783990995-6">}</span><span class="w">
-</span><span class="p" data-group-id="5783990995-2">]</span><span class="p" data-group-id="5783990995-1">)</span><span class="w">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0893650710-1">(</span><span class="p" data-group-id="0893650710-2">[</span><span class="w">
+  </span><span class="p" data-group-id="0893650710-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.3.0&quot;</span><span class="p" data-group-id="0893650710-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0893650710-4">{</span><span class="ss">:nx</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">override</span><span class="p">:</span><span class="w"> </span><span class="no">true</span><span class="p" data-group-id="0893650710-4">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0893650710-5">{</span><span class="ss">:exla</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.4.0&quot;</span><span class="p" data-group-id="0893650710-5">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="0893650710-6">{</span><span class="ss">:kino_vega_lite</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;~&gt; 0.1.6&quot;</span><span class="p" data-group-id="0893650710-6">}</span><span class="w">
+</span><span class="p" data-group-id="0893650710-2">]</span><span class="p" data-group-id="0893650710-1">)</span><span class="w">
 
-</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="5783990995-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="5783990995-7">)</span><span class="w">
+</span><span class="nc">Nx.Defn</span><span class="o">.</span><span class="n">default_options</span><span class="p" data-group-id="0893650710-7">(</span><span class="ss">compiler</span><span class="p">:</span><span class="w"> </span><span class="nc">EXLA</span><span class="p" data-group-id="0893650710-7">)</span><span class="w">
 
 </span><span class="kn">alias</span><span class="w"> </span><span class="nc">VegaLite</span><span class="p">,</span><span class="w"> </span><span class="ss">as</span><span class="p">:</span><span class="w"> </span><span class="nc">Vl</span></code></pre><h2 id="introduction" class="section-heading">
   <a href="#introduction" class="hover-link">
@@ -157,14 +157,14 @@ <h1>
   </a>
   <span class="text">The model</span>
 </h2>
-<p>Let's start with the model. We need two inputs, since XOR has two operands. We then concatenate them into a single input vector with <a href="Axon.html#concatenate/3"><code class="inline">Axon.concatenate/3</code></a>. Then we have one hidden layer and one output layer, both of them dense.</p><p>Note: the model is a sequential neural network. In Axon, we can conveniently create such a model by using the pipe operator (<code class="inline">|&gt;</code>) to add layers one by one.</p><pre><code class="makeup elixir" translate="no"><span class="n">x1_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3354339266-1">(</span><span class="s">&quot;x1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3354339266-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3354339266-2">}</span><span class="p" data-group-id="3354339266-1">)</span><span class="w">
-</span><span class="n">x2_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3354339266-3">(</span><span class="s">&quot;x2&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3354339266-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="3354339266-4">}</span><span class="p" data-group-id="3354339266-3">)</span><span class="w">
+<p>Let's start with the model. We need two inputs, since XOR has two operands. We then concatenate them into a single input vector with <a href="Axon.html#concatenate/3"><code class="inline">Axon.concatenate/3</code></a>. Then we have one hidden layer and one output layer, both of them dense.</p><p>Note: the model is a sequential neural network. In Axon, we can conveniently create such a model by using the pipe operator (<code class="inline">|&gt;</code>) to add layers one by one.</p><pre><code class="makeup elixir" translate="no"><span class="n">x1_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5638444882-1">(</span><span class="s">&quot;x1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5638444882-2">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5638444882-2">}</span><span class="p" data-group-id="5638444882-1">)</span><span class="w">
+</span><span class="n">x2_input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="5638444882-3">(</span><span class="s">&quot;x2&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5638444882-4">{</span><span class="no">nil</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5638444882-4">}</span><span class="p" data-group-id="5638444882-3">)</span><span class="w">
 
 </span><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">x1_input</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="3354339266-5">(</span><span class="n">x2_input</span><span class="p" data-group-id="3354339266-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3354339266-6">(</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:tanh</span><span class="p" data-group-id="3354339266-6">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3354339266-7">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="3354339266-7">)</span></code></pre><h2 id="training-data" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">concatenate</span><span class="p" data-group-id="5638444882-5">(</span><span class="n">x2_input</span><span class="p" data-group-id="5638444882-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5638444882-6">(</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:tanh</span><span class="p" data-group-id="5638444882-6">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="5638444882-7">(</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">activation</span><span class="p">:</span><span class="w"> </span><span class="ss">:sigmoid</span><span class="p" data-group-id="5638444882-7">)</span></code></pre><h2 id="training-data" class="section-heading">
   <a href="#training-data" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -173,13 +173,13 @@ <h1>
 <p>The next step is to prepare training data. Since we are modeling a well-defined operation, we can just generate random operands and compute the expected XOR result for them.</p><p>The training works with batches of examples, so we <em>repeatedly</em> generate a whole batch of inputs and the expected result.</p><pre><code class="makeup elixir" translate="no"><span class="n">batch_size</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">32</span><span class="w">
 
 </span><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="8782764567-1">(</span><span class="k" data-group-id="8782764567-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="8782764567-3">(</span><span class="p" data-group-id="8782764567-4">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8782764567-4">}</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8782764567-3">)</span><span class="w">
-    </span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="8782764567-5">(</span><span class="p" data-group-id="8782764567-6">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="8782764567-6">}</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="8782764567-5">)</span><span class="w">
-    </span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">logical_xor</span><span class="p" data-group-id="8782764567-7">(</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="8782764567-7">)</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="5689540714-1">(</span><span class="k" data-group-id="5689540714-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="5689540714-3">(</span><span class="p" data-group-id="5689540714-4">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5689540714-4">}</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5689540714-3">)</span><span class="w">
+    </span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">random_uniform</span><span class="p" data-group-id="5689540714-5">(</span><span class="p" data-group-id="5689540714-6">{</span><span class="n">batch_size</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="5689540714-6">}</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="mi">2</span><span class="p" data-group-id="5689540714-5">)</span><span class="w">
+    </span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">logical_xor</span><span class="p" data-group-id="5689540714-7">(</span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="5689540714-7">)</span><span class="w">
 
-    </span><span class="p" data-group-id="8782764567-8">{</span><span class="p" data-group-id="8782764567-9">%{</span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="8782764567-9">}</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="8782764567-8">}</span><span class="w">
-  </span><span class="k" data-group-id="8782764567-2">end</span><span class="p" data-group-id="8782764567-1">)</span></code></pre><p>Here's how a sample batch looks:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="0131443183-1">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="0131443183-1">)</span></code></pre><h2 id="training" class="section-heading">
+    </span><span class="p" data-group-id="5689540714-8">{</span><span class="p" data-group-id="5689540714-9">%{</span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="5689540714-9">}</span><span class="p">,</span><span class="w"> </span><span class="n">y</span><span class="p" data-group-id="5689540714-8">}</span><span class="w">
+  </span><span class="k" data-group-id="5689540714-2">end</span><span class="p" data-group-id="5689540714-1">)</span></code></pre><p>Here's how a sample batch looks:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Enum</span><span class="o">.</span><span class="n">at</span><span class="p" data-group-id="3071481204-1">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="3071481204-1">)</span></code></pre><h2 id="training" class="section-heading">
   <a href="#training" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -189,17 +189,17 @@ <h1>
 
 </span><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w">
   </span><span class="n">model</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="3554964109-1">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="3554964109-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3554964109-2">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3554964109-3">%{</span><span class="p" data-group-id="3554964109-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="n">epochs</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3554964109-2">)</span></code></pre><h2 id="trying-the-model" class="section-heading">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9707777439-1">(</span><span class="ss">:binary_cross_entropy</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9707777439-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9707777439-2">(</span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9707777439-3">%{</span><span class="p" data-group-id="9707777439-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="n">epochs</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="9707777439-2">)</span></code></pre><h2 id="trying-the-model" class="section-heading">
   <a href="#trying-the-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Trying the model</span>
 </h2>
-<p>Finally, we can test our model on sample data.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="3769841248-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3769841248-2">%{</span><span class="w">
-  </span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3769841248-3">(</span><span class="p" data-group-id="3769841248-4">[</span><span class="p" data-group-id="3769841248-5">[</span><span class="mi">0</span><span class="p" data-group-id="3769841248-5">]</span><span class="p" data-group-id="3769841248-4">]</span><span class="p" data-group-id="3769841248-3">)</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="3769841248-6">(</span><span class="p" data-group-id="3769841248-7">[</span><span class="p" data-group-id="3769841248-8">[</span><span class="mi">1</span><span class="p" data-group-id="3769841248-8">]</span><span class="p" data-group-id="3769841248-7">]</span><span class="p" data-group-id="3769841248-6">)</span><span class="w">
-</span><span class="p" data-group-id="3769841248-2">}</span><span class="p" data-group-id="3769841248-1">)</span></code></pre><p>Try other combinations of $x_1$ and $x_2$ and see what the output is. To improve the model performance, you can increase the number of training epochs.</p><h2 id="visualizing-the-model-predictions" class="section-heading">
+<p>Finally, we can test our model on sample data.</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="8637113477-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8637113477-2">%{</span><span class="w">
+  </span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8637113477-3">(</span><span class="p" data-group-id="8637113477-4">[</span><span class="p" data-group-id="8637113477-5">[</span><span class="mi">0</span><span class="p" data-group-id="8637113477-5">]</span><span class="p" data-group-id="8637113477-4">]</span><span class="p" data-group-id="8637113477-3">)</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">tensor</span><span class="p" data-group-id="8637113477-6">(</span><span class="p" data-group-id="8637113477-7">[</span><span class="p" data-group-id="8637113477-8">[</span><span class="mi">1</span><span class="p" data-group-id="8637113477-8">]</span><span class="p" data-group-id="8637113477-7">]</span><span class="p" data-group-id="8637113477-6">)</span><span class="w">
+</span><span class="p" data-group-id="8637113477-2">}</span><span class="p" data-group-id="8637113477-1">)</span></code></pre><p>Try other combinations of $x_1$ and $x_2$ and see what the output is. To improve the model performance, you can increase the number of training epochs.</p><h2 id="visualizing-the-model-predictions" class="section-heading">
   <a href="#visualizing-the-model-predictions" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
@@ -209,22 +209,22 @@ <h1>
 </span><span class="n">n</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="mi">50</span><span class="w">
 
 </span><span class="c1"># We generate coordinates of inputs in the (n x n) grid</span><span class="w">
-</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4624950410-1">(</span><span class="p" data-group-id="4624950410-2">{</span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p" data-group-id="4624950410-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="4624950410-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="4624950410-3">(</span><span class="n">n</span><span class="p" data-group-id="4624950410-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="4624950410-4">(</span><span class="p" data-group-id="4624950410-5">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4624950410-5">}</span><span class="p" data-group-id="4624950410-4">)</span><span class="w">
-</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4624950410-6">(</span><span class="p" data-group-id="4624950410-7">{</span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p" data-group-id="4624950410-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4624950410-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="4624950410-8">(</span><span class="n">n</span><span class="p" data-group-id="4624950410-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="4624950410-9">(</span><span class="p" data-group-id="4624950410-10">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="4624950410-10">}</span><span class="p" data-group-id="4624950410-9">)</span><span class="w">
+</span><span class="n">x1</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6339502827-1">(</span><span class="p" data-group-id="6339502827-2">{</span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p" data-group-id="6339502827-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p" data-group-id="6339502827-1">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="6339502827-3">(</span><span class="n">n</span><span class="p" data-group-id="6339502827-3">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="6339502827-4">(</span><span class="p" data-group-id="6339502827-5">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6339502827-5">}</span><span class="p" data-group-id="6339502827-4">)</span><span class="w">
+</span><span class="n">x2</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="6339502827-6">(</span><span class="p" data-group-id="6339502827-7">{</span><span class="n">n</span><span class="p">,</span><span class="w"> </span><span class="n">n</span><span class="p" data-group-id="6339502827-7">}</span><span class="p">,</span><span class="w"> </span><span class="ss">axis</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6339502827-6">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">divide</span><span class="p" data-group-id="6339502827-8">(</span><span class="n">n</span><span class="p" data-group-id="6339502827-8">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">reshape</span><span class="p" data-group-id="6339502827-9">(</span><span class="p" data-group-id="6339502827-10">{</span><span class="ss">:auto</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6339502827-10">}</span><span class="p" data-group-id="6339502827-9">)</span><span class="w">
 
 </span><span class="c1"># The output is also a real number, but we round it into one of the two classes</span><span class="w">
-</span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="4624950410-11">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="4624950410-12">%{</span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="4624950410-12">}</span><span class="p" data-group-id="4624950410-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">round</span><span class="p" data-group-id="4624950410-13">(</span><span class="p" data-group-id="4624950410-13">)</span><span class="w">
-
-</span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="4624950410-14">(</span><span class="ss">width</span><span class="p">:</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="ss">height</span><span class="p">:</span><span class="w"> </span><span class="mi">300</span><span class="p" data-group-id="4624950410-14">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">data_from_values</span><span class="p" data-group-id="4624950410-15">(</span><span class="w">
-  </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="4624950410-16">(</span><span class="n">x1</span><span class="p" data-group-id="4624950410-16">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="4624950410-17">(</span><span class="n">x2</span><span class="p" data-group-id="4624950410-17">)</span><span class="p">,</span><span class="w">
-  </span><span class="ss">y</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="4624950410-18">(</span><span class="n">y</span><span class="p" data-group-id="4624950410-18">)</span><span class="w">
-</span><span class="p" data-group-id="4624950410-15">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="4624950410-19">(</span><span class="ss">:circle</span><span class="p" data-group-id="4624950410-19">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="4624950410-20">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="4624950410-20">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="4624950410-21">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="4624950410-21">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="4624950410-22">(</span><span class="ss">:color</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;y&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:nominal</span><span class="p" data-group-id="4624950410-22">)</span></code></pre><p>From the plot we can clearly see that during training our model learnt two clean boundaries to separate $(0,0)$, $(1,1)$ from $(0,1)$, $(1,0)$.</p>
+</span><span class="n">y</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">predict</span><span class="p" data-group-id="6339502827-11">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6339502827-12">%{</span><span class="s">&quot;x1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x1</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="n">x2</span><span class="p" data-group-id="6339502827-12">}</span><span class="p" data-group-id="6339502827-11">)</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">round</span><span class="p" data-group-id="6339502827-13">(</span><span class="p" data-group-id="6339502827-13">)</span><span class="w">
+
+</span><span class="nc">Vl</span><span class="o">.</span><span class="n">new</span><span class="p" data-group-id="6339502827-14">(</span><span class="ss">width</span><span class="p">:</span><span class="w"> </span><span class="mi">300</span><span class="p">,</span><span class="w"> </span><span class="ss">height</span><span class="p">:</span><span class="w"> </span><span class="mi">300</span><span class="p" data-group-id="6339502827-14">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">data_from_values</span><span class="p" data-group-id="6339502827-15">(</span><span class="w">
+  </span><span class="ss">x1</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="6339502827-16">(</span><span class="n">x1</span><span class="p" data-group-id="6339502827-16">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">x2</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="6339502827-17">(</span><span class="n">x2</span><span class="p" data-group-id="6339502827-17">)</span><span class="p">,</span><span class="w">
+  </span><span class="ss">y</span><span class="p">:</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">to_flat_list</span><span class="p" data-group-id="6339502827-18">(</span><span class="n">y</span><span class="p" data-group-id="6339502827-18">)</span><span class="w">
+</span><span class="p" data-group-id="6339502827-15">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">mark</span><span class="p" data-group-id="6339502827-19">(</span><span class="ss">:circle</span><span class="p" data-group-id="6339502827-19">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="6339502827-20">(</span><span class="ss">:x</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x1&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="6339502827-20">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="6339502827-21">(</span><span class="ss">:y</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;x2&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:quantitative</span><span class="p" data-group-id="6339502827-21">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Vl</span><span class="o">.</span><span class="n">encode_field</span><span class="p" data-group-id="6339502827-22">(</span><span class="ss">:color</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;y&quot;</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:nominal</span><span class="p" data-group-id="6339502827-22">)</span></code></pre><p>From the plot we can clearly see that during training our model learnt two clean boundaries to separate $(0,0)$, $(1,1)$ from $(0,1)$, $(1,0)$.</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/your_first_axon_model.html b/your_first_axon_model.html
index daaed8db..d1dcc504 100644
--- a/your_first_axon_model.html
+++ b/your_first_axon_model.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,29 +136,29 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="4999172546-1">(</span><span class="p" data-group-id="4999172546-2">[</span><span class="w">
-  </span><span class="p" data-group-id="4999172546-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="4999172546-3">}</span><span class="p">,</span><span class="w">
-  </span><span class="p" data-group-id="4999172546-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="4999172546-4">}</span><span class="w">
-</span><span class="p" data-group-id="4999172546-2">]</span><span class="p" data-group-id="4999172546-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="your-first-model" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="4538396898-1">(</span><span class="p" data-group-id="4538396898-2">[</span><span class="w">
+  </span><span class="p" data-group-id="4538396898-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="4538396898-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="p" data-group-id="4538396898-4">{</span><span class="ss">:kino</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.9.0&quot;</span><span class="p" data-group-id="4538396898-4">}</span><span class="w">
+</span><span class="p" data-group-id="4538396898-2">]</span><span class="p" data-group-id="4538396898-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="your-first-model" class="section-heading">
   <a href="#your-first-model" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Your first model</span>
 </h2>
-<p>Axon is a library for creating and training neural networks in Elixir. Everything in Axon centers around the <code class="inline">%Axon{}</code> struct which represents an instance of an Axon model.</p><p>Models are just graphs which represent the transformation and flow of input data to a desired output. Really, you can think of models as representing a single computation or function. An Axon model, when executed, takes data as input and returns transformed data as output.</p><p>All Axon models start with a declaration of input nodes. These are the root nodes of your computation graph, and correspond to the actual input data you want to send to Axon:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="4706488460-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="4706488460-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0345233301-1">#</span><span class="nc" data-group-id="0345233301-1">Axon</span><span class="p" data-group-id="0345233301-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0345233301-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="0345233301-2">}</span><span class="w">
+<p>Axon is a library for creating and training neural networks in Elixir. Everything in Axon centers around the <code class="inline">%Axon{}</code> struct which represents an instance of an Axon model.</p><p>Models are just graphs which represent the transformation and flow of input data to a desired output. Really, you can think of models as representing a single computation or function. An Axon model, when executed, takes data as input and returns transformed data as output.</p><p>All Axon models start with a declaration of input nodes. These are the root nodes of your computation graph, and correspond to the actual input data you want to send to Axon:</p><pre><code class="makeup elixir" translate="no"><span class="n">input</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="1150435922-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="1150435922-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="1103611514-1">#</span><span class="nc" data-group-id="1103611514-1">Axon</span><span class="p" data-group-id="1103611514-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="1103611514-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="1103611514-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;data&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="w">
-</span><span class="p" data-group-id="0345233301-1">&gt;</span></code></pre><p>Technically speaking, <code class="inline">input</code> is now a valid Axon model which you can inspect, execute, and initialize. You can visualize how data flows through the graph using <a href="Axon.Display.html#as_graph/2"><code class="inline">Axon.Display.as_graph/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="4002207118-1">(</span><span class="p" data-group-id="4002207118-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4002207118-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4002207118-1">)</span><span class="w">
-</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="4002207118-3">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="4002207118-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
+</span><span class="p" data-group-id="1103611514-1">&gt;</span></code></pre><p>Technically speaking, <code class="inline">input</code> is now a valid Axon model which you can inspect, execute, and initialize. You can visualize how data flows through the graph using <a href="Axon.Display.html#as_graph/2"><code class="inline">Axon.Display.as_graph/2</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">template</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="9435523570-1">(</span><span class="p" data-group-id="9435523570-2">{</span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="9435523570-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="9435523570-1">)</span><span class="w">
+</span><span class="nc">Axon.Display</span><span class="o">.</span><span class="n">as_graph</span><span class="p" data-group-id="9435523570-3">(</span><span class="n">input</span><span class="p">,</span><span class="w"> </span><span class="n">template</span><span class="p" data-group-id="9435523570-3">)</span></code></pre><pre><code class="mermaid output">graph TD;
 3[/&quot;data (:input) {2, 8}&quot;/];
-;</code></pre><p>Notice the execution flow is just a single node, because your graph only consists of an input node! You pass data in and the model spits the same data back out, without any intermediate transformations.</p><p>You can see this in action by actually executing your model. You can build the <code class="inline">%Axon{}</code> struct into it's <code class="inline">initialization</code> and <code class="inline">forward</code> functions by calling <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a>. This pattern of &quot;lowering&quot; or transforming the <code class="inline">%Axon{}</code> data structure into other functions or representations is very common in Axon. By simply traversing the data structure, you can create useful functions, execution visualizations, and more!</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="5032571871-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="5032571871-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="5032571871-2">(</span><span class="n">input</span><span class="p" data-group-id="5032571871-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4477891710-1">{</span><span class="p" data-group-id="4477891710-2">#</span><span class="nc" data-group-id="4477891710-2">Function</span><span class="p" data-group-id="4477891710-2">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="4477891710-2">&gt;</span><span class="p">,</span><span class="w">
- </span><span class="p" data-group-id="4477891710-3">#</span><span class="nc" data-group-id="4477891710-3">Function</span><span class="p" data-group-id="4477891710-3">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="4477891710-3">&gt;</span><span class="p" data-group-id="4477891710-1">}</span></code></pre><p>Notice that <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a> returns a tuple of <code class="inline">{init_fn, predict_fn}</code>. <code class="inline">init_fn</code> has the signature:</p><pre><code class="makeup elixir" translate="no"><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="0056896215-1">(</span><span class="n">template</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0056896215-2">(</span><span class="n">tensor</span><span class="p" data-group-id="0056896215-2">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">tensor</span><span class="p">,</span><span class="w"> </span><span class="n">initial_params</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0056896215-1">)</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0056896215-3">(</span><span class="n">tensor</span><span class="p" data-group-id="0056896215-3">)</span></code></pre><p>while <code class="inline">predict_fn</code> has the signature:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="0462403124-1">(</span><span class="n">params</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0462403124-2">(</span><span class="n">tensor</span><span class="p" data-group-id="0462403124-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="0462403124-3">(</span><span class="n">tensor</span><span class="p" data-group-id="0462403124-3">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="0462403124-1">)</span></code></pre><p><code class="inline">init_fn</code> returns all of your model's trainable parameters and state. You need to pass a template of the expected inputs because the shape of certain model parameters often depend on the shape of model inputs. You also need to pass any initial parameters you want your model to start with. This is useful for things like transfer learning, which you can read about in another guide.</p><p><code class="inline">predict_fn</code> returns transformed inputs from your model's trainable parameters and the given inputs.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7729158821-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="7729158821-2">(</span><span class="p" data-group-id="7729158821-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7729158821-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7729158821-2">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7729158821-4">%{</span><span class="p" data-group-id="7729158821-4">}</span><span class="p" data-group-id="7729158821-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2851990051-1">%{</span><span class="p" data-group-id="2851990051-1">}</span></code></pre><p>In this example, you use <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#template/2"><code class="inline">Nx.template/2</code></a> to create a <em>template tensor</em>, which is a placeholder that does not actually consume any memory. Templates are useful for initialization because you don't actually need to know anything about your inputs other than their shape and type.</p><p>Notice <code class="inline">init_fn</code> returned an empty map because your model does not have any trainable parameters. This should make sense because it's just an input layer.</p><p>Now you can pass these trainable parameters to <code class="inline">predict_fn</code> along with some input to actually execute your model:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="7535440777-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="7535440777-2">(</span><span class="p" data-group-id="7535440777-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7535440777-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7535440777-2">)</span><span class="p" data-group-id="7535440777-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2903796441-1">#</span><span class="nc" data-group-id="2903796441-1">Nx.Tensor</span><span class="p" data-group-id="2903796441-1">&lt;</span><span class="w">
-  </span><span class="n">f32</span><span class="p" data-group-id="2903796441-2">[</span><span class="mi">1</span><span class="p" data-group-id="2903796441-2">]</span><span class="p" data-group-id="2903796441-3">[</span><span class="mi">8</span><span class="p" data-group-id="2903796441-3">]</span><span class="w">
-  </span><span class="p" data-group-id="2903796441-4">[</span><span class="w">
-    </span><span class="p" data-group-id="2903796441-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="2903796441-5">]</span><span class="w">
-  </span><span class="p" data-group-id="2903796441-4">]</span><span class="w">
-</span><span class="p" data-group-id="2903796441-1">&gt;</span></code></pre><p>And your model just returned the given input, as expected!</p>
+;</code></pre><p>Notice the execution flow is just a single node, because your graph only consists of an input node! You pass data in and the model spits the same data back out, without any intermediate transformations.</p><p>You can see this in action by actually executing your model. You can build the <code class="inline">%Axon{}</code> struct into it's <code class="inline">initialization</code> and <code class="inline">forward</code> functions by calling <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a>. This pattern of &quot;lowering&quot; or transforming the <code class="inline">%Axon{}</code> data structure into other functions or representations is very common in Axon. By simply traversing the data structure, you can create useful functions, execution visualizations, and more!</p><pre><code class="makeup elixir" translate="no"><span class="p" data-group-id="0992405620-1">{</span><span class="n">init_fn</span><span class="p">,</span><span class="w"> </span><span class="n">predict_fn</span><span class="p" data-group-id="0992405620-1">}</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">build</span><span class="p" data-group-id="0992405620-2">(</span><span class="n">input</span><span class="p" data-group-id="0992405620-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2986495294-1">{</span><span class="p" data-group-id="2986495294-2">#</span><span class="nc" data-group-id="2986495294-2">Function</span><span class="p" data-group-id="2986495294-2">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2986495294-2">&gt;</span><span class="p">,</span><span class="w">
+ </span><span class="p" data-group-id="2986495294-3">#</span><span class="nc" data-group-id="2986495294-3">Function</span><span class="p" data-group-id="2986495294-3">&lt;</span><span class="mf">135.109794929</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Nx.Defn.Compiler</span><span class="o">.</span><span class="n">fun</span><span class="o">/</span><span class="mi">2</span><span class="p" data-group-id="2986495294-3">&gt;</span><span class="p" data-group-id="2986495294-1">}</span></code></pre><p>Notice that <a href="Axon.html#build/2"><code class="inline">Axon.build/2</code></a> returns a tuple of <code class="inline">{init_fn, predict_fn}</code>. <code class="inline">init_fn</code> has the signature:</p><pre><code class="makeup elixir" translate="no"><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="9082787178-1">(</span><span class="n">template</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="9082787178-2">(</span><span class="n">tensor</span><span class="p" data-group-id="9082787178-2">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">tensor</span><span class="p">,</span><span class="w"> </span><span class="n">initial_params</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="9082787178-1">)</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="9082787178-3">(</span><span class="n">tensor</span><span class="p" data-group-id="9082787178-3">)</span></code></pre><p>while <code class="inline">predict_fn</code> has the signature:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="2430097660-1">(</span><span class="n">params</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="2430097660-2">(</span><span class="n">tensor</span><span class="p" data-group-id="2430097660-2">)</span><span class="p">,</span><span class="w"> </span><span class="n">input</span><span class="w"> </span><span class="o">::</span><span class="w"> </span><span class="n">map</span><span class="p" data-group-id="2430097660-3">(</span><span class="n">tensor</span><span class="p" data-group-id="2430097660-3">)</span><span class="w"> </span><span class="o">|</span><span class="w"> </span><span class="n">tensor</span><span class="p" data-group-id="2430097660-1">)</span></code></pre><p><code class="inline">init_fn</code> returns all of your model's trainable parameters and state. You need to pass a template of the expected inputs because the shape of certain model parameters often depend on the shape of model inputs. You also need to pass any initial parameters you want your model to start with. This is useful for things like transfer learning, which you can read about in another guide.</p><p><code class="inline">predict_fn</code> returns transformed inputs from your model's trainable parameters and the given inputs.</p><pre><code class="makeup elixir" translate="no"><span class="n">params</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">init_fn</span><span class="o">.</span><span class="p" data-group-id="7898081530-1">(</span><span class="nc">Nx</span><span class="o">.</span><span class="n">template</span><span class="p" data-group-id="7898081530-2">(</span><span class="p" data-group-id="7898081530-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="7898081530-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="7898081530-2">)</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="7898081530-4">%{</span><span class="p" data-group-id="7898081530-4">}</span><span class="p" data-group-id="7898081530-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2270508445-1">%{</span><span class="p" data-group-id="2270508445-1">}</span></code></pre><p>In this example, you use <a href="https://hexdocs.pm/nx/0.7.0/Nx.html#template/2"><code class="inline">Nx.template/2</code></a> to create a <em>template tensor</em>, which is a placeholder that does not actually consume any memory. Templates are useful for initialization because you don't actually need to know anything about your inputs other than their shape and type.</p><p>Notice <code class="inline">init_fn</code> returned an empty map because your model does not have any trainable parameters. This should make sense because it's just an input layer.</p><p>Now you can pass these trainable parameters to <code class="inline">predict_fn</code> along with some input to actually execute your model:</p><pre><code class="makeup elixir" translate="no"><span class="n">predict_fn</span><span class="o">.</span><span class="p" data-group-id="4095096820-1">(</span><span class="n">params</span><span class="p">,</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">iota</span><span class="p" data-group-id="4095096820-2">(</span><span class="p" data-group-id="4095096820-3">{</span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="mi">8</span><span class="p" data-group-id="4095096820-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">type</span><span class="p">:</span><span class="w"> </span><span class="ss">:f32</span><span class="p" data-group-id="4095096820-2">)</span><span class="p" data-group-id="4095096820-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3810832167-1">#</span><span class="nc" data-group-id="3810832167-1">Nx.Tensor</span><span class="p" data-group-id="3810832167-1">&lt;</span><span class="w">
+  </span><span class="n">f32</span><span class="p" data-group-id="3810832167-2">[</span><span class="mi">1</span><span class="p" data-group-id="3810832167-2">]</span><span class="p" data-group-id="3810832167-3">[</span><span class="mi">8</span><span class="p" data-group-id="3810832167-3">]</span><span class="w">
+  </span><span class="p" data-group-id="3810832167-4">[</span><span class="w">
+    </span><span class="p" data-group-id="3810832167-5">[</span><span class="mf">0.0</span><span class="p">,</span><span class="w"> </span><span class="mf">1.0</span><span class="p">,</span><span class="w"> </span><span class="mf">2.0</span><span class="p">,</span><span class="w"> </span><span class="mf">3.0</span><span class="p">,</span><span class="w"> </span><span class="mf">4.0</span><span class="p">,</span><span class="w"> </span><span class="mf">5.0</span><span class="p">,</span><span class="w"> </span><span class="mf">6.0</span><span class="p">,</span><span class="w"> </span><span class="mf">7.0</span><span class="p" data-group-id="3810832167-5">]</span><span class="w">
+  </span><span class="p" data-group-id="3810832167-4">]</span><span class="w">
+</span><span class="p" data-group-id="3810832167-1">&gt;</span></code></pre><p>And your model just returned the given input, as expected!</p>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/your_first_evaluation_loop.html b/your_first_evaluation_loop.html
index 08087d8c..c854eff5 100644
--- a/your_first_evaluation_loop.html
+++ b/your_first_evaluation_loop.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,125 +136,125 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="0942835448-1">(</span><span class="p" data-group-id="0942835448-2">[</span><span class="w">
-  </span><span class="p" data-group-id="0942835448-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="0942835448-3">}</span><span class="w">
-</span><span class="p" data-group-id="0942835448-2">]</span><span class="p" data-group-id="0942835448-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-an-axon-evaluation-loop" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="6822576431-1">(</span><span class="p" data-group-id="6822576431-2">[</span><span class="w">
+  </span><span class="p" data-group-id="6822576431-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="6822576431-3">}</span><span class="w">
+</span><span class="p" data-group-id="6822576431-2">]</span><span class="p" data-group-id="6822576431-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-an-axon-evaluation-loop" class="section-heading">
   <a href="#creating-an-axon-evaluation-loop" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Creating an Axon evaluation loop</span>
 </h2>
 <p>Once you have a trained model, it's necessary to test the trained model on some test data. Axon's loop abstraction is general enough to work for both training and evaluating models. Just as Axon implements a canned <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> factory, it also implements a canned <a href="Axon.Loop.html#evaluator/1"><code class="inline">Axon.Loop.evaluator/1</code></a> factory.</p><p><a href="Axon.Loop.html#evaluator/1"><code class="inline">Axon.Loop.evaluator/1</code></a> creates an evaluation loop which you can instrument with metrics to measure the performance of a trained model on test data. First, you need a trained model:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="6754447822-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="6754447822-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6754447822-2">(</span><span class="mi">8</span><span class="p" data-group-id="6754447822-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6754447822-3">(</span><span class="p" data-group-id="6754447822-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6754447822-4">(</span><span class="mi">4</span><span class="p" data-group-id="6754447822-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="6754447822-5">(</span><span class="p" data-group-id="6754447822-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="6754447822-6">(</span><span class="mi">1</span><span class="p" data-group-id="6754447822-6">)</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="9720121904-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="9720121904-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9720121904-2">(</span><span class="mi">8</span><span class="p" data-group-id="9720121904-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9720121904-3">(</span><span class="p" data-group-id="9720121904-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9720121904-4">(</span><span class="mi">4</span><span class="p" data-group-id="9720121904-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="9720121904-5">(</span><span class="p" data-group-id="9720121904-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="9720121904-6">(</span><span class="mi">1</span><span class="p" data-group-id="9720121904-6">)</span><span class="w">
 
-</span><span class="n">train_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="6754447822-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="6754447822-7">)</span><span class="w">
+</span><span class="n">train_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="9720121904-7">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="9720121904-7">)</span><span class="w">
 
 </span><span class="n">data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="6754447822-8">(</span><span class="k" data-group-id="6754447822-9">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="6754447822-10">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="6754447822-10">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="6754447822-11">(</span><span class="mi">9999</span><span class="p" data-group-id="6754447822-11">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="6754447822-12">(</span><span class="p" data-group-id="6754447822-12">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="6754447822-13">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6754447822-14">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6754447822-14">}</span><span class="p" data-group-id="6754447822-13">)</span><span class="w">
-
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="6754447822-15">(</span><span class="n">xs</span><span class="p" data-group-id="6754447822-15">)</span><span class="w">
-    </span><span class="p" data-group-id="6754447822-16">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="6754447822-16">}</span><span class="w">
-  </span><span class="k" data-group-id="6754447822-9">end</span><span class="p" data-group-id="6754447822-8">)</span><span class="w">
-
-</span><span class="n">trained_model_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="6754447822-17">(</span><span class="n">train_loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="6754447822-18">%{</span><span class="p" data-group-id="6754447822-18">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="6754447822-17">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1285532</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4289276169-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-3">#</span><span class="nc" data-group-id="4289276169-3">Nx.Tensor</span><span class="p" data-group-id="4289276169-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4289276169-4">[</span><span class="mi">8</span><span class="p" data-group-id="4289276169-4">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-5">[</span><span class="o">-</span><span class="mf">0.06848274916410446</span><span class="p">,</span><span class="w"> </span><span class="mf">0.037988610565662384</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.199247345328331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18008524179458618</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10976515710353851</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10479626059532166</span><span class="p">,</span><span class="w"> </span><span class="mf">0.562850832939148</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.030415315181016922</span><span class="p" data-group-id="4289276169-5">]</span><span class="w">
-    </span><span class="p" data-group-id="4289276169-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-6">#</span><span class="nc" data-group-id="4289276169-6">Nx.Tensor</span><span class="p" data-group-id="4289276169-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4289276169-7">[</span><span class="mi">1</span><span class="p" data-group-id="4289276169-7">]</span><span class="p" data-group-id="4289276169-8">[</span><span class="mi">8</span><span class="p" data-group-id="4289276169-8">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-9">[</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-10">[</span><span class="o">-</span><span class="mf">0.2839881181716919</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11133058369159698</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5213645100593567</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14406965672969818</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37532612681388855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28965434432029724</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9048429131507874</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.540614947676659e-4</span><span class="p" data-group-id="4289276169-10">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-9">]</span><span class="w">
-    </span><span class="p" data-group-id="4289276169-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4289276169-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-12">#</span><span class="nc" data-group-id="4289276169-12">Nx.Tensor</span><span class="p" data-group-id="4289276169-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4289276169-13">[</span><span class="mi">4</span><span class="p" data-group-id="4289276169-13">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-14">[</span><span class="o">-</span><span class="mf">0.2961483597755432</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3721822202205658</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1726730614900589</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20648165047168732</span><span class="p" data-group-id="4289276169-14">]</span><span class="w">
-    </span><span class="p" data-group-id="4289276169-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-15">#</span><span class="nc" data-group-id="4289276169-15">Nx.Tensor</span><span class="p" data-group-id="4289276169-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4289276169-16">[</span><span class="mi">8</span><span class="p" data-group-id="4289276169-16">]</span><span class="p" data-group-id="4289276169-17">[</span><span class="mi">4</span><span class="p" data-group-id="4289276169-17">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-18">[</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-19">[</span><span class="mf">0.602420449256897</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46551579236984253</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3295630216598511</span><span class="p">,</span><span class="w"> </span><span class="mf">0.484800785779953</span><span class="p" data-group-id="4289276169-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-20">[</span><span class="mf">0.05755739286541939</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2412092238664627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27874955534935</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13457047939300537</span><span class="p" data-group-id="4289276169-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-21">[</span><span class="o">-</span><span class="mf">0.26997247338294983</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4479314386844635</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4976465106010437</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05715075880289078</span><span class="p" data-group-id="4289276169-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-22">[</span><span class="o">-</span><span class="mf">0.7245721220970154</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1187945082783699</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14330074191093445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3257679343223572</span><span class="p" data-group-id="4289276169-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-23">[</span><span class="o">-</span><span class="mf">0.032964885234832764</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.625235915184021</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05669135972857475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7016372680664062</span><span class="p" data-group-id="4289276169-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-24">[</span><span class="o">-</span><span class="mf">0.08433973789215088</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07334757596254349</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08273869007825851</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46893611550331116</span><span class="p" data-group-id="4289276169-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-25">[</span><span class="mf">0.4123252332210541</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9876810312271118</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3525731563568115</span><span class="p">,</span><span class="w"> </span><span class="mf">0.030163511633872986</span><span class="p" data-group-id="4289276169-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-26">[</span><span class="mf">0.6962482333183289</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5394620299339294</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6907036304473877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5448697209358215</span><span class="p" data-group-id="4289276169-26">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-18">]</span><span class="w">
-    </span><span class="p" data-group-id="4289276169-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4289276169-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-28">#</span><span class="nc" data-group-id="4289276169-28">Nx.Tensor</span><span class="p" data-group-id="4289276169-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4289276169-29">[</span><span class="mi">1</span><span class="p" data-group-id="4289276169-29">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-30">[</span><span class="mf">0.7519291043281555</span><span class="p" data-group-id="4289276169-30">]</span><span class="w">
-    </span><span class="p" data-group-id="4289276169-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4289276169-31">#</span><span class="nc" data-group-id="4289276169-31">Nx.Tensor</span><span class="p" data-group-id="4289276169-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="4289276169-32">[</span><span class="mi">4</span><span class="p" data-group-id="4289276169-32">]</span><span class="p" data-group-id="4289276169-33">[</span><span class="mi">1</span><span class="p" data-group-id="4289276169-33">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-34">[</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-35">[</span><span class="mf">0.7839917540550232</span><span class="p" data-group-id="4289276169-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-36">[</span><span class="o">-</span><span class="mf">0.8586246967315674</span><span class="p" data-group-id="4289276169-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-37">[</span><span class="mf">0.8599083423614502</span><span class="p" data-group-id="4289276169-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="4289276169-38">[</span><span class="mf">0.29766184091567993</span><span class="p" data-group-id="4289276169-38">]</span><span class="w">
-      </span><span class="p" data-group-id="4289276169-34">]</span><span class="w">
-    </span><span class="p" data-group-id="4289276169-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="4289276169-27">}</span><span class="w">
-</span><span class="p" data-group-id="4289276169-1">}</span></code></pre><p>Running loops with <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> returns a trained model state which you can use to evaluate your model. To construct an evaluation loop, you just call <a href="Axon.Loop.html#evaluator/1"><code class="inline">Axon.Loop.evaluator/1</code></a> with your pre-trained model:</p><pre><code class="makeup elixir" translate="no"><span class="n">test_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="4565139018-1">(</span><span class="n">model</span><span class="p" data-group-id="4565139018-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0559245287-1">#</span><span class="nc" data-group-id="0559245287-1">Axon.Loop</span><span class="p" data-group-id="0559245287-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-2">%{</span><span class="p" data-group-id="0559245287-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-3">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-4">[</span><span class="p" data-group-id="0559245287-4">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-5">[</span><span class="p" data-group-id="0559245287-5">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-6">[</span><span class="p" data-group-id="0559245287-6">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-7">[</span><span class="p" data-group-id="0559245287-7">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-8">[</span><span class="p" data-group-id="0559245287-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-9">[</span><span class="w">
-      </span><span class="p" data-group-id="0559245287-10">{</span><span class="p" data-group-id="0559245287-11">#</span><span class="nc" data-group-id="0559245287-11">Function</span><span class="p" data-group-id="0559245287-11">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="0559245287-11">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="0559245287-12">#</span><span class="nc" data-group-id="0559245287-12">Function</span><span class="p" data-group-id="0559245287-12">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="0559245287-12">&gt;</span><span class="p" data-group-id="0559245287-10">}</span><span class="w">
-    </span><span class="p" data-group-id="0559245287-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-13">[</span><span class="p" data-group-id="0559245287-13">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="0559245287-14">[</span><span class="p" data-group-id="0559245287-14">]</span><span class="w">
-  </span><span class="p" data-group-id="0559245287-3">}</span><span class="p">,</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="9720121904-8">(</span><span class="k" data-group-id="9720121904-9">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="9720121904-10">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="9720121904-10">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="9720121904-11">(</span><span class="mi">9999</span><span class="p" data-group-id="9720121904-11">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="9720121904-12">(</span><span class="p" data-group-id="9720121904-12">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="9720121904-13">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="9720121904-14">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="9720121904-14">}</span><span class="p" data-group-id="9720121904-13">)</span><span class="w">
+
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="9720121904-15">(</span><span class="n">xs</span><span class="p" data-group-id="9720121904-15">)</span><span class="w">
+    </span><span class="p" data-group-id="9720121904-16">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="9720121904-16">}</span><span class="w">
+  </span><span class="k" data-group-id="9720121904-9">end</span><span class="p" data-group-id="9720121904-8">)</span><span class="w">
+
+</span><span class="n">trained_model_state</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9720121904-17">(</span><span class="n">train_loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9720121904-18">%{</span><span class="p" data-group-id="9720121904-18">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="9720121904-17">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1285532</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0244931447-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-3">#</span><span class="nc" data-group-id="0244931447-3">Nx.Tensor</span><span class="p" data-group-id="0244931447-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0244931447-4">[</span><span class="mi">8</span><span class="p" data-group-id="0244931447-4">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-5">[</span><span class="o">-</span><span class="mf">0.06848274916410446</span><span class="p">,</span><span class="w"> </span><span class="mf">0.037988610565662384</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.199247345328331</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18008524179458618</span><span class="p">,</span><span class="w"> </span><span class="mf">0.10976515710353851</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10479626059532166</span><span class="p">,</span><span class="w"> </span><span class="mf">0.562850832939148</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.030415315181016922</span><span class="p" data-group-id="0244931447-5">]</span><span class="w">
+    </span><span class="p" data-group-id="0244931447-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-6">#</span><span class="nc" data-group-id="0244931447-6">Nx.Tensor</span><span class="p" data-group-id="0244931447-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0244931447-7">[</span><span class="mi">1</span><span class="p" data-group-id="0244931447-7">]</span><span class="p" data-group-id="0244931447-8">[</span><span class="mi">8</span><span class="p" data-group-id="0244931447-8">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-9">[</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-10">[</span><span class="o">-</span><span class="mf">0.2839881181716919</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11133058369159698</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5213645100593567</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14406965672969818</span><span class="p">,</span><span class="w"> </span><span class="mf">0.37532612681388855</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.28965434432029724</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.9048429131507874</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">5.540614947676659e-4</span><span class="p" data-group-id="0244931447-10">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-9">]</span><span class="w">
+    </span><span class="p" data-group-id="0244931447-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0244931447-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-12">#</span><span class="nc" data-group-id="0244931447-12">Nx.Tensor</span><span class="p" data-group-id="0244931447-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0244931447-13">[</span><span class="mi">4</span><span class="p" data-group-id="0244931447-13">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-14">[</span><span class="o">-</span><span class="mf">0.2961483597755432</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3721822202205658</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1726730614900589</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20648165047168732</span><span class="p" data-group-id="0244931447-14">]</span><span class="w">
+    </span><span class="p" data-group-id="0244931447-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-15">#</span><span class="nc" data-group-id="0244931447-15">Nx.Tensor</span><span class="p" data-group-id="0244931447-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0244931447-16">[</span><span class="mi">8</span><span class="p" data-group-id="0244931447-16">]</span><span class="p" data-group-id="0244931447-17">[</span><span class="mi">4</span><span class="p" data-group-id="0244931447-17">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-18">[</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-19">[</span><span class="mf">0.602420449256897</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46551579236984253</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3295630216598511</span><span class="p">,</span><span class="w"> </span><span class="mf">0.484800785779953</span><span class="p" data-group-id="0244931447-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-20">[</span><span class="mf">0.05755739286541939</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2412092238664627</span><span class="p">,</span><span class="w"> </span><span class="mf">0.27874955534935</span><span class="p">,</span><span class="w"> </span><span class="mf">0.13457047939300537</span><span class="p" data-group-id="0244931447-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-21">[</span><span class="o">-</span><span class="mf">0.26997247338294983</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4479314386844635</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4976465106010437</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05715075880289078</span><span class="p" data-group-id="0244931447-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-22">[</span><span class="o">-</span><span class="mf">0.7245721220970154</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1187945082783699</span><span class="p">,</span><span class="w"> </span><span class="mf">0.14330074191093445</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3257679343223572</span><span class="p" data-group-id="0244931447-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-23">[</span><span class="o">-</span><span class="mf">0.032964885234832764</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.625235915184021</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05669135972857475</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7016372680664062</span><span class="p" data-group-id="0244931447-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-24">[</span><span class="o">-</span><span class="mf">0.08433973789215088</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07334757596254349</span><span class="p">,</span><span class="w"> </span><span class="mf">0.08273869007825851</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46893611550331116</span><span class="p" data-group-id="0244931447-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-25">[</span><span class="mf">0.4123252332210541</span><span class="p">,</span><span class="w"> </span><span class="mf">0.9876810312271118</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3525731563568115</span><span class="p">,</span><span class="w"> </span><span class="mf">0.030163511633872986</span><span class="p" data-group-id="0244931447-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-26">[</span><span class="mf">0.6962482333183289</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5394620299339294</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6907036304473877</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5448697209358215</span><span class="p" data-group-id="0244931447-26">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-18">]</span><span class="w">
+    </span><span class="p" data-group-id="0244931447-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0244931447-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-28">#</span><span class="nc" data-group-id="0244931447-28">Nx.Tensor</span><span class="p" data-group-id="0244931447-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0244931447-29">[</span><span class="mi">1</span><span class="p" data-group-id="0244931447-29">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-30">[</span><span class="mf">0.7519291043281555</span><span class="p" data-group-id="0244931447-30">]</span><span class="w">
+    </span><span class="p" data-group-id="0244931447-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0244931447-31">#</span><span class="nc" data-group-id="0244931447-31">Nx.Tensor</span><span class="p" data-group-id="0244931447-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="0244931447-32">[</span><span class="mi">4</span><span class="p" data-group-id="0244931447-32">]</span><span class="p" data-group-id="0244931447-33">[</span><span class="mi">1</span><span class="p" data-group-id="0244931447-33">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-34">[</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-35">[</span><span class="mf">0.7839917540550232</span><span class="p" data-group-id="0244931447-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-36">[</span><span class="o">-</span><span class="mf">0.8586246967315674</span><span class="p" data-group-id="0244931447-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-37">[</span><span class="mf">0.8599083423614502</span><span class="p" data-group-id="0244931447-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="0244931447-38">[</span><span class="mf">0.29766184091567993</span><span class="p" data-group-id="0244931447-38">]</span><span class="w">
+      </span><span class="p" data-group-id="0244931447-34">]</span><span class="w">
+    </span><span class="p" data-group-id="0244931447-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="0244931447-27">}</span><span class="w">
+</span><span class="p" data-group-id="0244931447-1">}</span></code></pre><p>Running loops with <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> returns a trained model state which you can use to evaluate your model. To construct an evaluation loop, you just call <a href="Axon.Loop.html#evaluator/1"><code class="inline">Axon.Loop.evaluator/1</code></a> with your pre-trained model:</p><pre><code class="makeup elixir" translate="no"><span class="n">test_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">evaluator</span><span class="p" data-group-id="7209832518-1">(</span><span class="n">model</span><span class="p" data-group-id="7209832518-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6426277573-1">#</span><span class="nc" data-group-id="6426277573-1">Axon.Loop</span><span class="p" data-group-id="6426277573-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-2">%{</span><span class="p" data-group-id="6426277573-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-3">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-4">[</span><span class="p" data-group-id="6426277573-4">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-5">[</span><span class="p" data-group-id="6426277573-5">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-6">[</span><span class="p" data-group-id="6426277573-6">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-7">[</span><span class="p" data-group-id="6426277573-7">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-8">[</span><span class="p" data-group-id="6426277573-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-9">[</span><span class="w">
+      </span><span class="p" data-group-id="6426277573-10">{</span><span class="p" data-group-id="6426277573-11">#</span><span class="nc" data-group-id="6426277573-11">Function</span><span class="p" data-group-id="6426277573-11">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="6426277573-11">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="6426277573-12">#</span><span class="nc" data-group-id="6426277573-12">Function</span><span class="p" data-group-id="6426277573-12">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6426277573-12">&gt;</span><span class="p" data-group-id="6426277573-10">}</span><span class="w">
+    </span><span class="p" data-group-id="6426277573-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-13">[</span><span class="p" data-group-id="6426277573-13">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6426277573-14">[</span><span class="p" data-group-id="6426277573-14">]</span><span class="w">
+  </span><span class="p" data-group-id="6426277573-3">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="0559245287-1">&gt;</span></code></pre><p>Next, you'll need to instrument your test loop with the metrics you'd like to aggregate:</p><pre><code class="makeup elixir" translate="no"><span class="n">test_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_loop</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1059834464-1">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="1059834464-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4436979091-1">#</span><span class="nc" data-group-id="4436979091-1">Axon.Loop</span><span class="p" data-group-id="4436979091-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-2">%{</span><span class="w">
-    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4436979091-3">{</span><span class="p" data-group-id="4436979091-4">#</span><span class="nc" data-group-id="4436979091-4">Function</span><span class="p" data-group-id="4436979091-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4436979091-4">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="4436979091-3">}</span><span class="w">
-  </span><span class="p" data-group-id="4436979091-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-5">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-6">[</span><span class="p" data-group-id="4436979091-6">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-7">[</span><span class="p" data-group-id="4436979091-7">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-8">[</span><span class="p" data-group-id="4436979091-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-9">[</span><span class="p" data-group-id="4436979091-9">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-10">[</span><span class="p" data-group-id="4436979091-10">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-11">[</span><span class="w">
-      </span><span class="p" data-group-id="4436979091-12">{</span><span class="p" data-group-id="4436979091-13">#</span><span class="nc" data-group-id="4436979091-13">Function</span><span class="p" data-group-id="4436979091-13">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="4436979091-13">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="4436979091-14">#</span><span class="nc" data-group-id="4436979091-14">Function</span><span class="p" data-group-id="4436979091-14">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4436979091-14">&gt;</span><span class="p" data-group-id="4436979091-12">}</span><span class="w">
-    </span><span class="p" data-group-id="4436979091-11">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-15">[</span><span class="p" data-group-id="4436979091-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="4436979091-16">[</span><span class="p" data-group-id="4436979091-16">]</span><span class="w">
-  </span><span class="p" data-group-id="4436979091-5">}</span><span class="p">,</span><span class="w">
+</span><span class="p" data-group-id="6426277573-1">&gt;</span></code></pre><p>Next, you'll need to instrument your test loop with the metrics you'd like to aggregate:</p><pre><code class="makeup elixir" translate="no"><span class="n">test_loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">test_loop</span><span class="w"> </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">metric</span><span class="p" data-group-id="1532405067-1">(</span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="1532405067-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="5666117659-1">#</span><span class="nc" data-group-id="5666117659-1">Axon.Loop</span><span class="p" data-group-id="5666117659-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-2">%{</span><span class="w">
+    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="5666117659-3">{</span><span class="p" data-group-id="5666117659-4">#</span><span class="nc" data-group-id="5666117659-4">Function</span><span class="p" data-group-id="5666117659-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5666117659-4">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="ss">:mean_absolute_error</span><span class="p" data-group-id="5666117659-3">}</span><span class="w">
+  </span><span class="p" data-group-id="5666117659-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-5">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-6">[</span><span class="p" data-group-id="5666117659-6">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-7">[</span><span class="p" data-group-id="5666117659-7">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-8">[</span><span class="p" data-group-id="5666117659-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-9">[</span><span class="p" data-group-id="5666117659-9">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-10">[</span><span class="p" data-group-id="5666117659-10">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-11">[</span><span class="w">
+      </span><span class="p" data-group-id="5666117659-12">{</span><span class="p" data-group-id="5666117659-13">#</span><span class="nc" data-group-id="5666117659-13">Function</span><span class="p" data-group-id="5666117659-13">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="5666117659-13">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="5666117659-14">#</span><span class="nc" data-group-id="5666117659-14">Function</span><span class="p" data-group-id="5666117659-14">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="5666117659-14">&gt;</span><span class="p" data-group-id="5666117659-12">}</span><span class="w">
+    </span><span class="p" data-group-id="5666117659-11">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-15">[</span><span class="p" data-group-id="5666117659-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="5666117659-16">[</span><span class="p" data-group-id="5666117659-16">]</span><span class="w">
+  </span><span class="p" data-group-id="5666117659-5">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="4436979091-1">&gt;</span></code></pre><p>Finally, you can run your loop on test data. Because you want to test your trained model, you need to provide your model's initial state to the test loop:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8851669694-1">(</span><span class="n">test_loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">trained_model_state</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="8851669694-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">999</span><span class="p">,</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0856894</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="0906862157-1">%{</span><span class="w">
-  </span><span class="mi">0</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0906862157-2">%{</span><span class="w">
-    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="0906862157-3">#</span><span class="nc" data-group-id="0906862157-3">Nx.Tensor</span><span class="p" data-group-id="0906862157-3">&lt;</span><span class="w">
+</span><span class="p" data-group-id="5666117659-1">&gt;</span></code></pre><p>Finally, you can run your loop on test data. Because you want to test your trained model, you need to provide your model's initial state to the test loop:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="2525790076-1">(</span><span class="n">test_loop</span><span class="p">,</span><span class="w"> </span><span class="n">data</span><span class="p">,</span><span class="w"> </span><span class="n">trained_model_state</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="2525790076-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">999</span><span class="p">,</span><span class="w"> </span><span class="ss">mean_absolute_error</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0856894</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8783746891-1">%{</span><span class="w">
+  </span><span class="mi">0</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8783746891-2">%{</span><span class="w">
+    </span><span class="s">&quot;mean_absolute_error&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8783746891-3">#</span><span class="nc" data-group-id="8783746891-3">Nx.Tensor</span><span class="p" data-group-id="8783746891-3">&lt;</span><span class="w">
       </span><span class="n">f32</span><span class="w">
       </span><span class="mf">0.08568935841321945</span><span class="w">
-    </span><span class="p" data-group-id="0906862157-3">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="0906862157-2">}</span><span class="w">
-</span><span class="p" data-group-id="0906862157-1">}</span></code></pre>
+    </span><span class="p" data-group-id="8783746891-3">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8783746891-2">}</span><span class="w">
+</span><span class="p" data-group-id="8783746891-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">
 
diff --git a/your_first_training_loop.html b/your_first_training_loop.html
index b2941a3f..49a7bac4 100644
--- a/your_first_training_loop.html
+++ b/your_first_training_loop.html
@@ -14,7 +14,7 @@
 
     <script src="dist/handlebars.runtime-NWIB6V2M.js"></script>
     <script src="dist/handlebars.templates-43PMFBC7.js"></script>
-    <script src="dist/sidebar_items-B66D7C0E.js"></script>
+    <script src="dist/sidebar_items-D4AB84D3.js"></script>
 
       <script src="docs_config.js"></script>
 
@@ -136,201 +136,201 @@ <h1>
     </a>
   </div>
 
-<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="9048457201-1">(</span><span class="p" data-group-id="9048457201-2">[</span><span class="w">
-  </span><span class="p" data-group-id="9048457201-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="9048457201-3">}</span><span class="w">
-</span><span class="p" data-group-id="9048457201-2">]</span><span class="p" data-group-id="9048457201-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-an-axon-training-loop" class="section-heading">
+<pre><code class="makeup elixir" translate="no"><span class="nc">Mix</span><span class="o">.</span><span class="n">install</span><span class="p" data-group-id="1051778476-1">(</span><span class="p" data-group-id="1051778476-2">[</span><span class="w">
+  </span><span class="p" data-group-id="1051778476-3">{</span><span class="ss">:axon</span><span class="p">,</span><span class="w"> </span><span class="s">&quot;&gt;= 0.5.0&quot;</span><span class="p" data-group-id="1051778476-3">}</span><span class="w">
+</span><span class="p" data-group-id="1051778476-2">]</span><span class="p" data-group-id="1051778476-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">:ok</span></code></pre><h2 id="creating-an-axon-training-loop" class="section-heading">
   <a href="#creating-an-axon-training-loop" class="hover-link">
     <i class="ri-link-m" aria-hidden="true"></i>
   </a>
   <span class="text">Creating an Axon training loop</span>
 </h2>
 <p>Axon generalizes the concept of training, evaluation, hyperparameter optimization, and more into the <a href="Axon.Loop.html"><code class="inline">Axon.Loop</code></a> API. Axon loops are a instrumented reductions over Elixir Streams - that basically means you can accumulate some state over an Elixir <a href="https://hexdocs.pm/elixir/Stream.html"><code class="inline">Stream</code></a> and control different points in the loop execution.</p><p>With Axon, you'll most commonly implement and work with supervised training loops. Because supervised training loops are so common in deep learning, Axon has a loop factory function which takes care of most of the boilerplate of creating a supervised training loop for you. In the beginning of your deep learning journey, you'll almost exclusively use Axon's loop factories to create and run loops.</p><p>Axon's supervised training loop assumes you have an input stream of data with entries that look like:</p><p><code class="inline">{batch_inputs, batch_labels}</code></p><p>Each entry is a batch of input data with a corresponding batch of labels. You can simulate some real training data by constructing an Elixir stream:</p><pre><code class="makeup elixir" translate="no"><span class="n">train_data</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="6209029267-1">(</span><span class="k" data-group-id="6209029267-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
-    </span><span class="p" data-group-id="6209029267-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="6209029267-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
-      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="6209029267-4">(</span><span class="mi">9999</span><span class="p" data-group-id="6209029267-4">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="6209029267-5">(</span><span class="p" data-group-id="6209029267-5">)</span><span class="w">
-      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="6209029267-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6209029267-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="6209029267-7">}</span><span class="p" data-group-id="6209029267-6">)</span><span class="w">
-
-    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="6209029267-8">(</span><span class="n">xs</span><span class="p" data-group-id="6209029267-8">)</span><span class="w">
-    </span><span class="p" data-group-id="6209029267-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="6209029267-9">}</span><span class="w">
-  </span><span class="k" data-group-id="6209029267-2">end</span><span class="p" data-group-id="6209029267-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3912357684-1">#</span><span class="nc" data-group-id="3912357684-1">Function</span><span class="p" data-group-id="3912357684-1">&lt;</span><span class="mf">51.6935098</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="3912357684-1">&gt;</span></code></pre><p>The most basic supervised training loop in Axon requires 3 things:</p><ol><li>An Axon model</li><li>A loss function</li><li>An optimizer</li></ol><p>You can construct an Axon model using the knowledge you've gained from going through the model creation guides:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
-  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="0626127071-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="0626127071-1">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0626127071-2">(</span><span class="mi">8</span><span class="p" data-group-id="0626127071-2">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0626127071-3">(</span><span class="p" data-group-id="0626127071-3">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0626127071-4">(</span><span class="mi">4</span><span class="p" data-group-id="0626127071-4">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="0626127071-5">(</span><span class="p" data-group-id="0626127071-5">)</span><span class="w">
-  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="0626127071-6">(</span><span class="mi">1</span><span class="p" data-group-id="0626127071-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="3097529868-1">#</span><span class="nc" data-group-id="3097529868-1">Axon</span><span class="p" data-group-id="3097529868-1">&lt;</span><span class="w">
-  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="3097529868-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="3097529868-2">}</span><span class="w">
+  </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="p" data-group-id="7134530746-1">(</span><span class="k" data-group-id="7134530746-2">fn</span><span class="w"> </span><span class="o">-&gt;</span><span class="w">
+    </span><span class="p" data-group-id="7134530746-3">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="c">_next_key</span><span class="p" data-group-id="7134530746-3">}</span><span class="w"> </span><span class="o">=</span><span class="w">
+      </span><span class="nc">:random</span><span class="o">.</span><span class="n">uniform</span><span class="p" data-group-id="7134530746-4">(</span><span class="mi">9999</span><span class="p" data-group-id="7134530746-4">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">key</span><span class="p" data-group-id="7134530746-5">(</span><span class="p" data-group-id="7134530746-5">)</span><span class="w">
+      </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Nx.Random</span><span class="o">.</span><span class="n">normal</span><span class="p" data-group-id="7134530746-6">(</span><span class="ss">shape</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="7134530746-7">{</span><span class="mi">8</span><span class="p">,</span><span class="w"> </span><span class="mi">1</span><span class="p" data-group-id="7134530746-7">}</span><span class="p" data-group-id="7134530746-6">)</span><span class="w">
+
+    </span><span class="n">ys</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Nx</span><span class="o">.</span><span class="n">sin</span><span class="p" data-group-id="7134530746-8">(</span><span class="n">xs</span><span class="p" data-group-id="7134530746-8">)</span><span class="w">
+    </span><span class="p" data-group-id="7134530746-9">{</span><span class="n">xs</span><span class="p">,</span><span class="w"> </span><span class="n">ys</span><span class="p" data-group-id="7134530746-9">}</span><span class="w">
+  </span><span class="k" data-group-id="7134530746-2">end</span><span class="p" data-group-id="7134530746-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4076554715-1">#</span><span class="nc" data-group-id="4076554715-1">Function</span><span class="p" data-group-id="4076554715-1">&lt;</span><span class="mf">51.6935098</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Stream</span><span class="o">.</span><span class="n">repeatedly</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="4076554715-1">&gt;</span></code></pre><p>The most basic supervised training loop in Axon requires 3 things:</p><ol><li>An Axon model</li><li>A loss function</li><li>An optimizer</li></ol><p>You can construct an Axon model using the knowledge you've gained from going through the model creation guides:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w"> </span><span class="o">=</span><span class="w">
+  </span><span class="nc">Axon</span><span class="o">.</span><span class="n">input</span><span class="p" data-group-id="3349955293-1">(</span><span class="s">&quot;data&quot;</span><span class="p" data-group-id="3349955293-1">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3349955293-2">(</span><span class="mi">8</span><span class="p" data-group-id="3349955293-2">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3349955293-3">(</span><span class="p" data-group-id="3349955293-3">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3349955293-4">(</span><span class="mi">4</span><span class="p" data-group-id="3349955293-4">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">relu</span><span class="p" data-group-id="3349955293-5">(</span><span class="p" data-group-id="3349955293-5">)</span><span class="w">
+  </span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon</span><span class="o">.</span><span class="n">dense</span><span class="p" data-group-id="3349955293-6">(</span><span class="mi">1</span><span class="p" data-group-id="3349955293-6">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6368962414-1">#</span><span class="nc" data-group-id="6368962414-1">Axon</span><span class="p" data-group-id="6368962414-1">&lt;</span><span class="w">
+  </span><span class="ss">inputs</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6368962414-2">%{</span><span class="s">&quot;data&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="no">nil</span><span class="p" data-group-id="6368962414-2">}</span><span class="w">
   </span><span class="ss">outputs</span><span class="p">:</span><span class="w"> </span><span class="s">&quot;dense_2&quot;</span><span class="w">
   </span><span class="ss">nodes</span><span class="p">:</span><span class="w"> </span><span class="mi">6</span><span class="w">
-</span><span class="p" data-group-id="3097529868-1">&gt;</span></code></pre><p>Axon comes with built-in loss functions and optimizers which you can use directly when constructing your training loop. To construct your training loop, you use <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="0156154552-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="0156154552-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6798142979-1">#</span><span class="nc" data-group-id="6798142979-1">Axon.Loop</span><span class="p" data-group-id="6798142979-1">&lt;</span><span class="w">
-  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-2">%{</span><span class="w">
-    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6798142979-3">{</span><span class="p" data-group-id="6798142979-4">#</span><span class="nc" data-group-id="6798142979-4">Function</span><span class="p" data-group-id="6798142979-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6798142979-4">&gt;</span><span class="p">,</span><span class="w">
-     </span><span class="p" data-group-id="6798142979-5">#</span><span class="nc" data-group-id="6798142979-5">Function</span><span class="p" data-group-id="6798142979-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6798142979-5">&gt;</span><span class="p" data-group-id="6798142979-3">}</span><span class="w">
-  </span><span class="p" data-group-id="6798142979-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-6">%{</span><span class="w">
-    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-7">[</span><span class="p" data-group-id="6798142979-7">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-8">[</span><span class="w">
-      </span><span class="p" data-group-id="6798142979-9">{</span><span class="p" data-group-id="6798142979-10">#</span><span class="nc" data-group-id="6798142979-10">Function</span><span class="p" data-group-id="6798142979-10">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="6798142979-10">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="6798142979-11">#</span><span class="nc" data-group-id="6798142979-11">Function</span><span class="p" data-group-id="6798142979-11">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6798142979-11">&gt;</span><span class="p" data-group-id="6798142979-9">}</span><span class="w">
-    </span><span class="p" data-group-id="6798142979-8">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-12">[</span><span class="p" data-group-id="6798142979-12">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-13">[</span><span class="p" data-group-id="6798142979-13">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-14">[</span><span class="p" data-group-id="6798142979-14">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-15">[</span><span class="w">
-      </span><span class="p" data-group-id="6798142979-16">{</span><span class="p" data-group-id="6798142979-17">#</span><span class="nc" data-group-id="6798142979-17">Function</span><span class="p" data-group-id="6798142979-17">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="6798142979-17">&gt;</span><span class="p">,</span><span class="w">
-       </span><span class="p" data-group-id="6798142979-18">#</span><span class="nc" data-group-id="6798142979-18">Function</span><span class="p" data-group-id="6798142979-18">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="6798142979-18">&gt;</span><span class="p" data-group-id="6798142979-16">}</span><span class="w">
-    </span><span class="p" data-group-id="6798142979-15">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-19">[</span><span class="p" data-group-id="6798142979-19">]</span><span class="p">,</span><span class="w">
-    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="6798142979-20">[</span><span class="p" data-group-id="6798142979-20">]</span><span class="w">
-  </span><span class="p" data-group-id="6798142979-6">}</span><span class="p">,</span><span class="w">
+</span><span class="p" data-group-id="6368962414-1">&gt;</span></code></pre><p>Axon comes with built-in loss functions and optimizers which you can use directly when constructing your training loop. To construct your training loop, you use <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="n">loop</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="1614512549-1">(</span><span class="n">model</span><span class="p">,</span><span class="w"> </span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p" data-group-id="1614512549-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2707890294-1">#</span><span class="nc" data-group-id="2707890294-1">Axon.Loop</span><span class="p" data-group-id="2707890294-1">&lt;</span><span class="w">
+  </span><span class="ss">metrics</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-2">%{</span><span class="w">
+    </span><span class="s">&quot;loss&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2707890294-3">{</span><span class="p" data-group-id="2707890294-4">#</span><span class="nc" data-group-id="2707890294-4">Function</span><span class="p" data-group-id="2707890294-4">&lt;</span><span class="mf">11.133813849</span><span class="o">/</span><span class="mi">3</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Metrics</span><span class="o">.</span><span class="n">running_average</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2707890294-4">&gt;</span><span class="p">,</span><span class="w">
+     </span><span class="p" data-group-id="2707890294-5">#</span><span class="nc" data-group-id="2707890294-5">Function</span><span class="p" data-group-id="2707890294-5">&lt;</span><span class="mf">9.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_loss_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2707890294-5">&gt;</span><span class="p" data-group-id="2707890294-3">}</span><span class="w">
+  </span><span class="p" data-group-id="2707890294-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="ss">handlers</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-6">%{</span><span class="w">
+    </span><span class="ss">completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-7">[</span><span class="p" data-group-id="2707890294-7">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-8">[</span><span class="w">
+      </span><span class="p" data-group-id="2707890294-9">{</span><span class="p" data-group-id="2707890294-10">#</span><span class="nc" data-group-id="2707890294-10">Function</span><span class="p" data-group-id="2707890294-10">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="2707890294-10">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="2707890294-11">#</span><span class="nc" data-group-id="2707890294-11">Function</span><span class="p" data-group-id="2707890294-11">&lt;</span><span class="mf">6.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2707890294-11">&gt;</span><span class="p" data-group-id="2707890294-9">}</span><span class="w">
+    </span><span class="p" data-group-id="2707890294-8">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-12">[</span><span class="p" data-group-id="2707890294-12">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">epoch_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-13">[</span><span class="p" data-group-id="2707890294-13">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">halted</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-14">[</span><span class="p" data-group-id="2707890294-14">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_completed</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-15">[</span><span class="w">
+      </span><span class="p" data-group-id="2707890294-16">{</span><span class="p" data-group-id="2707890294-17">#</span><span class="nc" data-group-id="2707890294-17">Function</span><span class="p" data-group-id="2707890294-17">&lt;</span><span class="mf">27.37390314</span><span class="o">/</span><span class="mi">1</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">log</span><span class="o">/</span><span class="mi">3</span><span class="p" data-group-id="2707890294-17">&gt;</span><span class="p">,</span><span class="w">
+       </span><span class="p" data-group-id="2707890294-18">#</span><span class="nc" data-group-id="2707890294-18">Function</span><span class="p" data-group-id="2707890294-18">&lt;</span><span class="mf">64.37390314</span><span class="o">/</span><span class="mi">2</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">build_filter_fn</span><span class="o">/</span><span class="mi">1</span><span class="p" data-group-id="2707890294-18">&gt;</span><span class="p" data-group-id="2707890294-16">}</span><span class="w">
+    </span><span class="p" data-group-id="2707890294-15">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">iteration_started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-19">[</span><span class="p" data-group-id="2707890294-19">]</span><span class="p">,</span><span class="w">
+    </span><span class="ss">started</span><span class="p">:</span><span class="w"> </span><span class="p" data-group-id="2707890294-20">[</span><span class="p" data-group-id="2707890294-20">]</span><span class="w">
+  </span><span class="p" data-group-id="2707890294-6">}</span><span class="p">,</span><span class="w">
   </span><span class="n">...</span><span class="w">
-</span><span class="p" data-group-id="6798142979-1">&gt;</span></code></pre><p>You'll notice that <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> returns an <code class="inline">%Axon.Loop{}</code> data structure. This data structure contains information which Axon uses to control the execution of the loop. In order to run the loop, you need to explicitly pass it to <a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3730922479-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3730922479-2">%{</span><span class="p" data-group-id="3730922479-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3730922479-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0563023</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="9263152745-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-3">#</span><span class="nc" data-group-id="9263152745-3">Nx.Tensor</span><span class="p" data-group-id="9263152745-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9263152745-4">[</span><span class="mi">8</span><span class="p" data-group-id="9263152745-4">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-5">[</span><span class="o">-</span><span class="mf">0.038592107594013214</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19925688207149506</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08018972724676132</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11267539858818054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35166260600090027</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0794963389635086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20298318564891815</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3049686849117279</span><span class="p" data-group-id="9263152745-5">]</span><span class="w">
-    </span><span class="p" data-group-id="9263152745-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-6">#</span><span class="nc" data-group-id="9263152745-6">Nx.Tensor</span><span class="p" data-group-id="9263152745-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9263152745-7">[</span><span class="mi">1</span><span class="p" data-group-id="9263152745-7">]</span><span class="p" data-group-id="9263152745-8">[</span><span class="mi">8</span><span class="p" data-group-id="9263152745-8">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-9">[</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-10">[</span><span class="o">-</span><span class="mf">0.06691190600395203</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.32860732078552246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22386932373046875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16137443482875824</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23626506328582764</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2438151240348816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2662005126476288</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32266947627067566</span><span class="p" data-group-id="9263152745-10">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-9">]</span><span class="w">
-    </span><span class="p" data-group-id="9263152745-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9263152745-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-12">#</span><span class="nc" data-group-id="9263152745-12">Nx.Tensor</span><span class="p" data-group-id="9263152745-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9263152745-13">[</span><span class="mi">4</span><span class="p" data-group-id="9263152745-13">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-14">[</span><span class="mf">0.03138260543346405</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2621246576309204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.021843062713742256</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07498764991760254</span><span class="p" data-group-id="9263152745-14">]</span><span class="w">
-    </span><span class="p" data-group-id="9263152745-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-15">#</span><span class="nc" data-group-id="9263152745-15">Nx.Tensor</span><span class="p" data-group-id="9263152745-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9263152745-16">[</span><span class="mi">8</span><span class="p" data-group-id="9263152745-16">]</span><span class="p" data-group-id="9263152745-17">[</span><span class="mi">4</span><span class="p" data-group-id="9263152745-17">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-18">[</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-19">[</span><span class="mf">0.541576087474823</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4923045039176941</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5933979749679565</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5083895921707153</span><span class="p" data-group-id="9263152745-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-20">[</span><span class="mf">0.5120893120765686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6925638318061829</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36635661125183105</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05748361349105835</span><span class="p" data-group-id="9263152745-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-21">[</span><span class="mf">0.26158788800239563</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1788359135389328</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14064575731754303</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08323567360639572</span><span class="p" data-group-id="9263152745-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-22">[</span><span class="mf">0.6685130596160889</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4880330264568329</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5104460120201111</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3399733006954193</span><span class="p" data-group-id="9263152745-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-23">[</span><span class="o">-</span><span class="mf">0.6356683969497681</span><span class="p">,</span><span class="w"> </span><span class="mf">0.770803689956665</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3876360058784485</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5178110599517822</span><span class="p" data-group-id="9263152745-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-24">[</span><span class="mf">0.4476216733455658</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21042484045028687</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4300518333911896</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2693784534931183</span><span class="p" data-group-id="9263152745-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-25">[</span><span class="mf">0.08789066225290298</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47043612599372864</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02871485985815525</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6908602714538574</span><span class="p" data-group-id="9263152745-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-26">[</span><span class="mf">0.45776790380477905</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6735268235206604</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40828803181648254</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19558420777320862</span><span class="p" data-group-id="9263152745-26">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-18">]</span><span class="w">
-    </span><span class="p" data-group-id="9263152745-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9263152745-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-28">#</span><span class="nc" data-group-id="9263152745-28">Nx.Tensor</span><span class="p" data-group-id="9263152745-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9263152745-29">[</span><span class="mi">1</span><span class="p" data-group-id="9263152745-29">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-30">[</span><span class="o">-</span><span class="mf">0.748963475227356</span><span class="p" data-group-id="9263152745-30">]</span><span class="w">
-    </span><span class="p" data-group-id="9263152745-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="9263152745-31">#</span><span class="nc" data-group-id="9263152745-31">Nx.Tensor</span><span class="p" data-group-id="9263152745-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="9263152745-32">[</span><span class="mi">4</span><span class="p" data-group-id="9263152745-32">]</span><span class="p" data-group-id="9263152745-33">[</span><span class="mi">1</span><span class="p" data-group-id="9263152745-33">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-34">[</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-35">[</span><span class="o">-</span><span class="mf">0.22219088673591614</span><span class="p" data-group-id="9263152745-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-36">[</span><span class="mf">1.1391150951385498</span><span class="p" data-group-id="9263152745-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-37">[</span><span class="o">-</span><span class="mf">0.13221295177936554</span><span class="p" data-group-id="9263152745-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="9263152745-38">[</span><span class="o">-</span><span class="mf">0.27904900908470154</span><span class="p" data-group-id="9263152745-38">]</span><span class="w">
-      </span><span class="p" data-group-id="9263152745-34">]</span><span class="w">
-    </span><span class="p" data-group-id="9263152745-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="9263152745-27">}</span><span class="w">
-</span><span class="p" data-group-id="9263152745-1">}</span></code></pre><p><a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> expects a loop to execute, some data to loop over, and any initial state you explicitly want your loop to start with. <a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> will then iterate over your data, executing a step function on each batch, and accumulating some generic loop state. In the case of a supervised training loop, this generic loop state actually represents training state including your model's trained parameters.</p><p><a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> also accepts options which control the loops execution. This includes <code class="inline">:iterations</code> which controls the number of iterations per epoch a loop should execute for, and <code class="inline">:epochs</code> which controls the number of epochs a loop should execute for:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="9768353276-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="9768353276-2">%{</span><span class="p" data-group-id="9768353276-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p" data-group-id="9768353276-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0935063</span><span class="w">
+</span><span class="p" data-group-id="2707890294-1">&gt;</span></code></pre><p>You'll notice that <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> returns an <code class="inline">%Axon.Loop{}</code> data structure. This data structure contains information which Axon uses to control the execution of the loop. In order to run the loop, you need to explicitly pass it to <a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a>:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="3019334686-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="3019334686-2">%{</span><span class="p" data-group-id="3019334686-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="3019334686-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">950</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0563023</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="4930927261-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-3">#</span><span class="nc" data-group-id="4930927261-3">Nx.Tensor</span><span class="p" data-group-id="4930927261-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4930927261-4">[</span><span class="mi">8</span><span class="p" data-group-id="4930927261-4">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-5">[</span><span class="o">-</span><span class="mf">0.038592107594013214</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19925688207149506</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08018972724676132</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.11267539858818054</span><span class="p">,</span><span class="w"> </span><span class="mf">0.35166260600090027</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0794963389635086</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20298318564891815</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3049686849117279</span><span class="p" data-group-id="4930927261-5">]</span><span class="w">
+    </span><span class="p" data-group-id="4930927261-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-6">#</span><span class="nc" data-group-id="4930927261-6">Nx.Tensor</span><span class="p" data-group-id="4930927261-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4930927261-7">[</span><span class="mi">1</span><span class="p" data-group-id="4930927261-7">]</span><span class="p" data-group-id="4930927261-8">[</span><span class="mi">8</span><span class="p" data-group-id="4930927261-8">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-9">[</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-10">[</span><span class="o">-</span><span class="mf">0.06691190600395203</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.32860732078552246</span><span class="p">,</span><span class="w"> </span><span class="mf">0.22386932373046875</span><span class="p">,</span><span class="w"> </span><span class="mf">0.16137443482875824</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23626506328582764</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2438151240348816</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2662005126476288</span><span class="p">,</span><span class="w"> </span><span class="mf">0.32266947627067566</span><span class="p" data-group-id="4930927261-10">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-9">]</span><span class="w">
+    </span><span class="p" data-group-id="4930927261-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4930927261-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-12">#</span><span class="nc" data-group-id="4930927261-12">Nx.Tensor</span><span class="p" data-group-id="4930927261-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4930927261-13">[</span><span class="mi">4</span><span class="p" data-group-id="4930927261-13">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-14">[</span><span class="mf">0.03138260543346405</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2621246576309204</span><span class="p">,</span><span class="w"> </span><span class="mf">0.021843062713742256</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07498764991760254</span><span class="p" data-group-id="4930927261-14">]</span><span class="w">
+    </span><span class="p" data-group-id="4930927261-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-15">#</span><span class="nc" data-group-id="4930927261-15">Nx.Tensor</span><span class="p" data-group-id="4930927261-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4930927261-16">[</span><span class="mi">8</span><span class="p" data-group-id="4930927261-16">]</span><span class="p" data-group-id="4930927261-17">[</span><span class="mi">4</span><span class="p" data-group-id="4930927261-17">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-18">[</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-19">[</span><span class="mf">0.541576087474823</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4923045039176941</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5933979749679565</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5083895921707153</span><span class="p" data-group-id="4930927261-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-20">[</span><span class="mf">0.5120893120765686</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6925638318061829</span><span class="p">,</span><span class="w"> </span><span class="mf">0.36635661125183105</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05748361349105835</span><span class="p" data-group-id="4930927261-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-21">[</span><span class="mf">0.26158788800239563</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.1788359135389328</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14064575731754303</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08323567360639572</span><span class="p" data-group-id="4930927261-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-22">[</span><span class="mf">0.6685130596160889</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4880330264568329</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5104460120201111</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3399733006954193</span><span class="p" data-group-id="4930927261-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-23">[</span><span class="o">-</span><span class="mf">0.6356683969497681</span><span class="p">,</span><span class="w"> </span><span class="mf">0.770803689956665</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3876360058784485</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5178110599517822</span><span class="p" data-group-id="4930927261-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-24">[</span><span class="mf">0.4476216733455658</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.21042484045028687</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4300518333911896</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2693784534931183</span><span class="p" data-group-id="4930927261-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-25">[</span><span class="mf">0.08789066225290298</span><span class="p">,</span><span class="w"> </span><span class="mf">0.47043612599372864</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02871485985815525</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6908602714538574</span><span class="p" data-group-id="4930927261-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-26">[</span><span class="mf">0.45776790380477905</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6735268235206604</span><span class="p">,</span><span class="w"> </span><span class="mf">0.40828803181648254</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19558420777320862</span><span class="p" data-group-id="4930927261-26">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-18">]</span><span class="w">
+    </span><span class="p" data-group-id="4930927261-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4930927261-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-28">#</span><span class="nc" data-group-id="4930927261-28">Nx.Tensor</span><span class="p" data-group-id="4930927261-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4930927261-29">[</span><span class="mi">1</span><span class="p" data-group-id="4930927261-29">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-30">[</span><span class="o">-</span><span class="mf">0.748963475227356</span><span class="p" data-group-id="4930927261-30">]</span><span class="w">
+    </span><span class="p" data-group-id="4930927261-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="4930927261-31">#</span><span class="nc" data-group-id="4930927261-31">Nx.Tensor</span><span class="p" data-group-id="4930927261-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="4930927261-32">[</span><span class="mi">4</span><span class="p" data-group-id="4930927261-32">]</span><span class="p" data-group-id="4930927261-33">[</span><span class="mi">1</span><span class="p" data-group-id="4930927261-33">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-34">[</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-35">[</span><span class="o">-</span><span class="mf">0.22219088673591614</span><span class="p" data-group-id="4930927261-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-36">[</span><span class="mf">1.1391150951385498</span><span class="p" data-group-id="4930927261-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-37">[</span><span class="o">-</span><span class="mf">0.13221295177936554</span><span class="p" data-group-id="4930927261-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="4930927261-38">[</span><span class="o">-</span><span class="mf">0.27904900908470154</span><span class="p" data-group-id="4930927261-38">]</span><span class="w">
+      </span><span class="p" data-group-id="4930927261-34">]</span><span class="w">
+    </span><span class="p" data-group-id="4930927261-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="4930927261-27">}</span><span class="w">
+</span><span class="p" data-group-id="4930927261-1">}</span></code></pre><p><a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> expects a loop to execute, some data to loop over, and any initial state you explicitly want your loop to start with. <a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> will then iterate over your data, executing a step function on each batch, and accumulating some generic loop state. In the case of a supervised training loop, this generic loop state actually represents training state including your model's trained parameters.</p><p><a href="Axon.Loop.html#run/4"><code class="inline">Axon.Loop.run/4</code></a> also accepts options which control the loops execution. This includes <code class="inline">:iterations</code> which controls the number of iterations per epoch a loop should execute for, and <code class="inline">:epochs</code> which controls the number of epochs a loop should execute for:</p><pre><code class="makeup elixir" translate="no"><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8931049159-1">(</span><span class="n">loop</span><span class="p">,</span><span class="w"> </span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8931049159-2">%{</span><span class="p" data-group-id="8931049159-2">}</span><span class="p">,</span><span class="w"> </span><span class="ss">epochs</span><span class="p">:</span><span class="w"> </span><span class="mi">3</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">500</span><span class="p" data-group-id="8931049159-1">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0935063</span><span class="w">
 </span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">1</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0576384</span><span class="w">
-</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0428323</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8942130202-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-3">#</span><span class="nc" data-group-id="8942130202-3">Nx.Tensor</span><span class="p" data-group-id="8942130202-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8942130202-4">[</span><span class="mi">8</span><span class="p" data-group-id="8942130202-4">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-5">[</span><span class="o">-</span><span class="mf">0.035534460097551346</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2604885697364807</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10573504120111465</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16461455821990967</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3610309064388275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10921606421470642</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2061888873577118</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3162775933742523</span><span class="p" data-group-id="8942130202-5">]</span><span class="w">
-    </span><span class="p" data-group-id="8942130202-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-6">#</span><span class="nc" data-group-id="8942130202-6">Nx.Tensor</span><span class="p" data-group-id="8942130202-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8942130202-7">[</span><span class="mi">1</span><span class="p" data-group-id="8942130202-7">]</span><span class="p" data-group-id="8942130202-8">[</span><span class="mi">8</span><span class="p" data-group-id="8942130202-8">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-9">[</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-10">[</span><span class="o">-</span><span class="mf">0.05344606190919876</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3463115096092224</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23782028257846832</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20592278242111206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2195105254650116</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2618684470653534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2559347450733185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3006669282913208</span><span class="p" data-group-id="8942130202-10">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-9">]</span><span class="w">
-    </span><span class="p" data-group-id="8942130202-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8942130202-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-12">#</span><span class="nc" data-group-id="8942130202-12">Nx.Tensor</span><span class="p" data-group-id="8942130202-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8942130202-13">[</span><span class="mi">4</span><span class="p" data-group-id="8942130202-13">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-14">[</span><span class="mf">0.03086121939122677</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28601887822151184</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02634759061038494</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08197703212499619</span><span class="p" data-group-id="8942130202-14">]</span><span class="w">
-    </span><span class="p" data-group-id="8942130202-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-15">#</span><span class="nc" data-group-id="8942130202-15">Nx.Tensor</span><span class="p" data-group-id="8942130202-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8942130202-16">[</span><span class="mi">8</span><span class="p" data-group-id="8942130202-16">]</span><span class="p" data-group-id="8942130202-17">[</span><span class="mi">4</span><span class="p" data-group-id="8942130202-17">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-18">[</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-19">[</span><span class="mf">0.5404174327850342</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49248307943344116</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5927202701568604</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5083895921707153</span><span class="p" data-group-id="8942130202-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-20">[</span><span class="mf">0.5133915543556213</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7197086811065674</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3669036030769348</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.057483553886413574</span><span class="p" data-group-id="8942130202-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-21">[</span><span class="mf">0.26609811186790466</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20234307646751404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14102067053318024</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08141336590051651</span><span class="p" data-group-id="8942130202-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-22">[</span><span class="mf">0.673393964767456</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.512398362159729</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5106634497642517</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3384905159473419</span><span class="p" data-group-id="8942130202-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-23">[</span><span class="o">-</span><span class="mf">0.6347945928573608</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7695014476776123</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3877493143081665</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5186421275138855</span><span class="p" data-group-id="8942130202-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-24">[</span><span class="mf">0.45236992835998535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2351287305355072</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4305106997489929</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2674770951271057</span><span class="p" data-group-id="8942130202-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-25">[</span><span class="mf">0.08871842920780182</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46521952748298645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02729635499417782</span><span class="p">,</span><span class="w"> </span><span class="mf">0.691332221031189</span><span class="p" data-group-id="8942130202-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-26">[</span><span class="mf">0.4584391117095947</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6687410473823547</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4068295657634735</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19576647877693176</span><span class="p" data-group-id="8942130202-26">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-18">]</span><span class="w">
-    </span><span class="p" data-group-id="8942130202-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8942130202-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-28">#</span><span class="nc" data-group-id="8942130202-28">Nx.Tensor</span><span class="p" data-group-id="8942130202-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8942130202-29">[</span><span class="mi">1</span><span class="p" data-group-id="8942130202-29">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-30">[</span><span class="o">-</span><span class="mf">0.7425869703292847</span><span class="p" data-group-id="8942130202-30">]</span><span class="w">
-    </span><span class="p" data-group-id="8942130202-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8942130202-31">#</span><span class="nc" data-group-id="8942130202-31">Nx.Tensor</span><span class="p" data-group-id="8942130202-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="8942130202-32">[</span><span class="mi">4</span><span class="p" data-group-id="8942130202-32">]</span><span class="p" data-group-id="8942130202-33">[</span><span class="mi">1</span><span class="p" data-group-id="8942130202-33">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-34">[</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-35">[</span><span class="o">-</span><span class="mf">0.24965399503707886</span><span class="p" data-group-id="8942130202-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-36">[</span><span class="mf">1.1746525764465332</span><span class="p" data-group-id="8942130202-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-37">[</span><span class="o">-</span><span class="mf">0.12984804809093475</span><span class="p" data-group-id="8942130202-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="8942130202-38">[</span><span class="o">-</span><span class="mf">0.2796761095523834</span><span class="p" data-group-id="8942130202-38">]</span><span class="w">
-      </span><span class="p" data-group-id="8942130202-34">]</span><span class="w">
-    </span><span class="p" data-group-id="8942130202-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="8942130202-27">}</span><span class="w">
-</span><span class="p" data-group-id="8942130202-1">}</span></code></pre><p>You may have noticed that by default <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> configures your loop to log information about training progress every 50 iterations. You can control this when constructing your supervised training loop with the <code class="inline">:log</code> option:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="5018749506-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="5018749506-1">)</span><span class="w">
-</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="5018749506-2">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="5018749506-3">%{</span><span class="p" data-group-id="5018749506-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="5018749506-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">900</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1492715</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="6108669868-1">%{</span><span class="w">
-  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-2">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-3">#</span><span class="nc" data-group-id="6108669868-3">Nx.Tensor</span><span class="p" data-group-id="6108669868-3">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6108669868-4">[</span><span class="mi">8</span><span class="p" data-group-id="6108669868-4">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-5">[</span><span class="mf">0.09267199039459229</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5775123834609985</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07691138982772827</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04283804073929787</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.015639742836356163</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0725373700261116</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10598818212747574</span><span class="p">,</span><span class="w"> </span><span class="mf">0.021243896335363388</span><span class="p" data-group-id="6108669868-5">]</span><span class="w">
-    </span><span class="p" data-group-id="6108669868-3">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-6">#</span><span class="nc" data-group-id="6108669868-6">Nx.Tensor</span><span class="p" data-group-id="6108669868-6">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6108669868-7">[</span><span class="mi">1</span><span class="p" data-group-id="6108669868-7">]</span><span class="p" data-group-id="6108669868-8">[</span><span class="mi">8</span><span class="p" data-group-id="6108669868-8">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-9">[</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-10">[</span><span class="mf">0.07886508852243423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.826379120349884</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1022031158208847</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5164816975593567</span><span class="p">,</span><span class="w"> </span><span class="mf">0.390212744474411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2709604799747467</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05409134551882744</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6204537749290466</span><span class="p" data-group-id="6108669868-10">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-9">]</span><span class="w">
-    </span><span class="p" data-group-id="6108669868-6">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6108669868-2">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-11">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-12">#</span><span class="nc" data-group-id="6108669868-12">Nx.Tensor</span><span class="p" data-group-id="6108669868-12">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6108669868-13">[</span><span class="mi">4</span><span class="p" data-group-id="6108669868-13">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-14">[</span><span class="o">-</span><span class="mf">0.09577611088752747</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3303026556968689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25102874636650085</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3312375247478485</span><span class="p" data-group-id="6108669868-14">]</span><span class="w">
-    </span><span class="p" data-group-id="6108669868-12">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-15">#</span><span class="nc" data-group-id="6108669868-15">Nx.Tensor</span><span class="p" data-group-id="6108669868-15">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6108669868-16">[</span><span class="mi">8</span><span class="p" data-group-id="6108669868-16">]</span><span class="p" data-group-id="6108669868-17">[</span><span class="mi">4</span><span class="p" data-group-id="6108669868-17">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-18">[</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-19">[</span><span class="mf">0.5508446097373962</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03904113546013832</span><span class="p">,</span><span class="w"> </span><span class="mf">0.382876992225647</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6273598670959473</span><span class="p" data-group-id="6108669868-19">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-20">[</span><span class="mf">0.13289013504981995</span><span class="p">,</span><span class="w"> </span><span class="mf">0.947068452835083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27359727025032043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4073275923728943</span><span class="p" data-group-id="6108669868-20">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-21">[</span><span class="o">-</span><span class="mf">0.10011858493089676</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.32976964116096497</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3160743713378906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3586210012435913</span><span class="p" data-group-id="6108669868-21">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-22">[</span><span class="o">-</span><span class="mf">0.628970205783844</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19567319750785828</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07241304218769073</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43270331621170044</span><span class="p" data-group-id="6108669868-22">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-23">[</span><span class="o">-</span><span class="mf">0.6155693531036377</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.020595157518982887</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3254905045032501</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18614870309829712</span><span class="p" data-group-id="6108669868-23">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-24">[</span><span class="o">-</span><span class="mf">0.07561944425106049</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34477049112319946</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30149057507514954</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6603768467903137</span><span class="p" data-group-id="6108669868-24">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-25">[</span><span class="o">-</span><span class="mf">0.17559891939163208</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2768605649471283</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5830116868019104</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11386138200759888</span><span class="p" data-group-id="6108669868-25">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-26">[</span><span class="o">-</span><span class="mf">0.6376093626022339</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31125709414482117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2749727964401245</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6777774691581726</span><span class="p" data-group-id="6108669868-26">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-18">]</span><span class="w">
-    </span><span class="p" data-group-id="6108669868-15">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6108669868-11">}</span><span class="p">,</span><span class="w">
-  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-27">%{</span><span class="w">
-    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-28">#</span><span class="nc" data-group-id="6108669868-28">Nx.Tensor</span><span class="p" data-group-id="6108669868-28">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6108669868-29">[</span><span class="mi">1</span><span class="p" data-group-id="6108669868-29">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-30">[</span><span class="o">-</span><span class="mf">0.767456591129303</span><span class="p" data-group-id="6108669868-30">]</span><span class="w">
-    </span><span class="p" data-group-id="6108669868-28">&gt;</span><span class="p">,</span><span class="w">
-    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="6108669868-31">#</span><span class="nc" data-group-id="6108669868-31">Nx.Tensor</span><span class="p" data-group-id="6108669868-31">&lt;</span><span class="w">
-      </span><span class="n">f32</span><span class="p" data-group-id="6108669868-32">[</span><span class="mi">4</span><span class="p" data-group-id="6108669868-32">]</span><span class="p" data-group-id="6108669868-33">[</span><span class="mi">1</span><span class="p" data-group-id="6108669868-33">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-34">[</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-35">[</span><span class="o">-</span><span class="mf">0.3530634641647339</span><span class="p" data-group-id="6108669868-35">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-36">[</span><span class="mf">0.9497018456459045</span><span class="p" data-group-id="6108669868-36">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-37">[</span><span class="mf">0.31334763765335083</span><span class="p" data-group-id="6108669868-37">]</span><span class="p">,</span><span class="w">
-        </span><span class="p" data-group-id="6108669868-38">[</span><span class="o">-</span><span class="mf">0.624195396900177</span><span class="p" data-group-id="6108669868-38">]</span><span class="w">
-      </span><span class="p" data-group-id="6108669868-34">]</span><span class="w">
-    </span><span class="p" data-group-id="6108669868-31">&gt;</span><span class="w">
-  </span><span class="p" data-group-id="6108669868-27">}</span><span class="w">
-</span><span class="p" data-group-id="6108669868-1">}</span></code></pre>
+</span><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">2</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">450</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.0428323</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="8365640209-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-3">#</span><span class="nc" data-group-id="8365640209-3">Nx.Tensor</span><span class="p" data-group-id="8365640209-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8365640209-4">[</span><span class="mi">8</span><span class="p" data-group-id="8365640209-4">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-5">[</span><span class="o">-</span><span class="mf">0.035534460097551346</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2604885697364807</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10573504120111465</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.16461455821990967</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3610309064388275</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10921606421470642</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2061888873577118</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3162775933742523</span><span class="p" data-group-id="8365640209-5">]</span><span class="w">
+    </span><span class="p" data-group-id="8365640209-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-6">#</span><span class="nc" data-group-id="8365640209-6">Nx.Tensor</span><span class="p" data-group-id="8365640209-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8365640209-7">[</span><span class="mi">1</span><span class="p" data-group-id="8365640209-7">]</span><span class="p" data-group-id="8365640209-8">[</span><span class="mi">8</span><span class="p" data-group-id="8365640209-8">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-9">[</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-10">[</span><span class="o">-</span><span class="mf">0.05344606190919876</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3463115096092224</span><span class="p">,</span><span class="w"> </span><span class="mf">0.23782028257846832</span><span class="p">,</span><span class="w"> </span><span class="mf">0.20592278242111206</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2195105254650116</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2618684470653534</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2559347450733185</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3006669282913208</span><span class="p" data-group-id="8365640209-10">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-9">]</span><span class="w">
+    </span><span class="p" data-group-id="8365640209-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8365640209-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-12">#</span><span class="nc" data-group-id="8365640209-12">Nx.Tensor</span><span class="p" data-group-id="8365640209-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8365640209-13">[</span><span class="mi">4</span><span class="p" data-group-id="8365640209-13">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-14">[</span><span class="mf">0.03086121939122677</span><span class="p">,</span><span class="w"> </span><span class="mf">0.28601887822151184</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02634759061038494</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08197703212499619</span><span class="p" data-group-id="8365640209-14">]</span><span class="w">
+    </span><span class="p" data-group-id="8365640209-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-15">#</span><span class="nc" data-group-id="8365640209-15">Nx.Tensor</span><span class="p" data-group-id="8365640209-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8365640209-16">[</span><span class="mi">8</span><span class="p" data-group-id="8365640209-16">]</span><span class="p" data-group-id="8365640209-17">[</span><span class="mi">4</span><span class="p" data-group-id="8365640209-17">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-18">[</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-19">[</span><span class="mf">0.5404174327850342</span><span class="p">,</span><span class="w"> </span><span class="mf">0.49248307943344116</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5927202701568604</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5083895921707153</span><span class="p" data-group-id="8365640209-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-20">[</span><span class="mf">0.5133915543556213</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.7197086811065674</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3669036030769348</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.057483553886413574</span><span class="p" data-group-id="8365640209-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-21">[</span><span class="mf">0.26609811186790466</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.20234307646751404</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.14102067053318024</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.08141336590051651</span><span class="p" data-group-id="8365640209-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-22">[</span><span class="mf">0.673393964767456</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.512398362159729</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5106634497642517</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3384905159473419</span><span class="p" data-group-id="8365640209-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-23">[</span><span class="o">-</span><span class="mf">0.6347945928573608</span><span class="p">,</span><span class="w"> </span><span class="mf">0.7695014476776123</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3877493143081665</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5186421275138855</span><span class="p" data-group-id="8365640209-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-24">[</span><span class="mf">0.45236992835998535</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2351287305355072</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.4305106997489929</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2674770951271057</span><span class="p" data-group-id="8365640209-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-25">[</span><span class="mf">0.08871842920780182</span><span class="p">,</span><span class="w"> </span><span class="mf">0.46521952748298645</span><span class="p">,</span><span class="w"> </span><span class="mf">0.02729635499417782</span><span class="p">,</span><span class="w"> </span><span class="mf">0.691332221031189</span><span class="p" data-group-id="8365640209-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-26">[</span><span class="mf">0.4584391117095947</span><span class="p">,</span><span class="w"> </span><span class="mf">0.6687410473823547</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4068295657634735</span><span class="p">,</span><span class="w"> </span><span class="mf">0.19576647877693176</span><span class="p" data-group-id="8365640209-26">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-18">]</span><span class="w">
+    </span><span class="p" data-group-id="8365640209-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8365640209-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-28">#</span><span class="nc" data-group-id="8365640209-28">Nx.Tensor</span><span class="p" data-group-id="8365640209-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8365640209-29">[</span><span class="mi">1</span><span class="p" data-group-id="8365640209-29">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-30">[</span><span class="o">-</span><span class="mf">0.7425869703292847</span><span class="p" data-group-id="8365640209-30">]</span><span class="w">
+    </span><span class="p" data-group-id="8365640209-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="8365640209-31">#</span><span class="nc" data-group-id="8365640209-31">Nx.Tensor</span><span class="p" data-group-id="8365640209-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="8365640209-32">[</span><span class="mi">4</span><span class="p" data-group-id="8365640209-32">]</span><span class="p" data-group-id="8365640209-33">[</span><span class="mi">1</span><span class="p" data-group-id="8365640209-33">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-34">[</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-35">[</span><span class="o">-</span><span class="mf">0.24965399503707886</span><span class="p" data-group-id="8365640209-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-36">[</span><span class="mf">1.1746525764465332</span><span class="p" data-group-id="8365640209-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-37">[</span><span class="o">-</span><span class="mf">0.12984804809093475</span><span class="p" data-group-id="8365640209-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="8365640209-38">[</span><span class="o">-</span><span class="mf">0.2796761095523834</span><span class="p" data-group-id="8365640209-38">]</span><span class="w">
+      </span><span class="p" data-group-id="8365640209-34">]</span><span class="w">
+    </span><span class="p" data-group-id="8365640209-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="8365640209-27">}</span><span class="w">
+</span><span class="p" data-group-id="8365640209-1">}</span></code></pre><p>You may have noticed that by default <a href="Axon.Loop.html#trainer/3"><code class="inline">Axon.Loop.trainer/3</code></a> configures your loop to log information about training progress every 50 iterations. You can control this when constructing your supervised training loop with the <code class="inline">:log</code> option:</p><pre><code class="makeup elixir" translate="no"><span class="n">model</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">trainer</span><span class="p" data-group-id="8463396152-1">(</span><span class="ss">:mean_squared_error</span><span class="p">,</span><span class="w"> </span><span class="ss">:sgd</span><span class="p">,</span><span class="w"> </span><span class="ss">log</span><span class="p">:</span><span class="w"> </span><span class="mi">100</span><span class="p" data-group-id="8463396152-1">)</span><span class="w">
+</span><span class="o">|&gt;</span><span class="w"> </span><span class="nc">Axon.Loop</span><span class="o">.</span><span class="n">run</span><span class="p" data-group-id="8463396152-2">(</span><span class="n">train_data</span><span class="p">,</span><span class="w"> </span><span class="p" data-group-id="8463396152-3">%{</span><span class="p" data-group-id="8463396152-3">}</span><span class="p">,</span><span class="w"> </span><span class="ss">iterations</span><span class="p">:</span><span class="w"> </span><span class="mi">1000</span><span class="p" data-group-id="8463396152-2">)</span></code></pre><pre><code class="makeup output" translate="no"><span class="ss">Epoch</span><span class="p">:</span><span class="w"> </span><span class="mi">0</span><span class="p">,</span><span class="w"> </span><span class="ss">Batch</span><span class="p">:</span><span class="w"> </span><span class="mi">900</span><span class="p">,</span><span class="w"> </span><span class="ss">loss</span><span class="p">:</span><span class="w"> </span><span class="mf">0.1492715</span></code></pre><pre><code class="makeup output" translate="no"><span class="p" data-group-id="2900054889-1">%{</span><span class="w">
+  </span><span class="s">&quot;dense_0&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-2">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-3">#</span><span class="nc" data-group-id="2900054889-3">Nx.Tensor</span><span class="p" data-group-id="2900054889-3">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2900054889-4">[</span><span class="mi">8</span><span class="p" data-group-id="2900054889-4">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-5">[</span><span class="mf">0.09267199039459229</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5775123834609985</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07691138982772827</span><span class="p">,</span><span class="w"> </span><span class="mf">0.04283804073929787</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.015639742836356163</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.0725373700261116</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.10598818212747574</span><span class="p">,</span><span class="w"> </span><span class="mf">0.021243896335363388</span><span class="p" data-group-id="2900054889-5">]</span><span class="w">
+    </span><span class="p" data-group-id="2900054889-3">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-6">#</span><span class="nc" data-group-id="2900054889-6">Nx.Tensor</span><span class="p" data-group-id="2900054889-6">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2900054889-7">[</span><span class="mi">1</span><span class="p" data-group-id="2900054889-7">]</span><span class="p" data-group-id="2900054889-8">[</span><span class="mi">8</span><span class="p" data-group-id="2900054889-8">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-9">[</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-10">[</span><span class="mf">0.07886508852243423</span><span class="p">,</span><span class="w"> </span><span class="mf">0.826379120349884</span><span class="p">,</span><span class="w"> </span><span class="mf">0.1022031158208847</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.5164816975593567</span><span class="p">,</span><span class="w"> </span><span class="mf">0.390212744474411</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2709604799747467</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.05409134551882744</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6204537749290466</span><span class="p" data-group-id="2900054889-10">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-9">]</span><span class="w">
+    </span><span class="p" data-group-id="2900054889-6">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="2900054889-2">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_1&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-11">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-12">#</span><span class="nc" data-group-id="2900054889-12">Nx.Tensor</span><span class="p" data-group-id="2900054889-12">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2900054889-13">[</span><span class="mi">4</span><span class="p" data-group-id="2900054889-13">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-14">[</span><span class="o">-</span><span class="mf">0.09577611088752747</span><span class="p">,</span><span class="w"> </span><span class="mf">0.3303026556968689</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.25102874636650085</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3312375247478485</span><span class="p" data-group-id="2900054889-14">]</span><span class="w">
+    </span><span class="p" data-group-id="2900054889-12">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-15">#</span><span class="nc" data-group-id="2900054889-15">Nx.Tensor</span><span class="p" data-group-id="2900054889-15">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2900054889-16">[</span><span class="mi">8</span><span class="p" data-group-id="2900054889-16">]</span><span class="p" data-group-id="2900054889-17">[</span><span class="mi">4</span><span class="p" data-group-id="2900054889-17">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-18">[</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-19">[</span><span class="mf">0.5508446097373962</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.03904113546013832</span><span class="p">,</span><span class="w"> </span><span class="mf">0.382876992225647</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6273598670959473</span><span class="p" data-group-id="2900054889-19">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-20">[</span><span class="mf">0.13289013504981995</span><span class="p">,</span><span class="w"> </span><span class="mf">0.947068452835083</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.27359727025032043</span><span class="p">,</span><span class="w"> </span><span class="mf">0.4073275923728943</span><span class="p" data-group-id="2900054889-20">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-21">[</span><span class="o">-</span><span class="mf">0.10011858493089676</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.32976964116096497</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3160743713378906</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3586210012435913</span><span class="p" data-group-id="2900054889-21">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-22">[</span><span class="o">-</span><span class="mf">0.628970205783844</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.19567319750785828</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.07241304218769073</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.43270331621170044</span><span class="p" data-group-id="2900054889-22">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-23">[</span><span class="o">-</span><span class="mf">0.6155693531036377</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.020595157518982887</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.3254905045032501</span><span class="p">,</span><span class="w"> </span><span class="mf">0.18614870309829712</span><span class="p" data-group-id="2900054889-23">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-24">[</span><span class="o">-</span><span class="mf">0.07561944425106049</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.34477049112319946</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.30149057507514954</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6603768467903137</span><span class="p" data-group-id="2900054889-24">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-25">[</span><span class="o">-</span><span class="mf">0.17559891939163208</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.2768605649471283</span><span class="p">,</span><span class="w"> </span><span class="mf">0.5830116868019104</span><span class="p">,</span><span class="w"> </span><span class="mf">0.11386138200759888</span><span class="p" data-group-id="2900054889-25">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-26">[</span><span class="o">-</span><span class="mf">0.6376093626022339</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.31125709414482117</span><span class="p">,</span><span class="w"> </span><span class="mf">0.2749727964401245</span><span class="p">,</span><span class="w"> </span><span class="o">-</span><span class="mf">0.6777774691581726</span><span class="p" data-group-id="2900054889-26">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-18">]</span><span class="w">
+    </span><span class="p" data-group-id="2900054889-15">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="2900054889-11">}</span><span class="p">,</span><span class="w">
+  </span><span class="s">&quot;dense_2&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-27">%{</span><span class="w">
+    </span><span class="s">&quot;bias&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-28">#</span><span class="nc" data-group-id="2900054889-28">Nx.Tensor</span><span class="p" data-group-id="2900054889-28">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2900054889-29">[</span><span class="mi">1</span><span class="p" data-group-id="2900054889-29">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-30">[</span><span class="o">-</span><span class="mf">0.767456591129303</span><span class="p" data-group-id="2900054889-30">]</span><span class="w">
+    </span><span class="p" data-group-id="2900054889-28">&gt;</span><span class="p">,</span><span class="w">
+    </span><span class="s">&quot;kernel&quot;</span><span class="w"> </span><span class="p">=&gt;</span><span class="w"> </span><span class="p" data-group-id="2900054889-31">#</span><span class="nc" data-group-id="2900054889-31">Nx.Tensor</span><span class="p" data-group-id="2900054889-31">&lt;</span><span class="w">
+      </span><span class="n">f32</span><span class="p" data-group-id="2900054889-32">[</span><span class="mi">4</span><span class="p" data-group-id="2900054889-32">]</span><span class="p" data-group-id="2900054889-33">[</span><span class="mi">1</span><span class="p" data-group-id="2900054889-33">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-34">[</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-35">[</span><span class="o">-</span><span class="mf">0.3530634641647339</span><span class="p" data-group-id="2900054889-35">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-36">[</span><span class="mf">0.9497018456459045</span><span class="p" data-group-id="2900054889-36">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-37">[</span><span class="mf">0.31334763765335083</span><span class="p" data-group-id="2900054889-37">]</span><span class="p">,</span><span class="w">
+        </span><span class="p" data-group-id="2900054889-38">[</span><span class="o">-</span><span class="mf">0.624195396900177</span><span class="p" data-group-id="2900054889-38">]</span><span class="w">
+      </span><span class="p" data-group-id="2900054889-34">]</span><span class="w">
+    </span><span class="p" data-group-id="2900054889-31">&gt;</span><span class="w">
+  </span><span class="p" data-group-id="2900054889-27">}</span><span class="w">
+</span><span class="p" data-group-id="2900054889-1">}</span></code></pre>
 <div class="bottom-actions">
   <div class="bottom-actions-item">