From 02f394f039024a16eec6ce548e2cb9961b65c18b Mon Sep 17 00:00:00 2001
From: Optimox <sebastien.fischman@gmail.com>
Date: Sun, 23 Jul 2023 15:11:42 +0200
Subject: [PATCH] chore: release v4.1.0

---
 CHANGELOG.md                                  |  38 +-
 docs/_modules/index.html                      |   1 +
 .../pytorch_tabnet/abstract_model.html        | 109 ++-
 .../pytorch_tabnet/augmentations.html         |   5 +-
 docs/_modules/pytorch_tabnet/callbacks.html   |  19 +-
 docs/_modules/pytorch_tabnet/metrics.html     |  59 +-
 .../pytorch_tabnet/multiclass_utils.html      |  19 +-
 docs/_modules/pytorch_tabnet/multitask.html   |  49 +-
 docs/_modules/pytorch_tabnet/pretraining.html |  50 +-
 .../pytorch_tabnet/pretraining_utils.html     |  73 +-
 docs/_modules/pytorch_tabnet/sparsemax.html   |  11 +-
 docs/_modules/pytorch_tabnet/tab_model.html   |  27 +-
 docs/_modules/pytorch_tabnet/tab_network.html | 196 +++---
 docs/_modules/pytorch_tabnet/utils.html       | 250 ++++++-
 docs/_modules/torch/optim/adam.html           | 626 ++++++++++++++++--
 docs/_sources/generated_docs/README.md.txt    |  18 +-
 docs/generated_docs/README.html               |  23 +-
 docs/generated_docs/pytorch_tabnet.html       | 291 ++++++--
 docs/genindex.html                            |  65 +-
 docs/index.html                               |   2 +
 docs/py-modindex.html                         |   1 +
 docs/search.html                              |   1 +
 docs/searchindex.js                           |   2 +-
 pyproject.toml                                |   2 +-
 24 files changed, 1550 insertions(+), 387 deletions(-)

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 4bce2dba..977b206a 100755
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -1,4 +1,40 @@
 
+# [4.1.0](https://github.com/dreamquark-ai/tabnet/compare/v3.1.1...v4.1.0) (2023-07-23)
+
+
+### Bug Fixes
+
+* 424 allow any np.intX as training target ([63a8dba](https://github.com/dreamquark-ai/tabnet/commit/63a8dba99e4853b9be5d3e6c14909a30685c7532))
+* compute unsupervised loss using numpy ([49bd61b](https://github.com/dreamquark-ai/tabnet/commit/49bd61be4e8faa98ef3b46b4f0115379407e8475))
+* custom loss using inplace operations ([423f7c4](https://github.com/dreamquark-ai/tabnet/commit/423f7c43647f8be53f28c9c6061031b7a2644d20))
+* disable ansi ([60ec6bf](https://github.com/dreamquark-ai/tabnet/commit/60ec6bf7b27795da44e608d6848573bd0fd4ecd5))
+* feature importance not dependent from dataloader ([5b19091](https://github.com/dreamquark-ai/tabnet/commit/5b190916515793114ffa1a9ac4f3869222a14c11))
+* README patience to 10 ([fd2c73a](https://github.com/dreamquark-ai/tabnet/commit/fd2c73a4300a745f540a2a789716ec4cabe90a7c))
+* replace std 0 by the mean or 1 if mean is 0 ([ddf02da](https://github.com/dreamquark-ai/tabnet/commit/ddf02dab9bdc41c6d7736f0be509950e907909a4))
+* try to disable parallel install ([c4963ad](https://github.com/dreamquark-ai/tabnet/commit/c4963ad61e479997c912db816736d073106bcc20))
+* typo in pandas error ([5ac5583](https://github.com/dreamquark-ai/tabnet/commit/5ac55834b32693abc4b22028a74475ee0440c2a5))
+* update gpg key in docker file gpu ([709fcb1](https://github.com/dreamquark-ai/tabnet/commit/709fcb1ab31f8ac232594877a0d2b3922a02360b))
+* upgrade the ressource size ([fc59ea6](https://github.com/dreamquark-ai/tabnet/commit/fc59ea61139228440d2063ead9db42f656d84ff7))
+* use numpy std with bessel correction and test ([3adaf4c](https://github.com/dreamquark-ai/tabnet/commit/3adaf4c0858f5d9af8f0f2a2fdaa92360d12cb87))
+
+
+### Features
+
+* add augmentations inside the fit method ([6d0485f](https://github.com/dreamquark-ai/tabnet/commit/6d0485f58bd1028cffd195d9e27eb97915b9cb2c))
+* add warm_start matching scikit-learn ([d725101](https://github.com/dreamquark-ai/tabnet/commit/d725101a559c6be49a6f8e20c3e68b18b8eb7b01))
+* added conda install option ([ca14b76](https://github.com/dreamquark-ai/tabnet/commit/ca14b76fc771459745c49723733ff88ef1126d30)), closes [#346](https://github.com/dreamquark-ai/tabnet/issues/346)
+* disable tests in docker file gpu to save CI time ([233f74e](https://github.com/dreamquark-ai/tabnet/commit/233f74e41648dad62899ceba7481d58ecfbd87b7))
+* enable feature grouping for attention mechanism ([bcae5f4](https://github.com/dreamquark-ai/tabnet/commit/bcae5f43b89fb2c53a0fe8be7c218a7b91afac96))
+* enable torch 2.0 by relaxing poetry ([bbd7a4e](https://github.com/dreamquark-ai/tabnet/commit/bbd7a4e96d5503ad23048ce39997462ed1a2eca0))
+* pretraining matches paper ([5adb804](https://github.com/dreamquark-ai/tabnet/commit/5adb80482c8242dde7b7942529db94fa9ccbfe48))
+* raise error in case cat_dims and cat_idxs are incoherent ([8c3b795](https://github.com/dreamquark-ai/tabnet/commit/8c3b7951642f62e7449bb95875b5265d4b89148e))
+* update python ([dea62b4](https://github.com/dreamquark-ai/tabnet/commit/dea62b410e3f4cc729f1c1933018d7d8db24d016))
+
+
+
+## [3.1.1](https://github.com/dreamquark-ai/tabnet/compare/v3.1.0...v3.1.1) (2021-02-02)
+
+
 ### Bug Fixes
 
 * add preds_mapper to pretraining ([76f2c85](https://github.com/dreamquark-ai/tabnet/commit/76f2c852f59c6ed2c5dc5f0766cb99310bae5f2c))
@@ -166,11 +202,11 @@
 
 ### Bug Fixes
 
-* **regression:** fix scheduler ([01e46b7](https://github.com/dreamquark-ai/tabnet/commit/01e46b7b53aa5cb880cca5d1492ef67788c0075e))
 * fixing Dockerfile for poetry 1.0 ([6c5cdec](https://github.com/dreamquark-ai/tabnet/commit/6c5cdeca8f3c5a58e2f557f2d8bb5127d3d7f691))
 * importance indexing fixed ([a8382c3](https://github.com/dreamquark-ai/tabnet/commit/a8382c31099d59e03c432479b2798abc90f55a58))
 * local explain all batches ([91461fb](https://github.com/dreamquark-ai/tabnet/commit/91461fbcd4b8c806e920936e0154258b2dc02373))
 * regression gpu integration an typos ([269b4c5](https://github.com/dreamquark-ai/tabnet/commit/269b4c59fcb12d1c24fea7b9e15c7b63aa9939e0))
+* **regression:** fix scheduler ([01e46b7](https://github.com/dreamquark-ai/tabnet/commit/01e46b7b53aa5cb880cca5d1492ef67788c0075e))
 * resolve timer issue and warnings ([ecd2cd9](https://github.com/dreamquark-ai/tabnet/commit/ecd2cd9c39c1f977868888d6b3abd719a7ee21f4))
 
 
diff --git a/docs/_modules/index.html b/docs/_modules/index.html
index 611a62cf..b9fe26cf 100644
--- a/docs/_modules/index.html
+++ b/docs/_modules/index.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
diff --git a/docs/_modules/pytorch_tabnet/abstract_model.html b/docs/_modules/pytorch_tabnet/abstract_model.html
index a50f2d69..9b66381b 100644
--- a/docs/_modules/pytorch_tabnet/abstract_model.html
+++ b/docs/_modules/pytorch_tabnet/abstract_model.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -168,6 +169,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
 <span class="kn">from</span> <span class="nn">abc</span> <span class="kn">import</span> <span class="n">abstractmethod</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet</span> <span class="kn">import</span> <span class="n">tab_network</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.utils</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">SparsePredictDataset</span><span class="p">,</span>
     <span class="n">PredictDataset</span><span class="p">,</span>
     <span class="n">create_explain_matrix</span><span class="p">,</span>
     <span class="n">validate_eval_set</span><span class="p">,</span>
@@ -175,7 +177,9 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
     <span class="n">define_device</span><span class="p">,</span>
     <span class="n">ComplexEncoder</span><span class="p">,</span>
     <span class="n">check_input</span><span class="p">,</span>
-    <span class="n">check_warm_start</span>
+    <span class="n">check_warm_start</span><span class="p">,</span>
+    <span class="n">create_group_matrix</span><span class="p">,</span>
+    <span class="n">check_embedding_parameters</span>
 <span class="p">)</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.callbacks</span> <span class="kn">import</span> <span class="p">(</span>
     <span class="n">CallbackContainer</span><span class="p">,</span>
@@ -194,11 +198,12 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
 <span class="kn">import</span> <span class="nn">zipfile</span>
 <span class="kn">import</span> <span class="nn">warnings</span>
 <span class="kn">import</span> <span class="nn">copy</span>
+<span class="kn">import</span> <span class="nn">scipy</span>
 
 
 <div class="viewcode-block" id="TabModel"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel">[docs]</a><span class="nd">@dataclass</span>
 <span class="k">class</span> <span class="nc">TabModel</span><span class="p">(</span><span class="n">BaseEstimator</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; Class for TabNet model.&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot; Class for TabNet model.&quot;&quot;&quot;</span>
 
     <span class="n">n_d</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">8</span>
     <span class="n">n_a</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">8</span>
@@ -225,10 +230,13 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
     <span class="n">device_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;auto&quot;</span>
     <span class="n">n_shared_decoder</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span>
     <span class="n">n_indep_decoder</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span>
+    <span class="n">grouped_features</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="n">field</span><span class="p">(</span><span class="n">default_factory</span><span class="o">=</span><span class="nb">list</span><span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">__post_init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="c1"># These are default values needed for saving model</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">=</span> <span class="mi">1024</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">virtual_batch_size</span> <span class="o">=</span> <span class="mi">128</span>
+
         <span class="n">torch</span><span class="o">.</span><span class="n">manual_seed</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">seed</span><span class="p">)</span>
         <span class="c1"># Defining device</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="n">define_device</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device_name</span><span class="p">))</span>
@@ -239,8 +247,13 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_fn</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_fn</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">scheduler_fn</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">scheduler_fn</span><span class="p">)</span>
 
+        <span class="n">updated_params</span> <span class="o">=</span> <span class="n">check_embedding_parameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cat_dims</span><span class="p">,</span>
+                                                    <span class="bp">self</span><span class="o">.</span><span class="n">cat_idxs</span><span class="p">,</span>
+                                                    <span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">cat_dims</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">cat_idxs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dim</span> <span class="o">=</span> <span class="n">updated_params</span>
+
     <span class="k">def</span> <span class="nf">__update__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Updates parameters.</span>
 <span class="sd">        If does not already exists, creates it.</span>
 <span class="sd">        Otherwise overwrite with warnings.</span>
@@ -256,6 +269,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
             <span class="s2">&quot;n_independent&quot;</span><span class="p">,</span>
             <span class="s2">&quot;n_shared&quot;</span><span class="p">,</span>
             <span class="s2">&quot;n_steps&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;grouped_features&quot;</span><span class="p">,</span>
         <span class="p">]</span>
         <span class="k">for</span> <span class="n">var_name</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
             <span class="k">if</span> <span class="n">var_name</span> <span class="ow">in</span> <span class="n">update_list</span><span class="p">:</span>
@@ -288,8 +302,9 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="n">from_unsupervised</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
         <span class="n">warm_start</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
         <span class="n">augmentations</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">compute_importance</span><span class="o">=</span><span class="kc">True</span>
     <span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Train a neural network stored in self.network</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Train a neural network stored in self.network</span>
 <span class="sd">        Using train_dataloader for training data and</span>
 <span class="sd">        valid_dataloader for validation.</span>
 
@@ -333,6 +348,8 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
 <span class="sd">            Use a previously self supervised model as starting weights</span>
 <span class="sd">        warm_start: bool</span>
 <span class="sd">            If True, current model parameters are used to start training</span>
+<span class="sd">        compute_importance : bool</span>
+<span class="sd">            Whether to compute feature importance</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="c1"># update model name</span>
 
@@ -346,6 +363,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="bp">self</span><span class="o">.</span><span class="n">_stop_training</span> <span class="o">=</span> <span class="kc">False</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pin_memory</span> <span class="o">=</span> <span class="n">pin_memory</span> <span class="ow">and</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="o">.</span><span class="n">type</span> <span class="o">!=</span> <span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">augmentations</span> <span class="o">=</span> <span class="n">augmentations</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compute_importance</span> <span class="o">=</span> <span class="n">compute_importance</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">augmentations</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
             <span class="c1"># This ensure reproducibility</span>
@@ -417,16 +435,17 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="bp">self</span><span class="o">.</span><span class="n">_callback_container</span><span class="o">.</span><span class="n">on_train_end</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
 
-        <span class="c1"># compute feature importance once the best model is defined</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">feature_importances_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_compute_feature_importances</span><span class="p">(</span><span class="n">X_train</span><span class="p">)</span></div>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_importance</span><span class="p">:</span>
+            <span class="c1"># compute feature importance once the best model is defined</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">feature_importances_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_compute_feature_importances</span><span class="p">(</span><span class="n">X_train</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="TabModel.predict"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.predict">[docs]</a>    <span class="k">def</span> <span class="nf">predict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Make predictions on a batch (valid)</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
-<span class="sd">        X : a :tensor: `torch.Tensor`</span>
+<span class="sd">        X : a :tensor: `torch.Tensor` or matrix: `scipy.sparse.csr_matrix`</span>
 <span class="sd">            Input data</span>
 
 <span class="sd">        Returns</span>
@@ -435,11 +454,19 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
 <span class="sd">            Predictions of the regression problem</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-        <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
-            <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
-            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-            <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">SparsePredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
 
         <span class="n">results</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="k">for</span> <span class="n">batch_nb</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataloader</span><span class="p">):</span>
@@ -451,12 +478,12 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">predict_func</span><span class="p">(</span><span class="n">res</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="TabModel.explain"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.explain">[docs]</a>    <span class="k">def</span> <span class="nf">explain</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">,</span> <span class="n">normalize</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Return local explanation</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
-<span class="sd">        X : tensor: `torch.Tensor`</span>
+<span class="sd">        X : tensor: `torch.Tensor` or matrix: `scipy.sparse.csr_matrix`</span>
 <span class="sd">            Input data</span>
 <span class="sd">        normalize : bool (default False)</span>
 <span class="sd">            Wheter to normalize so that sum of features are equal to 1</span>
@@ -470,11 +497,18 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
 
-        <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
-            <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
-            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-            <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">SparsePredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
 
         <span class="n">res_explain</span> <span class="o">=</span> <span class="p">[]</span>
 
@@ -486,7 +520,6 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
                 <span class="n">masks</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">csc_matrix</span><span class="o">.</span><span class="n">dot</span><span class="p">(</span>
                     <span class="n">value</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">(),</span> <span class="bp">self</span><span class="o">.</span><span class="n">reducing_matrix</span>
                 <span class="p">)</span>
-
             <span class="n">original_feat_explain</span> <span class="o">=</span> <span class="n">csc_matrix</span><span class="o">.</span><span class="n">dot</span><span class="p">(</span><span class="n">M_explain</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">(),</span>
                                                    <span class="bp">self</span><span class="o">.</span><span class="n">reducing_matrix</span><span class="p">)</span>
             <span class="n">res_explain</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">original_feat_explain</span><span class="p">)</span>
@@ -523,7 +556,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
             <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">attr_name</span><span class="p">,</span> <span class="n">attr_value</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="TabModel.save_model"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.save_model">[docs]</a>    <span class="k">def</span> <span class="nf">save_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">path</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Saving TabNet model in two distinct files.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Saving TabNet model in two distinct files.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -566,7 +599,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="k">return</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s2">.zip&quot;</span></div>
 
 <div class="viewcode-block" id="TabModel.load_model"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.load_model">[docs]</a>    <span class="k">def</span> <span class="nf">load_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">filepath</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Load TabNet model.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Load TabNet model.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -602,7 +635,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="k">return</span></div>
 
     <span class="k">def</span> <span class="nf">_train_epoch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">train_loader</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Trains one epoch of the network in self.network</span>
 
 <span class="sd">        Parameters</span>
@@ -625,7 +658,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="k">return</span>
 
     <span class="k">def</span> <span class="nf">_train_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">,</span> <span class="n">y</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Trains one batch of data</span>
 
 <span class="sd">        Parameters</span>
@@ -670,7 +703,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="k">return</span> <span class="n">batch_logs</span>
 
     <span class="k">def</span> <span class="nf">_predict_epoch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="n">loader</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Predict an epoch and update metrics.</span>
 
 <span class="sd">        Parameters</span>
@@ -700,7 +733,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="k">return</span>
 
     <span class="k">def</span> <span class="nf">_predict_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Predict one batch of data.</span>
 
 <span class="sd">        Parameters</span>
@@ -726,8 +759,11 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="k">return</span> <span class="n">scores</span>
 
     <span class="k">def</span> <span class="nf">_set_network</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Setup the network and explain matrix.&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Setup the network and explain matrix.&quot;&quot;&quot;</span>
         <span class="n">torch</span><span class="o">.</span><span class="n">manual_seed</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">seed</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">group_matrix</span> <span class="o">=</span> <span class="n">create_group_matrix</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">grouped_features</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span><span class="p">)</span>
+
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span> <span class="o">=</span> <span class="n">tab_network</span><span class="o">.</span><span class="n">TabNet</span><span class="p">(</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span><span class="p">,</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">output_dim</span><span class="p">,</span>
@@ -744,6 +780,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
             <span class="n">virtual_batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">virtual_batch_size</span><span class="p">,</span>
             <span class="n">momentum</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">momentum</span><span class="p">,</span>
             <span class="n">mask_type</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mask_type</span><span class="p">,</span>
+            <span class="n">group_attention_matrix</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">group_matrix</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
         <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">reducing_matrix</span> <span class="o">=</span> <span class="n">create_explain_matrix</span><span class="p">(</span>
@@ -754,7 +791,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">_set_metrics</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">metrics</span><span class="p">,</span> <span class="n">eval_names</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Set attributes relative to the metrics.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Set attributes relative to the metrics.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -786,7 +823,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">_set_callbacks</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">custom_callbacks</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Setup the callbacks functions.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Setup the callbacks functions.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -829,13 +866,13 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="bp">self</span><span class="o">.</span><span class="n">_callback_container</span><span class="o">.</span><span class="n">set_trainer</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">_set_optimizer</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Setup optimizer.&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Setup optimizer.&quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">_optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_fn</span><span class="p">(</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_params</span>
         <span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">_construct_loaders</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X_train</span><span class="p">,</span> <span class="n">y_train</span><span class="p">,</span> <span class="n">eval_set</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Generate dataloaders for train and eval set.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Generate dataloaders for train and eval set.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -873,7 +910,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
         <span class="k">return</span> <span class="n">train_dataloader</span><span class="p">,</span> <span class="n">valid_dataloaders</span>
 
     <span class="k">def</span> <span class="nf">_compute_feature_importances</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Compute global feature importance.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Compute global feature importance.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -891,7 +928,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
 
 <div class="viewcode-block" id="TabModel.update_fit_params"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.update_fit_params">[docs]</a>    <span class="nd">@abstractmethod</span>
     <span class="k">def</span> <span class="nf">update_fit_params</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X_train</span><span class="p">,</span> <span class="n">y_train</span><span class="p">,</span> <span class="n">eval_set</span><span class="p">,</span> <span class="n">weights</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Set attributes relative to fit function.</span>
 
 <span class="sd">        Parameters</span>
@@ -912,7 +949,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
 
 <div class="viewcode-block" id="TabModel.compute_loss"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.compute_loss">[docs]</a>    <span class="nd">@abstractmethod</span>
     <span class="k">def</span> <span class="nf">compute_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_score</span><span class="p">,</span> <span class="n">y_true</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute the loss.</span>
 
 <span class="sd">        Parameters</span>
@@ -933,7 +970,7 @@ <h1>Source code for pytorch_tabnet.abstract_model</h1><div class="highlight"><pr
 
 <div class="viewcode-block" id="TabModel.prepare_target"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.prepare_target">[docs]</a>    <span class="nd">@abstractmethod</span>
     <span class="k">def</span> <span class="nf">prepare_target</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Prepare target before training.</span>
 
 <span class="sd">        Parameters</span>
diff --git a/docs/_modules/pytorch_tabnet/augmentations.html b/docs/_modules/pytorch_tabnet/augmentations.html
index 48bc1f47..ca878030 100644
--- a/docs/_modules/pytorch_tabnet/augmentations.html
+++ b/docs/_modules/pytorch_tabnet/augmentations.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -165,7 +166,7 @@ <h1>Source code for pytorch_tabnet.augmentations</h1><div class="highlight"><pre
 
 
 <div class="viewcode-block" id="RegressionSMOTE"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.augmentations.RegressionSMOTE">[docs]</a><span class="k">class</span> <span class="nc">RegressionSMOTE</span><span class="p">():</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Apply SMOTE</span>
 
 <span class="sd">    This will average a percentage p of the elements in the batch with other elements.</span>
@@ -208,7 +209,7 @@ <h1>Source code for pytorch_tabnet.augmentations</h1><div class="highlight"><pre
 
 
 <div class="viewcode-block" id="ClassificationSMOTE"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.augmentations.ClassificationSMOTE">[docs]</a><span class="k">class</span> <span class="nc">ClassificationSMOTE</span><span class="p">():</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Apply SMOTE for classification tasks.</span>
 
 <span class="sd">    This will average a percentage p of the elements in the batch with other elements.</span>
diff --git a/docs/_modules/pytorch_tabnet/callbacks.html b/docs/_modules/pytorch_tabnet/callbacks.html
index b4168aaf..2aadf0a0 100644
--- a/docs/_modules/pytorch_tabnet/callbacks.html
+++ b/docs/_modules/pytorch_tabnet/callbacks.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -169,7 +170,7 @@ <h1>Source code for pytorch_tabnet.callbacks</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Callback"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.Callback">[docs]</a><span class="k">class</span> <span class="nc">Callback</span><span class="p">:</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Abstract base class used to build new callbacks.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -203,7 +204,7 @@ <h1>Source code for pytorch_tabnet.callbacks</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="CallbackContainer"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.CallbackContainer">[docs]</a><span class="nd">@dataclass</span>
 <span class="k">class</span> <span class="nc">CallbackContainer</span><span class="p">:</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Container holding a list of callbacks.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -255,7 +256,7 @@ <h1>Source code for pytorch_tabnet.callbacks</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="EarlyStopping"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.EarlyStopping">[docs]</a><span class="nd">@dataclass</span>
 <span class="k">class</span> <span class="nc">EarlyStopping</span><span class="p">(</span><span class="n">Callback</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;EarlyStopping callback to exit the training loop if early_stopping_metric</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;EarlyStopping callback to exit the training loop if early_stopping_metric</span>
 <span class="sd">    does not improve by a certain amount for a certain</span>
 <span class="sd">    number of epochs.</span>
 
@@ -319,14 +320,14 @@ <h1>Source code for pytorch_tabnet.callbacks</h1><div class="highlight"><pre>
             <span class="n">msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Early stopping occurred at epoch </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">stopped_epoch</span><span class="si">}</span><span class="s2">&quot;</span>
             <span class="n">msg</span> <span class="o">+=</span> <span class="p">(</span>
                 <span class="sa">f</span><span class="s2">&quot; with best_epoch = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">best_epoch</span><span class="si">}</span><span class="s2"> and &quot;</span>
-                <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;best_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">early_stopping_metric</span><span class="si">}</span><span class="s2"> = </span><span class="si">{</span><span class="nb">round</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">best_loss</span><span class="p">,</span> <span class="mi">5</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+                <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;best_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">early_stopping_metric</span><span class="si">}</span><span class="s2"> = </span><span class="si">{</span><span class="nb">round</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">best_loss</span><span class="p">,</span><span class="w"> </span><span class="mi">5</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
             <span class="p">)</span>
             <span class="nb">print</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="n">msg</span> <span class="o">=</span> <span class="p">(</span>
                 <span class="sa">f</span><span class="s2">&quot;Stop training because you reached max_epochs = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">trainer</span><span class="o">.</span><span class="n">max_epochs</span><span class="si">}</span><span class="s2">&quot;</span>
                 <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot; with best_epoch = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">best_epoch</span><span class="si">}</span><span class="s2"> and &quot;</span>
-                <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;best_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">early_stopping_metric</span><span class="si">}</span><span class="s2"> = </span><span class="si">{</span><span class="nb">round</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">best_loss</span><span class="p">,</span> <span class="mi">5</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+                <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;best_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">early_stopping_metric</span><span class="si">}</span><span class="s2"> = </span><span class="si">{</span><span class="nb">round</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">best_loss</span><span class="p">,</span><span class="w"> </span><span class="mi">5</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
             <span class="p">)</span>
             <span class="nb">print</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
         <span class="n">wrn_msg</span> <span class="o">=</span> <span class="s2">&quot;Best weights from best epoch are automatically used!&quot;</span>
@@ -335,7 +336,7 @@ <h1>Source code for pytorch_tabnet.callbacks</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="History"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.History">[docs]</a><span class="nd">@dataclass</span>
 <span class="k">class</span> <span class="nc">History</span><span class="p">(</span><span class="n">Callback</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Callback that records events into a `History` object.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Callback that records events into a `History` object.</span>
 <span class="sd">    This callback is automatically applied to</span>
 <span class="sd">    every SuperModule.</span>
 
@@ -378,9 +379,9 @@ <h1>Source code for pytorch_tabnet.callbacks</h1><div class="highlight"><pre>
         <span class="n">msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;epoch </span><span class="si">{</span><span class="n">epoch</span><span class="si">:</span><span class="s2">&lt;3</span><span class="si">}</span><span class="s2">&quot;</span>
         <span class="k">for</span> <span class="n">metric_name</span><span class="p">,</span> <span class="n">metric_value</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">epoch_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
             <span class="k">if</span> <span class="n">metric_name</span> <span class="o">!=</span> <span class="s2">&quot;lr&quot;</span><span class="p">:</span>
-                <span class="n">msg</span> <span class="o">+=</span> <span class="sa">f</span><span class="s2">&quot;| </span><span class="si">{</span><span class="n">metric_name</span><span class="si">:</span><span class="s2">&lt;3</span><span class="si">}</span><span class="s2">: </span><span class="si">{</span><span class="n">np</span><span class="o">.</span><span class="n">round</span><span class="p">(</span><span class="n">metric_value</span><span class="p">,</span> <span class="mi">5</span><span class="p">)</span><span class="si">:</span><span class="s2">&lt;8</span><span class="si">}</span><span class="s2">&quot;</span>
+                <span class="n">msg</span> <span class="o">+=</span> <span class="sa">f</span><span class="s2">&quot;| </span><span class="si">{</span><span class="n">metric_name</span><span class="si">:</span><span class="s2">&lt;3</span><span class="si">}</span><span class="s2">: </span><span class="si">{</span><span class="n">np</span><span class="o">.</span><span class="n">round</span><span class="p">(</span><span class="n">metric_value</span><span class="p">,</span><span class="w"> </span><span class="mi">5</span><span class="p">)</span><span class="si">:</span><span class="s2">&lt;8</span><span class="si">}</span><span class="s2">&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">total_time</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span><span class="p">)</span>
-        <span class="n">msg</span> <span class="o">+=</span> <span class="sa">f</span><span class="s2">&quot;|  </span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="n">datetime</span><span class="o">.</span><span class="n">timedelta</span><span class="p">(</span><span class="n">seconds</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">total_time</span><span class="p">))</span> <span class="o">+</span> <span class="s1">&#39;s&#39;</span><span class="si">:</span><span class="s2">&lt;6</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">msg</span> <span class="o">+=</span> <span class="sa">f</span><span class="s2">&quot;|  </span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="n">datetime</span><span class="o">.</span><span class="n">timedelta</span><span class="p">(</span><span class="n">seconds</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">total_time</span><span class="p">))</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="s1">&#39;s&#39;</span><span class="si">:</span><span class="s2">&lt;6</span><span class="si">}</span><span class="s2">&quot;</span>
         <span class="nb">print</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="History.on_batch_end"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.History.on_batch_end">[docs]</a>    <span class="k">def</span> <span class="nf">on_batch_end</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">,</span> <span class="n">logs</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
@@ -402,7 +403,7 @@ <h1>Source code for pytorch_tabnet.callbacks</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="LRSchedulerCallback"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.LRSchedulerCallback">[docs]</a><span class="nd">@dataclass</span>
 <span class="k">class</span> <span class="nc">LRSchedulerCallback</span><span class="p">(</span><span class="n">Callback</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Wrapper for most torch scheduler functions.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Wrapper for most torch scheduler functions.</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ---------</span>
diff --git a/docs/_modules/pytorch_tabnet/metrics.html b/docs/_modules/pytorch_tabnet/metrics.html
index 267c5532..bff5910b 100644
--- a/docs/_modules/pytorch_tabnet/metrics.html
+++ b/docs/_modules/pytorch_tabnet/metrics.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -175,7 +176,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="UnsupervisedLoss"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.UnsupervisedLoss">[docs]</a><span class="k">def</span> <span class="nf">UnsupervisedLoss</span><span class="p">(</span><span class="n">y_pred</span><span class="p">,</span> <span class="n">embedded_x</span><span class="p">,</span> <span class="n">obf_vars</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-9</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Implements unsupervised loss function.</span>
 <span class="sd">    This differs from orginal paper as it&#39;s scaled to be batch size independent</span>
 <span class="sd">    and number of features reconstructed independent (by taking the mean)</span>
@@ -235,7 +236,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="UnsupMetricContainer"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.UnsupMetricContainer">[docs]</a><span class="nd">@dataclass</span>
 <span class="k">class</span> <span class="nc">UnsupMetricContainer</span><span class="p">:</span>
-    <span class="sd">&quot;&quot;&quot;Container holding a list of metrics.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Container holding a list of metrics.</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ----------</span>
@@ -257,7 +258,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">names</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prefix</span> <span class="o">+</span> <span class="n">name</span> <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">metric_names</span><span class="p">]</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_pred</span><span class="p">,</span> <span class="n">embedded_x</span><span class="p">,</span> <span class="n">obf_vars</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Compute all metrics and store into a dict.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Compute all metrics and store into a dict.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -281,7 +282,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="MetricContainer"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.MetricContainer">[docs]</a><span class="nd">@dataclass</span>
 <span class="k">class</span> <span class="nc">MetricContainer</span><span class="p">:</span>
-    <span class="sd">&quot;&quot;&quot;Container holding a list of metrics.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Container holding a list of metrics.</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ----------</span>
@@ -300,7 +301,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">names</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">prefix</span> <span class="o">+</span> <span class="n">name</span> <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">metric_names</span><span class="p">]</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_pred</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Compute all metrics and store into a dict.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Compute all metrics and store into a dict.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -333,7 +334,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="Metric.get_metrics_by_names"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.Metric.get_metrics_by_names">[docs]</a>    <span class="nd">@classmethod</span>
     <span class="k">def</span> <span class="nf">get_metrics_by_names</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">names</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Get list of metric classes.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Get list of metric classes.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -362,7 +363,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="AUC"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.AUC">[docs]</a><span class="k">class</span> <span class="nc">AUC</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    AUC.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -371,7 +372,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">True</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute AUC of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -390,7 +391,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Accuracy"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.Accuracy">[docs]</a><span class="k">class</span> <span class="nc">Accuracy</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Accuracy.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -399,7 +400,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">True</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute Accuracy of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -419,7 +420,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="BalancedAccuracy"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.BalancedAccuracy">[docs]</a><span class="k">class</span> <span class="nc">BalancedAccuracy</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Balanced Accuracy.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -428,7 +429,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">True</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute Accuracy of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -448,7 +449,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="LogLoss"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.LogLoss">[docs]</a><span class="k">class</span> <span class="nc">LogLoss</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    LogLoss.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -457,7 +458,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">False</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute LogLoss of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -476,7 +477,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="MAE"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.MAE">[docs]</a><span class="k">class</span> <span class="nc">MAE</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Mean Absolute Error.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -485,7 +486,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">False</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute MAE (Mean Absolute Error) of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -504,7 +505,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="MSE"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.MSE">[docs]</a><span class="k">class</span> <span class="nc">MSE</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Mean Squared Error.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -513,7 +514,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">False</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute MSE (Mean Squared Error) of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -532,8 +533,8 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="RMSLE"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.RMSLE">[docs]</a><span class="k">class</span> <span class="nc">RMSLE</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Mean squared logarithmic error regression loss.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Root Mean squared logarithmic error regression loss.</span>
 <span class="sd">    Scikit-implementation:</span>
 <span class="sd">    https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html</span>
 <span class="sd">    Note: In order to avoid error, negative predictions are clipped to 0.</span>
@@ -545,7 +546,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">False</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute RMSLE of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -561,11 +562,11 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 <span class="sd">            RMSLE of predictions vs targets.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="n">y_score</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">y_score</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">a_max</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">mean_squared_log_error</span><span class="p">(</span><span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">)</span></div>
+        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">mean_squared_log_error</span><span class="p">(</span><span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">))</span></div>
 
 
 <div class="viewcode-block" id="UnsupervisedMetric"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.UnsupervisedMetric">[docs]</a><span class="k">class</span> <span class="nc">UnsupervisedMetric</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Unsupervised metric</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -574,7 +575,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">False</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_pred</span><span class="p">,</span> <span class="n">embedded_x</span><span class="p">,</span> <span class="n">obf_vars</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute MSE (Mean Squared Error) of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -597,7 +598,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="UnsupervisedNumpyMetric"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.UnsupervisedNumpyMetric">[docs]</a><span class="k">class</span> <span class="nc">UnsupervisedNumpyMetric</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Unsupervised metric</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -606,7 +607,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">False</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_pred</span><span class="p">,</span> <span class="n">embedded_x</span><span class="p">,</span> <span class="n">obf_vars</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute MSE (Mean Squared Error) of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -632,7 +633,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="RMSE"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.RMSE">[docs]</a><span class="k">class</span> <span class="nc">RMSE</span><span class="p">(</span><span class="n">Metric</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Root Mean Squared Error.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -641,7 +642,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_maximize</span> <span class="o">=</span> <span class="kc">False</span>
 
     <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_true</span><span class="p">,</span> <span class="n">y_score</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute RMSE (Root Mean Squared Error) of predictions.</span>
 
 <span class="sd">        Parameters</span>
@@ -660,7 +661,7 @@ <h1>Source code for pytorch_tabnet.metrics</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="check_metrics"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.check_metrics">[docs]</a><span class="k">def</span> <span class="nf">check_metrics</span><span class="p">(</span><span class="n">metrics</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Check if custom metrics are provided.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if custom metrics are provided.</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ----------</span>
diff --git a/docs/_modules/pytorch_tabnet/multiclass_utils.html b/docs/_modules/pytorch_tabnet/multiclass_utils.html
index 0a68885b..a3619838 100644
--- a/docs/_modules/pytorch_tabnet/multiclass_utils.html
+++ b/docs/_modules/pytorch_tabnet/multiclass_utils.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -181,7 +182,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <span class="k">def</span> <span class="nf">_assert_all_finite</span><span class="p">(</span><span class="n">X</span><span class="p">,</span> <span class="n">allow_nan</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Like assert_all_finite, but only for ndarray.&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Like assert_all_finite, but only for ndarray.&quot;&quot;&quot;</span>
 
     <span class="n">X</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">asanyarray</span><span class="p">(</span><span class="n">X</span><span class="p">)</span>
     <span class="c1"># First try an O(n) time, O(1) space solution for the common case that</span>
@@ -208,7 +209,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <div class="viewcode-block" id="assert_all_finite"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.assert_all_finite">[docs]</a><span class="k">def</span> <span class="nf">assert_all_finite</span><span class="p">(</span><span class="n">X</span><span class="p">,</span> <span class="n">allow_nan</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Throw a ValueError if X contains NaN or infinity.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Throw a ValueError if X contains NaN or infinity.</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ----------</span>
@@ -226,7 +227,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <span class="k">def</span> <span class="nf">_unique_indicator</span><span class="p">(</span><span class="n">y</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Not implemented</span>
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="k">raise</span> <span class="ne">IndexError</span><span class="p">(</span>
@@ -244,7 +245,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <div class="viewcode-block" id="unique_labels"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.unique_labels">[docs]</a><span class="k">def</span> <span class="nf">unique_labels</span><span class="p">(</span><span class="o">*</span><span class="n">ys</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Extract an ordered array of unique labels</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract an ordered array of unique labels</span>
 
 <span class="sd">    We don&#39;t allow:</span>
 <span class="sd">        - mix of multilabel and multiclass (single label) targets</span>
@@ -306,7 +307,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <div class="viewcode-block" id="is_multilabel"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.is_multilabel">[docs]</a><span class="k">def</span> <span class="nf">is_multilabel</span><span class="p">(</span><span class="n">y</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Check if ``y`` is in a multilabel format.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if ``y`` is in a multilabel format.</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ----------</span>
@@ -358,7 +359,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <div class="viewcode-block" id="check_classification_targets"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.check_classification_targets">[docs]</a><span class="k">def</span> <span class="nf">check_classification_targets</span><span class="p">(</span><span class="n">y</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Ensure that target y is of a non-regression type.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Ensure that target y is of a non-regression type.</span>
 
 <span class="sd">    Only the following target types (as defined in type_of_target) are allowed:</span>
 <span class="sd">        &#39;binary&#39;, &#39;multiclass&#39;, &#39;multiclass-multioutput&#39;,</span>
@@ -380,7 +381,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <div class="viewcode-block" id="type_of_target"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.type_of_target">[docs]</a><span class="k">def</span> <span class="nf">type_of_target</span><span class="p">(</span><span class="n">y</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Determine the type of data indicated by the target.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Determine the type of data indicated by the target.</span>
 
 <span class="sd">    Note that this type is the most specific type that can be inferred.</span>
 <span class="sd">    For example:</span>
@@ -515,7 +516,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <div class="viewcode-block" id="infer_output_dim"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.infer_output_dim">[docs]</a><span class="k">def</span> <span class="nf">infer_output_dim</span><span class="p">(</span><span class="n">y_train</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Infer output_dim from targets</span>
 
 <span class="sd">    Parameters</span>
@@ -551,7 +552,7 @@ <h1>Source code for pytorch_tabnet.multiclass_utils</h1><div class="highlight"><
 
 
 <div class="viewcode-block" id="infer_multitask_output"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.infer_multitask_output">[docs]</a><span class="k">def</span> <span class="nf">infer_multitask_output</span><span class="p">(</span><span class="n">y_train</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Infer output_dim from targets</span>
 <span class="sd">    This is for multiple tasks.</span>
 
diff --git a/docs/_modules/pytorch_tabnet/multitask.html b/docs/_modules/pytorch_tabnet/multitask.html
index e16ee2e6..31801db9 100644
--- a/docs/_modules/pytorch_tabnet/multitask.html
+++ b/docs/_modules/pytorch_tabnet/multitask.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -162,10 +163,11 @@ <h1>Source code for pytorch_tabnet.multitask</h1><div class="highlight"><pre>
 <span></span><span class="kn">import</span> <span class="nn">torch</span>
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
 <span class="kn">from</span> <span class="nn">scipy.special</span> <span class="kn">import</span> <span class="n">softmax</span>
-<span class="kn">from</span> <span class="nn">pytorch_tabnet.utils</span> <span class="kn">import</span> <span class="n">PredictDataset</span><span class="p">,</span> <span class="n">filter_weights</span>
+<span class="kn">from</span> <span class="nn">pytorch_tabnet.utils</span> <span class="kn">import</span> <span class="n">SparsePredictDataset</span><span class="p">,</span> <span class="n">PredictDataset</span><span class="p">,</span> <span class="n">filter_weights</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.abstract_model</span> <span class="kn">import</span> <span class="n">TabModel</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.multiclass_utils</span> <span class="kn">import</span> <span class="n">infer_multitask_output</span><span class="p">,</span> <span class="n">check_output_dim</span>
 <span class="kn">from</span> <span class="nn">torch.utils.data</span> <span class="kn">import</span> <span class="n">DataLoader</span>
+<span class="kn">import</span> <span class="nn">scipy</span>
 
 
 <div class="viewcode-block" id="TabNetMultiTaskClassifier"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multitask.TabNetMultiTaskClassifier">[docs]</a><span class="k">class</span> <span class="nc">TabNetMultiTaskClassifier</span><span class="p">(</span><span class="n">TabModel</span><span class="p">):</span>
@@ -183,7 +185,7 @@ <h1>Source code for pytorch_tabnet.multitask</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">y_mapped</span></div>
 
 <div class="viewcode-block" id="TabNetMultiTaskClassifier.compute_loss"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multitask.TabNetMultiTaskClassifier.compute_loss">[docs]</a>    <span class="k">def</span> <span class="nf">compute_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">y_pred</span><span class="p">,</span> <span class="n">y_true</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Computes the loss according to network output and targets</span>
 
 <span class="sd">        Parameters</span>
@@ -243,12 +245,12 @@ <h1>Source code for pytorch_tabnet.multitask</h1><div class="highlight"><pre>
         <span class="n">filter_weights</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">updated_weights</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="TabNetMultiTaskClassifier.predict"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multitask.TabNetMultiTaskClassifier.predict">[docs]</a>    <span class="k">def</span> <span class="nf">predict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Make predictions on a batch (valid)</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
-<span class="sd">        X : a :tensor: `torch.Tensor`</span>
+<span class="sd">        X : a :tensor: `torch.Tensor` or matrix: `scipy.sparse.csr_matrix`</span>
 <span class="sd">            Input data</span>
 
 <span class="sd">        Returns</span>
@@ -257,11 +259,19 @@ <h1>Source code for pytorch_tabnet.multitask</h1><div class="highlight"><pre>
 <span class="sd">            Predictions of the most probable class</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-        <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
-            <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
-            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-            <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">SparsePredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
 
         <span class="n">results</span> <span class="o">=</span> <span class="p">{}</span>
         <span class="k">for</span> <span class="n">data</span> <span class="ow">in</span> <span class="n">dataloader</span><span class="p">:</span>
@@ -288,12 +298,12 @@ <h1>Source code for pytorch_tabnet.multitask</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">results</span></div>
 
 <div class="viewcode-block" id="TabNetMultiTaskClassifier.predict_proba"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.multitask.TabNetMultiTaskClassifier.predict_proba">[docs]</a>    <span class="k">def</span> <span class="nf">predict_proba</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Make predictions for classification on a batch (valid)</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
-<span class="sd">        X : a :tensor: `torch.Tensor`</span>
+<span class="sd">        X : a :tensor: `torch.Tensor` or matrix: `scipy.sparse.csr_matrix`</span>
 <span class="sd">            Input data</span>
 
 <span class="sd">        Returns</span>
@@ -303,11 +313,18 @@ <h1>Source code for pytorch_tabnet.multitask</h1><div class="highlight"><pre>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
 
-        <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
-            <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
-            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-            <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">SparsePredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
 
         <span class="n">results</span> <span class="o">=</span> <span class="p">{}</span>
         <span class="k">for</span> <span class="n">data</span> <span class="ow">in</span> <span class="n">dataloader</span><span class="p">:</span>
diff --git a/docs/_modules/pytorch_tabnet/pretraining.html b/docs/_modules/pytorch_tabnet/pretraining.html
index a4f95e74..cdaef850 100644
--- a/docs/_modules/pytorch_tabnet/pretraining.html
+++ b/docs/_modules/pytorch_tabnet/pretraining.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -166,8 +167,10 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.utils</span> <span class="kn">import</span> <span class="p">(</span>
     <span class="n">create_explain_matrix</span><span class="p">,</span>
     <span class="n">filter_weights</span><span class="p">,</span>
+    <span class="n">SparsePredictDataset</span><span class="p">,</span>
     <span class="n">PredictDataset</span><span class="p">,</span>
-    <span class="n">check_input</span>
+    <span class="n">check_input</span><span class="p">,</span>
+    <span class="n">create_group_matrix</span><span class="p">,</span>
 <span class="p">)</span>
 <span class="kn">from</span> <span class="nn">torch.nn.utils</span> <span class="kn">import</span> <span class="n">clip_grad_norm_</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.pretraining_utils</span> <span class="kn">import</span> <span class="p">(</span>
@@ -180,6 +183,7 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
     <span class="n">UnsupervisedLoss</span><span class="p">,</span>
 <span class="p">)</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.abstract_model</span> <span class="kn">import</span> <span class="n">TabModel</span>
+<span class="kn">import</span> <span class="nn">scipy</span>
 
 
 <div class="viewcode-block" id="TabNetPretrainer"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.pretraining.TabNetPretrainer">[docs]</a><span class="k">class</span> <span class="nc">TabNetPretrainer</span><span class="p">(</span><span class="n">TabModel</span><span class="p">):</span>
@@ -221,7 +225,7 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
         <span class="n">warm_start</span><span class="o">=</span><span class="kc">False</span>
     <span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Train a neural network stored in self.network</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Train a neural network stored in self.network</span>
 <span class="sd">        Using train_dataloader for training data and</span>
 <span class="sd">        valid_dataloader for validation.</span>
 
@@ -329,10 +333,13 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span></div>
 
     <span class="k">def</span> <span class="nf">_set_network</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Setup the network and explain matrix.&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Setup the network and explain matrix.&quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s1">&#39;pretraining_ratio&#39;</span><span class="p">):</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">pretraining_ratio</span> <span class="o">=</span> <span class="mf">0.5</span>
         <span class="n">torch</span><span class="o">.</span><span class="n">manual_seed</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">seed</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">group_matrix</span> <span class="o">=</span> <span class="n">create_group_matrix</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">grouped_features</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span><span class="p">)</span>
+
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span> <span class="o">=</span> <span class="n">tab_network</span><span class="o">.</span><span class="n">TabNetPretraining</span><span class="p">(</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span><span class="p">,</span>
             <span class="n">pretraining_ratio</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pretraining_ratio</span><span class="p">,</span>
@@ -345,10 +352,13 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
             <span class="n">cat_emb_dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dim</span><span class="p">,</span>
             <span class="n">n_independent</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">n_independent</span><span class="p">,</span>
             <span class="n">n_shared</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">n_shared</span><span class="p">,</span>
+            <span class="n">n_shared_decoder</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">n_shared_decoder</span><span class="p">,</span>
+            <span class="n">n_indep_decoder</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">n_indep_decoder</span><span class="p">,</span>
             <span class="n">epsilon</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">epsilon</span><span class="p">,</span>
             <span class="n">virtual_batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">virtual_batch_size</span><span class="p">,</span>
             <span class="n">momentum</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">momentum</span><span class="p">,</span>
             <span class="n">mask_type</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mask_type</span><span class="p">,</span>
+            <span class="n">group_attention_matrix</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">group_matrix</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
         <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">reducing_matrix</span> <span class="o">=</span> <span class="n">create_explain_matrix</span><span class="p">(</span>
@@ -363,7 +373,7 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">pretraining_ratio</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pretraining_ratio</span>
 
     <span class="k">def</span> <span class="nf">_set_metrics</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">eval_names</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Set attributes relative to the metrics.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Set attributes relative to the metrics.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -395,7 +405,7 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">_construct_loaders</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X_train</span><span class="p">,</span> <span class="n">eval_set</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Generate dataloaders for unsupervised train and eval set.</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Generate dataloaders for unsupervised train and eval set.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -424,7 +434,7 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">train_dataloader</span><span class="p">,</span> <span class="n">valid_dataloaders</span>
 
     <span class="k">def</span> <span class="nf">_train_epoch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">train_loader</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Trains one epoch of the network in self.network</span>
 
 <span class="sd">        Parameters</span>
@@ -447,7 +457,7 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="k">return</span>
 
     <span class="k">def</span> <span class="nf">_train_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Trains one batch of data</span>
 
 <span class="sd">        Parameters</span>
@@ -483,7 +493,7 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">batch_logs</span>
 
     <span class="k">def</span> <span class="nf">_predict_epoch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="n">loader</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Predict an epoch and update metrics.</span>
 
 <span class="sd">        Parameters</span>
@@ -516,7 +526,7 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="k">return</span>
 
     <span class="k">def</span> <span class="nf">_predict_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Predict one batch of data.</span>
 
 <span class="sd">        Parameters</span>
@@ -539,12 +549,12 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">output</span><span class="p">,</span> <span class="n">embedded_x</span><span class="p">,</span> <span class="n">obf_vars</span></div>
 
 <div class="viewcode-block" id="TabNetPretrainer.predict"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.pretraining.TabNetPretrainer.predict">[docs]</a>    <span class="k">def</span> <span class="nf">predict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Make predictions on a batch (valid)</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
-<span class="sd">        X : a :tensor: `torch.Tensor`</span>
+<span class="sd">        X : a :tensor: `torch.Tensor` or matrix: `scipy.sparse.csr_matrix`</span>
 <span class="sd">            Input data</span>
 
 <span class="sd">        Returns</span>
@@ -553,11 +563,19 @@ <h1>Source code for pytorch_tabnet.pretraining</h1><div class="highlight"><pre>
 <span class="sd">            Predictions of the regression problem</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-        <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
-            <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
-            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-            <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">SparsePredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
 
         <span class="n">results</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="n">embedded_res</span> <span class="o">=</span> <span class="p">[]</span>
diff --git a/docs/_modules/pytorch_tabnet/pretraining_utils.html b/docs/_modules/pytorch_tabnet/pretraining_utils.html
index 1234f03b..bab368db 100644
--- a/docs/_modules/pytorch_tabnet/pretraining_utils.html
+++ b/docs/_modules/pytorch_tabnet/pretraining_utils.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -162,22 +163,24 @@ <h1>Source code for pytorch_tabnet.pretraining_utils</h1><div class="highlight">
 <span></span><span class="kn">from</span> <span class="nn">torch.utils.data</span> <span class="kn">import</span> <span class="n">DataLoader</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.utils</span> <span class="kn">import</span> <span class="p">(</span>
     <span class="n">create_sampler</span><span class="p">,</span>
+    <span class="n">SparsePredictDataset</span><span class="p">,</span>
     <span class="n">PredictDataset</span><span class="p">,</span>
     <span class="n">check_input</span>
 <span class="p">)</span>
+<span class="kn">import</span> <span class="nn">scipy</span>
 
 
 <div class="viewcode-block" id="create_dataloaders"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.pretraining_utils.create_dataloaders">[docs]</a><span class="k">def</span> <span class="nf">create_dataloaders</span><span class="p">(</span>
     <span class="n">X_train</span><span class="p">,</span> <span class="n">eval_set</span><span class="p">,</span> <span class="n">weights</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">num_workers</span><span class="p">,</span> <span class="n">drop_last</span><span class="p">,</span> <span class="n">pin_memory</span>
 <span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Create dataloaders with or without subsampling depending on weights and balanced.</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ----------</span>
-<span class="sd">    X_train : np.ndarray</span>
+<span class="sd">    X_train : np.ndarray or scipy.sparse.csr_matrix</span>
 <span class="sd">        Training data</span>
-<span class="sd">    eval_set : list of np.array</span>
+<span class="sd">    eval_set : list of np.array (for Xs and ys) or scipy.sparse.csr_matrix (for Xs)</span>
 <span class="sd">        List of eval sets</span>
 <span class="sd">    weights : either 0, 1, dict or iterable</span>
 <span class="sd">        if 0 (default) : no weights will be applied</span>
@@ -204,35 +207,59 @@ <h1>Source code for pytorch_tabnet.pretraining_utils</h1><div class="highlight">
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="n">need_shuffle</span><span class="p">,</span> <span class="n">sampler</span> <span class="o">=</span> <span class="n">create_sampler</span><span class="p">(</span><span class="n">weights</span><span class="p">,</span> <span class="n">X_train</span><span class="p">)</span>
 
-    <span class="n">train_dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
-        <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X_train</span><span class="p">),</span>
-        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
-        <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
-        <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
-        <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
-        <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
-        <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
-    <span class="p">)</span>
+    <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X_train</span><span class="p">):</span>
+        <span class="n">train_dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+            <span class="n">SparsePredictDataset</span><span class="p">(</span><span class="n">X_train</span><span class="p">),</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
+            <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
+            <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
+            <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
+            <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">train_dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+            <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X_train</span><span class="p">),</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
+            <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
+            <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
+            <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
+            <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+        <span class="p">)</span>
 
     <span class="n">valid_dataloaders</span> <span class="o">=</span> <span class="p">[]</span>
     <span class="k">for</span> <span class="n">X</span> <span class="ow">in</span> <span class="n">eval_set</span><span class="p">:</span>
-        <span class="n">valid_dataloaders</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
-            <span class="n">DataLoader</span><span class="p">(</span>
-                <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
-                <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
-                <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
-                <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
-                <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
-                <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
-                <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+        <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
+            <span class="n">valid_dataloaders</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">DataLoader</span><span class="p">(</span>
+                    <span class="n">SparsePredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                    <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                    <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
+                    <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
+                    <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
+                    <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
+                    <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">valid_dataloaders</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">DataLoader</span><span class="p">(</span>
+                    <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                    <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                    <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
+                    <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
+                    <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
+                    <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
+                    <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+                <span class="p">)</span>
             <span class="p">)</span>
-        <span class="p">)</span>
 
     <span class="k">return</span> <span class="n">train_dataloader</span><span class="p">,</span> <span class="n">valid_dataloaders</span></div>
 
 
 <div class="viewcode-block" id="validate_eval_set"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.pretraining_utils.validate_eval_set">[docs]</a><span class="k">def</span> <span class="nf">validate_eval_set</span><span class="p">(</span><span class="n">eval_set</span><span class="p">,</span> <span class="n">eval_name</span><span class="p">,</span> <span class="n">X_train</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Check if the shapes of eval_set are compatible with X_train.</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the shapes of eval_set are compatible with X_train.</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ----------</span>
diff --git a/docs/_modules/pytorch_tabnet/sparsemax.html b/docs/_modules/pytorch_tabnet/sparsemax.html
index 8f03e2ea..0ebb565a 100644
--- a/docs/_modules/pytorch_tabnet/sparsemax.html
+++ b/docs/_modules/pytorch_tabnet/sparsemax.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -183,7 +184,7 @@ <h1>Source code for pytorch_tabnet.sparsemax</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="SparsemaxFunction"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.SparsemaxFunction">[docs]</a><span class="k">class</span> <span class="nc">SparsemaxFunction</span><span class="p">(</span><span class="n">Function</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    An implementation of sparsemax (Martins &amp; Astudillo, 2016). See</span>
 <span class="sd">    :cite:`DBLP:journals/corr/MartinsA16` for detailed description.</span>
 <span class="sd">    By Ben Peters and Vlad Niculae</span>
@@ -191,7 +192,7 @@ <h1>Source code for pytorch_tabnet.sparsemax</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="SparsemaxFunction.forward"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.SparsemaxFunction.forward">[docs]</a>    <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="n">ctx</span><span class="p">,</span> <span class="nb">input</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;sparsemax: normalizing sparse transform (a la softmax)</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;sparsemax: normalizing sparse transform (a la softmax)</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -229,7 +230,7 @@ <h1>Source code for pytorch_tabnet.sparsemax</h1><div class="highlight"><pre>
 
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">_threshold_and_support</span><span class="p">(</span><span class="nb">input</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Sparsemax building block: compute the threshold</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Sparsemax building block: compute the threshold</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -271,7 +272,7 @@ <h1>Source code for pytorch_tabnet.sparsemax</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Entmax15Function"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.Entmax15Function">[docs]</a><span class="k">class</span> <span class="nc">Entmax15Function</span><span class="p">(</span><span class="n">Function</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    An implementation of exact Entmax with alpha=1.5 (B. Peters, V. Niculae, A. Martins). See</span>
 <span class="sd">    :cite:`https://arxiv.org/abs/1905.05702 for detailed description.</span>
 <span class="sd">    Source: https://github.com/deep-spin/entmax</span>
@@ -322,7 +323,7 @@ <h1>Source code for pytorch_tabnet.sparsemax</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Entmoid15"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.Entmoid15">[docs]</a><span class="k">class</span> <span class="nc">Entmoid15</span><span class="p">(</span><span class="n">Function</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; A highly optimized equivalent of lambda x: Entmax15([x, 0]) &quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot; A highly optimized equivalent of lambda x: Entmax15([x, 0]) &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="Entmoid15.forward"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.Entmoid15.forward">[docs]</a>    <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="n">ctx</span><span class="p">,</span> <span class="nb">input</span><span class="p">):</span>
diff --git a/docs/_modules/pytorch_tabnet/tab_model.html b/docs/_modules/pytorch_tabnet/tab_model.html
index d8bf5379..bf3a0510 100644
--- a/docs/_modules/pytorch_tabnet/tab_model.html
+++ b/docs/_modules/pytorch_tabnet/tab_model.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -162,10 +163,11 @@ <h1>Source code for pytorch_tabnet.tab_model</h1><div class="highlight"><pre>
 <span></span><span class="kn">import</span> <span class="nn">torch</span>
 <span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
 <span class="kn">from</span> <span class="nn">scipy.special</span> <span class="kn">import</span> <span class="n">softmax</span>
-<span class="kn">from</span> <span class="nn">pytorch_tabnet.utils</span> <span class="kn">import</span> <span class="n">PredictDataset</span><span class="p">,</span> <span class="n">filter_weights</span>
+<span class="kn">from</span> <span class="nn">pytorch_tabnet.utils</span> <span class="kn">import</span> <span class="n">SparsePredictDataset</span><span class="p">,</span> <span class="n">PredictDataset</span><span class="p">,</span> <span class="n">filter_weights</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.abstract_model</span> <span class="kn">import</span> <span class="n">TabModel</span>
 <span class="kn">from</span> <span class="nn">pytorch_tabnet.multiclass_utils</span> <span class="kn">import</span> <span class="n">infer_output_dim</span><span class="p">,</span> <span class="n">check_output_dim</span>
 <span class="kn">from</span> <span class="nn">torch.utils.data</span> <span class="kn">import</span> <span class="n">DataLoader</span>
+<span class="kn">import</span> <span class="nn">scipy</span>
 
 
 <div class="viewcode-block" id="TabNetClassifier"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_model.TabNetClassifier">[docs]</a><span class="k">class</span> <span class="nc">TabNetClassifier</span><span class="p">(</span><span class="n">TabModel</span><span class="p">):</span>
@@ -176,7 +178,7 @@ <h1>Source code for pytorch_tabnet.tab_model</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">_default_metric</span> <span class="o">=</span> <span class="s1">&#39;accuracy&#39;</span>
 
 <div class="viewcode-block" id="TabNetClassifier.weight_updater"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_model.TabNetClassifier.weight_updater">[docs]</a>    <span class="k">def</span> <span class="nf">weight_updater</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">weights</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Updates weights dictionary according to target_mapper.</span>
 
 <span class="sd">        Parameters</span>
@@ -235,12 +237,12 @@ <h1>Source code for pytorch_tabnet.tab_model</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">vectorize</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">preds_mapper</span><span class="o">.</span><span class="n">get</span><span class="p">)(</span><span class="n">outputs</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">str</span><span class="p">))</span></div>
 
 <div class="viewcode-block" id="TabNetClassifier.predict_proba"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_model.TabNetClassifier.predict_proba">[docs]</a>    <span class="k">def</span> <span class="nf">predict_proba</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">X</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Make predictions for classification on a batch (valid)</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
-<span class="sd">        X : a :tensor: `torch.Tensor`</span>
+<span class="sd">        X : a :tensor: `torch.Tensor` or matrix: `scipy.sparse.csr_matrix`</span>
 <span class="sd">            Input data</span>
 
 <span class="sd">        Returns</span>
@@ -250,11 +252,18 @@ <h1>Source code for pytorch_tabnet.tab_model</h1><div class="highlight"><pre>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">network</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
 
-        <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
-            <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
-            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-            <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">SparsePredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+                <span class="n">PredictDataset</span><span class="p">(</span><span class="n">X</span><span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
 
         <span class="n">results</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="k">for</span> <span class="n">batch_nb</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataloader</span><span class="p">):</span>
diff --git a/docs/_modules/pytorch_tabnet/tab_network.html b/docs/_modules/pytorch_tabnet/tab_network.html
index c8ba7358..7070c4d2 100644
--- a/docs/_modules/pytorch_tabnet/tab_network.html
+++ b/docs/_modules/pytorch_tabnet/tab_network.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -180,7 +181,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="GBN"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.GBN">[docs]</a><span class="k">class</span> <span class="nc">GBN</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Ghost Batch Normalization</span>
 <span class="sd">    https://arxiv.org/abs/1705.08741</span>
 <span class="sd">    &quot;&quot;&quot;</span>
@@ -214,8 +215,9 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="n">virtual_batch_size</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
         <span class="n">momentum</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
         <span class="n">mask_type</span><span class="o">=</span><span class="s2">&quot;sparsemax&quot;</span><span class="p">,</span>
+        <span class="n">group_attention_matrix</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
     <span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Defines main part of the TabNet network without the embedding layers.</span>
 
 <span class="sd">        Parameters</span>
@@ -245,6 +247,8 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 <span class="sd">            Float value between 0 and 1 which will be used for momentum in all batch norm</span>
 <span class="sd">        mask_type : str</span>
 <span class="sd">            Either &quot;sparsemax&quot; or &quot;entmax&quot; : this is the masking function to use</span>
+<span class="sd">        group_attention_matrix : torch matrix</span>
+<span class="sd">            Matrix of size (n_groups, input_dim), m_ij = importance within group i of feature j</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">TabNetEncoder</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span> <span class="o">=</span> <span class="n">input_dim</span>
@@ -260,6 +264,14 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">virtual_batch_size</span> <span class="o">=</span> <span class="n">virtual_batch_size</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">mask_type</span> <span class="o">=</span> <span class="n">mask_type</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">initial_bn</span> <span class="o">=</span> <span class="n">BatchNorm1d</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span><span class="p">,</span> <span class="n">momentum</span><span class="o">=</span><span class="mf">0.01</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">group_attention_matrix</span> <span class="o">=</span> <span class="n">group_attention_matrix</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">group_attention_matrix</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="c1"># no groups</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">group_attention_matrix</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">eye</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">attention_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">attention_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">group_attention_matrix</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_shared</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
             <span class="n">shared_feat_transform</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">()</span>
@@ -299,7 +311,8 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
             <span class="p">)</span>
             <span class="n">attention</span> <span class="o">=</span> <span class="n">AttentiveTransformer</span><span class="p">(</span>
                 <span class="n">n_a</span><span class="p">,</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">attention_dim</span><span class="p">,</span>
+                <span class="n">group_matrix</span><span class="o">=</span><span class="n">group_attention_matrix</span><span class="p">,</span>
                 <span class="n">virtual_batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">virtual_batch_size</span><span class="p">,</span>
                 <span class="n">momentum</span><span class="o">=</span><span class="n">momentum</span><span class="p">,</span>
                 <span class="n">mask_type</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mask_type</span><span class="p">,</span>
@@ -310,12 +323,12 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 <div class="viewcode-block" id="TabNetEncoder.forward"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetEncoder.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">prior</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initial_bn</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
 
+        <span class="n">bs</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>  <span class="c1"># batch size</span>
         <span class="k">if</span> <span class="n">prior</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">prior</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+            <span class="n">prior</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">bs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_dim</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
 
         <span class="n">M_loss</span> <span class="o">=</span> <span class="mi">0</span>
         <span class="n">att</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initial_splitter</span><span class="p">(</span><span class="n">x</span><span class="p">)[:,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_d</span> <span class="p">:]</span>
-
         <span class="n">steps_output</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="p">):</span>
             <span class="n">M</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">att_transformers</span><span class="p">[</span><span class="n">step</span><span class="p">](</span><span class="n">prior</span><span class="p">,</span> <span class="n">att</span><span class="p">)</span>
@@ -325,7 +338,8 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
             <span class="c1"># update prior</span>
             <span class="n">prior</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gamma</span> <span class="o">-</span> <span class="n">M</span><span class="p">,</span> <span class="n">prior</span><span class="p">)</span>
             <span class="c1"># output</span>
-            <span class="n">masked_x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="n">M</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
+            <span class="n">M_feature_level</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">matmul</span><span class="p">(</span><span class="n">M</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">group_attention_matrix</span><span class="p">)</span>
+            <span class="n">masked_x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="n">M_feature_level</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
             <span class="n">out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feat_transformers</span><span class="p">[</span><span class="n">step</span><span class="p">](</span><span class="n">masked_x</span><span class="p">)</span>
             <span class="n">d</span> <span class="o">=</span> <span class="n">ReLU</span><span class="p">()(</span><span class="n">out</span><span class="p">[:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_d</span><span class="p">])</span>
             <span class="n">steps_output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">d</span><span class="p">)</span>
@@ -337,24 +351,25 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="TabNetEncoder.forward_masks"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetEncoder.forward_masks">[docs]</a>    <span class="k">def</span> <span class="nf">forward_masks</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
         <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initial_bn</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
-
-        <span class="n">prior</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="n">bs</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>  <span class="c1"># batch size</span>
+        <span class="n">prior</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">bs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_dim</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
         <span class="n">M_explain</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
         <span class="n">att</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initial_splitter</span><span class="p">(</span><span class="n">x</span><span class="p">)[:,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_d</span> <span class="p">:]</span>
         <span class="n">masks</span> <span class="o">=</span> <span class="p">{}</span>
 
         <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_steps</span><span class="p">):</span>
             <span class="n">M</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">att_transformers</span><span class="p">[</span><span class="n">step</span><span class="p">](</span><span class="n">prior</span><span class="p">,</span> <span class="n">att</span><span class="p">)</span>
-            <span class="n">masks</span><span class="p">[</span><span class="n">step</span><span class="p">]</span> <span class="o">=</span> <span class="n">M</span>
+            <span class="n">M_feature_level</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">matmul</span><span class="p">(</span><span class="n">M</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">group_attention_matrix</span><span class="p">)</span>
+            <span class="n">masks</span><span class="p">[</span><span class="n">step</span><span class="p">]</span> <span class="o">=</span> <span class="n">M_feature_level</span>
             <span class="c1"># update prior</span>
             <span class="n">prior</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gamma</span> <span class="o">-</span> <span class="n">M</span><span class="p">,</span> <span class="n">prior</span><span class="p">)</span>
             <span class="c1"># output</span>
-            <span class="n">masked_x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="n">M</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
+            <span class="n">masked_x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="n">M_feature_level</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
             <span class="n">out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feat_transformers</span><span class="p">[</span><span class="n">step</span><span class="p">](</span><span class="n">masked_x</span><span class="p">)</span>
             <span class="n">d</span> <span class="o">=</span> <span class="n">ReLU</span><span class="p">()(</span><span class="n">out</span><span class="p">[:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_d</span><span class="p">])</span>
             <span class="c1"># explain</span>
             <span class="n">step_importance</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">d</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-            <span class="n">M_explain</span> <span class="o">+=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="n">M</span><span class="p">,</span> <span class="n">step_importance</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">))</span>
+            <span class="n">M_explain</span> <span class="o">+=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="n">M_feature_level</span><span class="p">,</span> <span class="n">step_importance</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">))</span>
             <span class="c1"># update attention</span>
             <span class="n">att</span> <span class="o">=</span> <span class="n">out</span><span class="p">[:,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_d</span> <span class="p">:]</span>
 
@@ -372,7 +387,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="n">virtual_batch_size</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
         <span class="n">momentum</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
     <span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Defines main part of the TabNet network without the embedding layers.</span>
 
 <span class="sd">        Parameters</span>
@@ -410,11 +425,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_shared</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
             <span class="n">shared_feat_transform</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">()</span>
             <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_shared</span><span class="p">):</span>
-                <span class="k">if</span> <span class="n">i</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-                    <span class="n">shared_feat_transform</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">Linear</span><span class="p">(</span><span class="n">n_d</span><span class="p">,</span> <span class="mi">2</span> <span class="o">*</span> <span class="n">n_d</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">))</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">shared_feat_transform</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">Linear</span><span class="p">(</span><span class="n">n_d</span><span class="p">,</span> <span class="mi">2</span> <span class="o">*</span> <span class="n">n_d</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">))</span>
-
+                <span class="n">shared_feat_transform</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">Linear</span><span class="p">(</span><span class="n">n_d</span><span class="p">,</span> <span class="mi">2</span> <span class="o">*</span> <span class="n">n_d</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">))</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="n">shared_feat_transform</span> <span class="o">=</span> <span class="kc">None</span>
 
@@ -461,6 +472,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="n">mask_type</span><span class="o">=</span><span class="s2">&quot;sparsemax&quot;</span><span class="p">,</span>
         <span class="n">n_shared_decoder</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
         <span class="n">n_indep_decoder</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+        <span class="n">group_attention_matrix</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
     <span class="p">):</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">TabNetPretraining</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
 
@@ -487,10 +499,15 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
             <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;n_shared and n_independent can&#39;t be both zero.&quot;</span><span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">virtual_batch_size</span> <span class="o">=</span> <span class="n">virtual_batch_size</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">embedder</span> <span class="o">=</span> <span class="n">EmbeddingGenerator</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span> <span class="n">cat_dims</span><span class="p">,</span> <span class="n">cat_idxs</span><span class="p">,</span> <span class="n">cat_emb_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embedder</span> <span class="o">=</span> <span class="n">EmbeddingGenerator</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span>
+                                           <span class="n">cat_dims</span><span class="p">,</span>
+                                           <span class="n">cat_idxs</span><span class="p">,</span>
+                                           <span class="n">cat_emb_dim</span><span class="p">,</span>
+                                           <span class="n">group_attention_matrix</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embedder</span><span class="o">.</span><span class="n">post_embed_dim</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">masker</span> <span class="o">=</span> <span class="n">RandomObfuscator</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pretraining_ratio</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">masker</span> <span class="o">=</span> <span class="n">RandomObfuscator</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pretraining_ratio</span><span class="p">,</span>
+                                       <span class="n">group_matrix</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">embedder</span><span class="o">.</span><span class="n">embedding_group_matrix</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">encoder</span> <span class="o">=</span> <span class="n">TabNetEncoder</span><span class="p">(</span>
             <span class="n">input_dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span><span class="p">,</span>
             <span class="n">output_dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span><span class="p">,</span>
@@ -504,6 +521,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
             <span class="n">virtual_batch_size</span><span class="o">=</span><span class="n">virtual_batch_size</span><span class="p">,</span>
             <span class="n">momentum</span><span class="o">=</span><span class="n">momentum</span><span class="p">,</span>
             <span class="n">mask_type</span><span class="o">=</span><span class="n">mask_type</span><span class="p">,</span>
+            <span class="n">group_attention_matrix</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">embedder</span><span class="o">.</span><span class="n">embedding_group_matrix</span><span class="p">,</span>
         <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">decoder</span> <span class="o">=</span> <span class="n">TabNetDecoder</span><span class="p">(</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span><span class="p">,</span>
@@ -516,7 +534,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="p">)</span>
 
 <div class="viewcode-block" id="TabNetPretraining.forward"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetPretraining.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Returns: res, embedded_x, obf_vars</span>
 <span class="sd">            res : output of reconstruction</span>
 <span class="sd">            embedded_x : embedded input</span>
@@ -524,12 +542,12 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="n">embedded_x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embedder</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">training</span><span class="p">:</span>
-            <span class="n">masked_x</span><span class="p">,</span> <span class="n">obf_vars</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">masker</span><span class="p">(</span><span class="n">embedded_x</span><span class="p">)</span>
-            <span class="c1"># set prior of encoder with obf_mask</span>
-            <span class="n">prior</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">obf_vars</span>
+            <span class="n">masked_x</span><span class="p">,</span> <span class="n">obfuscated_groups</span><span class="p">,</span> <span class="n">obfuscated_vars</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">masker</span><span class="p">(</span><span class="n">embedded_x</span><span class="p">)</span>
+            <span class="c1"># set prior of encoder with obfuscated groups</span>
+            <span class="n">prior</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">obfuscated_groups</span>
             <span class="n">steps_out</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">encoder</span><span class="p">(</span><span class="n">masked_x</span><span class="p">,</span> <span class="n">prior</span><span class="o">=</span><span class="n">prior</span><span class="p">)</span>
             <span class="n">res</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">decoder</span><span class="p">(</span><span class="n">steps_out</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">res</span><span class="p">,</span> <span class="n">embedded_x</span><span class="p">,</span> <span class="n">obf_vars</span>
+            <span class="k">return</span> <span class="n">res</span><span class="p">,</span> <span class="n">embedded_x</span><span class="p">,</span> <span class="n">obfuscated_vars</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="n">steps_out</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">encoder</span><span class="p">(</span><span class="n">embedded_x</span><span class="p">)</span>
             <span class="n">res</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">decoder</span><span class="p">(</span><span class="n">steps_out</span><span class="p">)</span>
@@ -555,8 +573,9 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="n">virtual_batch_size</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
         <span class="n">momentum</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
         <span class="n">mask_type</span><span class="o">=</span><span class="s2">&quot;sparsemax&quot;</span><span class="p">,</span>
+        <span class="n">group_attention_matrix</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
     <span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Defines main part of the TabNet network without the embedding layers.</span>
 
 <span class="sd">        Parameters</span>
@@ -586,6 +605,8 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 <span class="sd">            Float value between 0 and 1 which will be used for momentum in all batch norm</span>
 <span class="sd">        mask_type : str</span>
 <span class="sd">            Either &quot;sparsemax&quot; or &quot;entmax&quot; : this is the masking function to use</span>
+<span class="sd">        group_attention_matrix : torch matrix</span>
+<span class="sd">            Matrix of size (n_groups, input_dim), m_ij = importance within group i of feature j</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">TabNetNoEmbeddings</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">input_dim</span> <span class="o">=</span> <span class="n">input_dim</span>
@@ -615,6 +636,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
             <span class="n">virtual_batch_size</span><span class="o">=</span><span class="n">virtual_batch_size</span><span class="p">,</span>
             <span class="n">momentum</span><span class="o">=</span><span class="n">momentum</span><span class="p">,</span>
             <span class="n">mask_type</span><span class="o">=</span><span class="n">mask_type</span><span class="p">,</span>
+            <span class="n">group_attention_matrix</span><span class="o">=</span><span class="n">group_attention_matrix</span>
         <span class="p">)</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_multi_task</span><span class="p">:</span>
@@ -663,8 +685,9 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="n">virtual_batch_size</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
         <span class="n">momentum</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
         <span class="n">mask_type</span><span class="o">=</span><span class="s2">&quot;sparsemax&quot;</span><span class="p">,</span>
+        <span class="n">group_attention_matrix</span><span class="o">=</span><span class="p">[],</span>
     <span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Defines TabNet network</span>
 
 <span class="sd">        Parameters</span>
@@ -702,6 +725,8 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 <span class="sd">            Float value between 0 and 1 which will be used for momentum in all batch norm</span>
 <span class="sd">        mask_type : str</span>
 <span class="sd">            Either &quot;sparsemax&quot; or &quot;entmax&quot; : this is the masking function to use</span>
+<span class="sd">        group_attention_matrix : torch matrix</span>
+<span class="sd">            Matrix of size (n_groups, input_dim), m_ij = importance within group i of feature j</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">TabNet</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">cat_idxs</span> <span class="o">=</span> <span class="n">cat_idxs</span> <span class="ow">or</span> <span class="p">[]</span>
@@ -725,8 +750,13 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
             <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;n_shared and n_independent can&#39;t be both zero.&quot;</span><span class="p">)</span>
 
         <span class="bp">self</span><span class="o">.</span><span class="n">virtual_batch_size</span> <span class="o">=</span> <span class="n">virtual_batch_size</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">embedder</span> <span class="o">=</span> <span class="n">EmbeddingGenerator</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span> <span class="n">cat_dims</span><span class="p">,</span> <span class="n">cat_idxs</span><span class="p">,</span> <span class="n">cat_emb_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embedder</span> <span class="o">=</span> <span class="n">EmbeddingGenerator</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span>
+                                           <span class="n">cat_dims</span><span class="p">,</span>
+                                           <span class="n">cat_idxs</span><span class="p">,</span>
+                                           <span class="n">cat_emb_dim</span><span class="p">,</span>
+                                           <span class="n">group_attention_matrix</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embedder</span><span class="o">.</span><span class="n">post_embed_dim</span>
+
         <span class="bp">self</span><span class="o">.</span><span class="n">tabnet</span> <span class="o">=</span> <span class="n">TabNetNoEmbeddings</span><span class="p">(</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span><span class="p">,</span>
             <span class="n">output_dim</span><span class="p">,</span>
@@ -740,6 +770,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
             <span class="n">virtual_batch_size</span><span class="p">,</span>
             <span class="n">momentum</span><span class="p">,</span>
             <span class="n">mask_type</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">embedder</span><span class="o">.</span><span class="n">embedding_group_matrix</span>
         <span class="p">)</span>
 
 <div class="viewcode-block" id="TabNet.forward"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNet.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
@@ -755,20 +786,21 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">input_dim</span><span class="p">,</span>
-        <span class="n">output_dim</span><span class="p">,</span>
+        <span class="n">group_dim</span><span class="p">,</span>
+        <span class="n">group_matrix</span><span class="p">,</span>
         <span class="n">virtual_batch_size</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
         <span class="n">momentum</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
         <span class="n">mask_type</span><span class="o">=</span><span class="s2">&quot;sparsemax&quot;</span><span class="p">,</span>
     <span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialize an attention transformer.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
 <span class="sd">        input_dim : int</span>
 <span class="sd">            Input size</span>
-<span class="sd">        output_dim : int</span>
-<span class="sd">            Output_size</span>
+<span class="sd">        group_dim : int</span>
+<span class="sd">            Number of groups for features</span>
 <span class="sd">        virtual_batch_size : int</span>
 <span class="sd">            Batch size for Ghost Batch Normalization</span>
 <span class="sd">        momentum : float</span>
@@ -777,10 +809,10 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 <span class="sd">            Either &quot;sparsemax&quot; or &quot;entmax&quot; : this is the masking function to use</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">AttentiveTransformer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">fc</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span> <span class="n">output_dim</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
-        <span class="n">initialize_non_glu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">fc</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">,</span> <span class="n">output_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fc</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span> <span class="n">group_dim</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="n">initialize_non_glu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">fc</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">,</span> <span class="n">group_dim</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">bn</span> <span class="o">=</span> <span class="n">GBN</span><span class="p">(</span>
-            <span class="n">output_dim</span><span class="p">,</span> <span class="n">virtual_batch_size</span><span class="o">=</span><span class="n">virtual_batch_size</span><span class="p">,</span> <span class="n">momentum</span><span class="o">=</span><span class="n">momentum</span>
+            <span class="n">group_dim</span><span class="p">,</span> <span class="n">virtual_batch_size</span><span class="o">=</span><span class="n">virtual_batch_size</span><span class="p">,</span> <span class="n">momentum</span><span class="o">=</span><span class="n">momentum</span>
         <span class="p">)</span>
 
         <span class="k">if</span> <span class="n">mask_type</span> <span class="o">==</span> <span class="s2">&quot;sparsemax&quot;</span><span class="p">:</span>
@@ -813,7 +845,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
         <span class="n">momentum</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
     <span class="p">):</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">FeatTransformer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialize a feature transformer.</span>
 
 <span class="sd">        Parameters</span>
@@ -870,7 +902,7 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="GLU_Block"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.GLU_Block">[docs]</a><span class="k">class</span> <span class="nc">GLU_Block</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Independent GLU block, specific to each step</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
@@ -937,12 +969,12 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="EmbeddingGenerator"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.EmbeddingGenerator">[docs]</a><span class="k">class</span> <span class="nc">EmbeddingGenerator</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Classical embeddings generator</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">,</span> <span class="n">cat_dims</span><span class="p">,</span> <span class="n">cat_idxs</span><span class="p">,</span> <span class="n">cat_emb_dim</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;This is an embedding module for an entire set of features</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">,</span> <span class="n">cat_dims</span><span class="p">,</span> <span class="n">cat_idxs</span><span class="p">,</span> <span class="n">cat_emb_dims</span><span class="p">,</span> <span class="n">group_matrix</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;This is an embedding module for an entire set of features</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -953,56 +985,54 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 <span class="sd">            If the list is empty, no embeddings will be done</span>
 <span class="sd">        cat_idxs : list of int</span>
 <span class="sd">            Positional index for each categorical features in inputs</span>
-<span class="sd">        cat_emb_dim : int or list of int</span>
+<span class="sd">        cat_emb_dim : list of int</span>
 <span class="sd">            Embedding dimension for each categorical features</span>
 <span class="sd">            If int, the same embedding dimension will be used for all categorical features</span>
+<span class="sd">        group_matrix : torch matrix</span>
+<span class="sd">            Original group matrix before embeddings</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">EmbeddingGenerator</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+
         <span class="k">if</span> <span class="n">cat_dims</span> <span class="o">==</span> <span class="p">[]</span> <span class="ow">and</span> <span class="n">cat_idxs</span> <span class="o">==</span> <span class="p">[]:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">skip_embedding</span> <span class="o">=</span> <span class="kc">True</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span> <span class="o">=</span> <span class="n">input_dim</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">embedding_group_matrix</span> <span class="o">=</span> <span class="n">group_matrix</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">group_matrix</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
             <span class="k">return</span>
-        <span class="k">elif</span> <span class="p">(</span><span class="n">cat_dims</span> <span class="o">==</span> <span class="p">[])</span> <span class="o">^</span> <span class="p">(</span><span class="n">cat_idxs</span> <span class="o">==</span> <span class="p">[]):</span>
-            <span class="k">if</span> <span class="n">cat_dims</span> <span class="o">==</span> <span class="p">[]:</span>
-                <span class="n">msg</span> <span class="o">=</span> <span class="s2">&quot;If cat_idxs is non-empty, cat_dims must be defined as a list of same length.&quot;</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">msg</span> <span class="o">=</span> <span class="s2">&quot;If cat_dims is non-empty, cat_idxs must be defined as a list of same length.&quot;</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_idxs</span><span class="p">):</span>
-            <span class="n">msg</span> <span class="o">=</span> <span class="s2">&quot;The lists cat_dims and cat_idxs must have the same length.&quot;</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">skip_embedding</span> <span class="o">=</span> <span class="kc">False</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">cat_emb_dim</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span> <span class="o">=</span> <span class="p">[</span><span class="n">cat_emb_dim</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_idxs</span><span class="p">)</span>
         <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span> <span class="o">=</span> <span class="n">cat_emb_dim</span>
-
-        <span class="c1"># check that all embeddings are provided</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">):</span>
-            <span class="n">msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&quot;&quot;cat_emb_dim and cat_dims must be lists of same length, got </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span><span class="p">)</span><span class="si">}</span><span class="s2"></span>
-<span class="s2">                      and </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;&quot;&quot;</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span>
-            <span class="n">input_dim</span> <span class="o">+</span> <span class="n">np</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span><span class="p">)</span>
-        <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">skip_embedding</span> <span class="o">=</span> <span class="kc">False</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">input_dim</span> <span class="o">+</span> <span class="n">np</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">cat_emb_dims</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_emb_dims</span><span class="p">))</span>
 
-        <span class="c1"># Sort dims by cat_idx</span>
-        <span class="n">sorted_idxs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cat_idxs</span><span class="p">)</span>
-        <span class="n">cat_dims</span> <span class="o">=</span> <span class="p">[</span><span class="n">cat_dims</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">sorted_idxs</span><span class="p">]</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">sorted_idxs</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">()</span>
 
-        <span class="k">for</span> <span class="n">cat_dim</span><span class="p">,</span> <span class="n">emb_dim</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">cat_emb_dims</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">cat_dim</span><span class="p">,</span> <span class="n">emb_dim</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">,</span> <span class="n">cat_emb_dims</span><span class="p">):</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Embedding</span><span class="p">(</span><span class="n">cat_dim</span><span class="p">,</span> <span class="n">emb_dim</span><span class="p">))</span>
 
         <span class="c1"># record continuous indices</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">continuous_idx</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">bool</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">continuous_idx</span><span class="p">[</span><span class="n">cat_idxs</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span>
 
+        <span class="c1"># update group matrix</span>
+        <span class="n">n_groups</span> <span class="o">=</span> <span class="n">group_matrix</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embedding_group_matrix</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">empty</span><span class="p">((</span><span class="n">n_groups</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_embed_dim</span><span class="p">),</span>
+                                                  <span class="n">device</span><span class="o">=</span><span class="n">group_matrix</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">group_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">n_groups</span><span class="p">):</span>
+            <span class="n">post_emb_idx</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">cat_feat_counter</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">for</span> <span class="n">init_feat_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">input_dim</span><span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">continuous_idx</span><span class="p">[</span><span class="n">init_feat_idx</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="c1"># this means that no embedding is applied to this column</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">embedding_group_matrix</span><span class="p">[</span><span class="n">group_idx</span><span class="p">,</span> <span class="n">post_emb_idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">group_matrix</span><span class="p">[</span><span class="n">group_idx</span><span class="p">,</span> <span class="n">init_feat_idx</span><span class="p">]</span>  <span class="c1"># noqa</span>
+                    <span class="n">post_emb_idx</span> <span class="o">+=</span> <span class="mi">1</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="c1"># this is a categorical feature which creates multiple embeddings</span>
+                    <span class="n">n_embeddings</span> <span class="o">=</span> <span class="n">cat_emb_dims</span><span class="p">[</span><span class="n">cat_feat_counter</span><span class="p">]</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">embedding_group_matrix</span><span class="p">[</span><span class="n">group_idx</span><span class="p">,</span> <span class="n">post_emb_idx</span><span class="p">:</span><span class="n">post_emb_idx</span><span class="o">+</span><span class="n">n_embeddings</span><span class="p">]</span> <span class="o">=</span> <span class="n">group_matrix</span><span class="p">[</span><span class="n">group_idx</span><span class="p">,</span> <span class="n">init_feat_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">n_embeddings</span>  <span class="c1"># noqa</span>
+                    <span class="n">post_emb_idx</span> <span class="o">+=</span> <span class="n">n_embeddings</span>
+                    <span class="n">cat_feat_counter</span> <span class="o">+=</span> <span class="mi">1</span>
+
 <div class="viewcode-block" id="EmbeddingGenerator.forward"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.EmbeddingGenerator.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Apply embeddings to inputs</span>
 <span class="sd">        Inputs should be (batch_size, input_dim)</span>
 <span class="sd">        Outputs will be of size (batch_size, self.post_embed_dim)</span>
@@ -1028,34 +1058,42 @@ <h1>Source code for pytorch_tabnet.tab_network</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="RandomObfuscator"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.RandomObfuscator">[docs]</a><span class="k">class</span> <span class="nc">RandomObfuscator</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Create and applies obfuscation masks</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Create and applies obfuscation masks.</span>
+<span class="sd">    The obfuscation is done at group level to match attention.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">pretraining_ratio</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">pretraining_ratio</span><span class="p">,</span> <span class="n">group_matrix</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        This create random obfuscation for self suppervised pretraining</span>
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
 <span class="sd">        pretraining_ratio : float</span>
 <span class="sd">            Ratio of feature to randomly discard for reconstruction</span>
+
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">RandomObfuscator</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pretraining_ratio</span> <span class="o">=</span> <span class="n">pretraining_ratio</span>
+        <span class="c1"># group matrix is set to boolean here to pass all posssible information</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">group_matrix</span> <span class="o">=</span> <span class="p">(</span><span class="n">group_matrix</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">)</span> <span class="o">+</span> <span class="mf">0.</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span> <span class="o">=</span> <span class="n">group_matrix</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
 
 <div class="viewcode-block" id="RandomObfuscator.forward"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.RandomObfuscator.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Generate random obfuscation mask.</span>
 
 <span class="sd">        Returns</span>
 <span class="sd">        -------</span>
 <span class="sd">        masked input and obfuscated variables.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">obfuscated_vars</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bernoulli</span><span class="p">(</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">pretraining_ratio</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
-        <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="n">bs</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="n">obfuscated_groups</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bernoulli</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pretraining_ratio</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">bs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span><span class="p">),</span> <span class="n">device</span><span class="o">=</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">obfuscated_vars</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">matmul</span><span class="p">(</span><span class="n">obfuscated_groups</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">group_matrix</span><span class="p">)</span>
         <span class="n">masked_input</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mul</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">obfuscated_vars</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">masked_input</span><span class="p">,</span> <span class="n">obfuscated_vars</span></div></div>
+        <span class="k">return</span> <span class="n">masked_input</span><span class="p">,</span> <span class="n">obfuscated_groups</span><span class="p">,</span> <span class="n">obfuscated_vars</span></div></div>
 </pre></div>
 
            </div>
diff --git a/docs/_modules/pytorch_tabnet/utils.html b/docs/_modules/pytorch_tabnet/utils.html
index 17205ca8..7f50a923 100644
--- a/docs/_modules/pytorch_tabnet/utils.html
+++ b/docs/_modules/pytorch_tabnet/utils.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -171,7 +172,7 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="TorchDataset"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.TorchDataset">[docs]</a><span class="k">class</span> <span class="nc">TorchDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Format for numpy array</span>
 
 <span class="sd">    Parameters</span>
@@ -194,8 +195,33 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span></div>
 
 
+<div class="viewcode-block" id="SparseTorchDataset"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.SparseTorchDataset">[docs]</a><span class="k">class</span> <span class="nc">SparseTorchDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Format for csr_matrix</span>
+
+<span class="sd">    Parameters</span>
+<span class="sd">    ----------</span>
+<span class="sd">    X : CSR matrix</span>
+<span class="sd">        The input matrix</span>
+<span class="sd">    y : 2D array</span>
+<span class="sd">        The one-hot encoded target</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">x</span> <span class="o">=</span> <span class="n">x</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">y</span> <span class="o">=</span> <span class="n">y</span>
+
+    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">index</span><span class="p">):</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">from_numpy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">x</span><span class="p">[</span><span class="n">index</span><span class="p">]</span><span class="o">.</span><span class="n">toarray</span><span class="p">()[</span><span class="mi">0</span><span class="p">])</span><span class="o">.</span><span class="n">float</span><span class="p">()</span>
+        <span class="n">y</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">y</span><span class="p">[</span><span class="n">index</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span></div>
+
+
 <div class="viewcode-block" id="PredictDataset"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.PredictDataset">[docs]</a><span class="k">class</span> <span class="nc">PredictDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Format for numpy array</span>
 
 <span class="sd">    Parameters</span>
@@ -215,8 +241,29 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">x</span></div>
 
 
+<div class="viewcode-block" id="SparsePredictDataset"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.SparsePredictDataset">[docs]</a><span class="k">class</span> <span class="nc">SparsePredictDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Format for csr_matrix</span>
+
+<span class="sd">    Parameters</span>
+<span class="sd">    ----------</span>
+<span class="sd">    X : CSR matrix</span>
+<span class="sd">        The input matrix</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">x</span> <span class="o">=</span> <span class="n">x</span>
+
+    <span class="k">def</span> <span class="fm">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">index</span><span class="p">):</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">from_numpy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">x</span><span class="p">[</span><span class="n">index</span><span class="p">]</span><span class="o">.</span><span class="n">toarray</span><span class="p">()[</span><span class="mi">0</span><span class="p">])</span><span class="o">.</span><span class="n">float</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">x</span></div>
+
+
 <div class="viewcode-block" id="create_sampler"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.create_sampler">[docs]</a><span class="k">def</span> <span class="nf">create_sampler</span><span class="p">(</span><span class="n">weights</span><span class="p">,</span> <span class="n">y_train</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This creates a sampler from the given weights</span>
 
 <span class="sd">    Parameters</span>
@@ -267,7 +314,7 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
 <div class="viewcode-block" id="create_dataloaders"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.create_dataloaders">[docs]</a><span class="k">def</span> <span class="nf">create_dataloaders</span><span class="p">(</span>
     <span class="n">X_train</span><span class="p">,</span> <span class="n">y_train</span><span class="p">,</span> <span class="n">eval_set</span><span class="p">,</span> <span class="n">weights</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">num_workers</span><span class="p">,</span> <span class="n">drop_last</span><span class="p">,</span> <span class="n">pin_memory</span>
 <span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Create dataloaders with or without subsampling depending on weights and balanced.</span>
 
 <span class="sd">    Parameters</span>
@@ -303,33 +350,55 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="n">need_shuffle</span><span class="p">,</span> <span class="n">sampler</span> <span class="o">=</span> <span class="n">create_sampler</span><span class="p">(</span><span class="n">weights</span><span class="p">,</span> <span class="n">y_train</span><span class="p">)</span>
 
-    <span class="n">train_dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
-        <span class="n">TorchDataset</span><span class="p">(</span><span class="n">X_train</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span> <span class="n">y_train</span><span class="p">),</span>
-        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
-        <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
-        <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
-        <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
-        <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
-        <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
-    <span class="p">)</span>
+    <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X_train</span><span class="p">):</span>
+        <span class="n">train_dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+            <span class="n">SparseTorchDataset</span><span class="p">(</span><span class="n">X_train</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span> <span class="n">y_train</span><span class="p">),</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
+            <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
+            <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
+            <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
+            <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">train_dataloader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span>
+            <span class="n">TorchDataset</span><span class="p">(</span><span class="n">X_train</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span> <span class="n">y_train</span><span class="p">),</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">,</span>
+            <span class="n">shuffle</span><span class="o">=</span><span class="n">need_shuffle</span><span class="p">,</span>
+            <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
+            <span class="n">drop_last</span><span class="o">=</span><span class="n">drop_last</span><span class="p">,</span>
+            <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+        <span class="p">)</span>
 
     <span class="n">valid_dataloaders</span> <span class="o">=</span> <span class="p">[]</span>
     <span class="k">for</span> <span class="n">X</span><span class="p">,</span> <span class="n">y</span> <span class="ow">in</span> <span class="n">eval_set</span><span class="p">:</span>
-        <span class="n">valid_dataloaders</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
-            <span class="n">DataLoader</span><span class="p">(</span>
-                <span class="n">TorchDataset</span><span class="p">(</span><span class="n">X</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span> <span class="n">y</span><span class="p">),</span>
-                <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
-                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-                <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
-                <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+        <span class="k">if</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">issparse</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
+            <span class="n">valid_dataloaders</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">DataLoader</span><span class="p">(</span>
+                    <span class="n">SparseTorchDataset</span><span class="p">(</span><span class="n">X</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span> <span class="n">y</span><span class="p">),</span>
+                    <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                    <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
+                    <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">valid_dataloaders</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="n">DataLoader</span><span class="p">(</span>
+                    <span class="n">TorchDataset</span><span class="p">(</span><span class="n">X</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span> <span class="n">y</span><span class="p">),</span>
+                    <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                    <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="n">num_workers</span><span class="o">=</span><span class="n">num_workers</span><span class="p">,</span>
+                    <span class="n">pin_memory</span><span class="o">=</span><span class="n">pin_memory</span><span class="p">,</span>
+                <span class="p">)</span>
             <span class="p">)</span>
-        <span class="p">)</span>
 
     <span class="k">return</span> <span class="n">train_dataloader</span><span class="p">,</span> <span class="n">valid_dataloaders</span></div>
 
 
 <div class="viewcode-block" id="create_explain_matrix"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.create_explain_matrix">[docs]</a><span class="k">def</span> <span class="nf">create_explain_matrix</span><span class="p">(</span><span class="n">input_dim</span><span class="p">,</span> <span class="n">cat_emb_dim</span><span class="p">,</span> <span class="n">cat_idxs</span><span class="p">,</span> <span class="n">post_embed_dim</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This is a computational trick.</span>
 <span class="sd">    In order to rapidly sum importances from same embeddings</span>
 <span class="sd">    to the initial index.</span>
@@ -377,8 +446,95 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
     <span class="k">return</span> <span class="n">scipy</span><span class="o">.</span><span class="n">sparse</span><span class="o">.</span><span class="n">csc_matrix</span><span class="p">(</span><span class="n">reducing_matrix</span><span class="p">)</span></div>
 
 
+<div class="viewcode-block" id="create_group_matrix"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.create_group_matrix">[docs]</a><span class="k">def</span> <span class="nf">create_group_matrix</span><span class="p">(</span><span class="n">list_groups</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Create the group matrix corresponding to the given list_groups</span>
+
+<span class="sd">    Parameters</span>
+<span class="sd">    ----------</span>
+<span class="sd">    - list_groups : list of list of int</span>
+<span class="sd">        Each element is a list representing features in the same group.</span>
+<span class="sd">        One feature should appear in maximum one group.</span>
+<span class="sd">        Feature that don&#39;t get assigned a group will be in their own group of one feature.</span>
+<span class="sd">    - input_dim : number of feature in the initial dataset</span>
+
+<span class="sd">    Returns</span>
+<span class="sd">    -------</span>
+<span class="sd">    - group_matrix : torch matrix</span>
+<span class="sd">        A matrix of size (n_groups, input_dim)</span>
+<span class="sd">        where m_ij represents the importance of feature j in group i</span>
+<span class="sd">        The rows must some to 1 as each group is equally important a priori.</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">check_list_groups</span><span class="p">(</span><span class="n">list_groups</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">list_groups</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">group_matrix</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">eye</span><span class="p">(</span><span class="n">input_dim</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">group_matrix</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">n_groups</span> <span class="o">=</span> <span class="n">input_dim</span> <span class="o">-</span> <span class="nb">int</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">sum</span><span class="p">([</span><span class="nb">len</span><span class="p">(</span><span class="n">gp</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span> <span class="k">for</span> <span class="n">gp</span> <span class="ow">in</span> <span class="n">list_groups</span><span class="p">]))</span>
+        <span class="n">group_matrix</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">n_groups</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">))</span>
+
+        <span class="n">remaining_features</span> <span class="o">=</span> <span class="p">[</span><span class="n">feat_idx</span> <span class="k">for</span> <span class="n">feat_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">input_dim</span><span class="p">)]</span>
+
+        <span class="n">current_group_idx</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">for</span> <span class="n">group</span> <span class="ow">in</span> <span class="n">list_groups</span><span class="p">:</span>
+            <span class="n">group_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">group</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">elem_idx</span> <span class="ow">in</span> <span class="n">group</span><span class="p">:</span>
+                <span class="c1"># add importrance of element in group matrix and corresponding group</span>
+                <span class="n">group_matrix</span><span class="p">[</span><span class="n">current_group_idx</span><span class="p">,</span> <span class="n">elem_idx</span><span class="p">]</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">/</span> <span class="n">group_size</span>
+                <span class="c1"># remove features from list of features</span>
+                <span class="n">remaining_features</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">elem_idx</span><span class="p">)</span>
+            <span class="c1"># move to next group</span>
+            <span class="n">current_group_idx</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="c1"># features not mentionned in list_groups get assigned their own group of singleton</span>
+        <span class="k">for</span> <span class="n">remaining_feat_idx</span> <span class="ow">in</span> <span class="n">remaining_features</span><span class="p">:</span>
+            <span class="n">group_matrix</span><span class="p">[</span><span class="n">current_group_idx</span><span class="p">,</span> <span class="n">remaining_feat_idx</span><span class="p">]</span> <span class="o">=</span> <span class="mi">1</span>
+            <span class="n">current_group_idx</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">group_matrix</span></div>
+
+
+<div class="viewcode-block" id="check_list_groups"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.check_list_groups">[docs]</a><span class="k">def</span> <span class="nf">check_list_groups</span><span class="p">(</span><span class="n">list_groups</span><span class="p">,</span> <span class="n">input_dim</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Check that list groups:</span>
+<span class="sd">        - is a list of list</span>
+<span class="sd">        - does not contain twice the same feature in different groups</span>
+<span class="sd">        - does not contain unknown features (&gt;= input_dim)</span>
+<span class="sd">        - does not contain empty groups</span>
+<span class="sd">    Parameters</span>
+<span class="sd">    ----------</span>
+<span class="sd">    - list_groups : list of list of int</span>
+<span class="sd">        Each element is a list representing features in the same group.</span>
+<span class="sd">        One feature should appear in maximum one group.</span>
+<span class="sd">        Feature that don&#39;t get assign a group will be in their own group of one feature.</span>
+<span class="sd">    - input_dim : number of feature in the initial dataset</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">list_groups</span><span class="p">,</span> <span class="nb">list</span><span class="p">),</span> <span class="s2">&quot;list_groups must be a list of list.&quot;</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">list_groups</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="k">return</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">for</span> <span class="n">group_pos</span><span class="p">,</span> <span class="n">group</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">list_groups</span><span class="p">):</span>
+            <span class="n">msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;Groups must be given as a list of list, but found </span><span class="si">{</span><span class="n">group</span><span class="si">}</span><span class="s2"> in position </span><span class="si">{</span><span class="n">group_pos</span><span class="si">}</span><span class="s2">.&quot;</span>  <span class="c1"># noqa</span>
+            <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">group</span><span class="p">,</span> <span class="nb">list</span><span class="p">),</span> <span class="n">msg</span>
+            <span class="k">assert</span> <span class="nb">len</span><span class="p">(</span><span class="n">group</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;Empty groups are forbidding please remove empty groups []&quot;</span>
+
+    <span class="n">n_elements_in_groups</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">sum</span><span class="p">([</span><span class="nb">len</span><span class="p">(</span><span class="n">group</span><span class="p">)</span> <span class="k">for</span> <span class="n">group</span> <span class="ow">in</span> <span class="n">list_groups</span><span class="p">])</span>
+    <span class="n">flat_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">group</span> <span class="ow">in</span> <span class="n">list_groups</span><span class="p">:</span>
+        <span class="n">flat_list</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">group</span><span class="p">)</span>
+    <span class="n">unique_elements</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">unique</span><span class="p">(</span><span class="n">flat_list</span><span class="p">)</span>
+    <span class="n">n_unique_elements_in_groups</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_elements</span><span class="p">)</span>
+    <span class="n">msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;One feature can only appear in one group, please check your grouped_features.&quot;</span>
+    <span class="k">assert</span> <span class="n">n_unique_elements_in_groups</span> <span class="o">==</span> <span class="n">n_elements_in_groups</span><span class="p">,</span> <span class="n">msg</span>
+
+    <span class="n">highest_feat</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">unique_elements</span><span class="p">)</span>
+    <span class="k">assert</span> <span class="n">highest_feat</span> <span class="o">&lt;</span> <span class="n">input_dim</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;Number of features is </span><span class="si">{</span><span class="n">input_dim</span><span class="si">}</span><span class="s2"> but one group contains </span><span class="si">{</span><span class="n">highest_feat</span><span class="si">}</span><span class="s2">.&quot;</span>  <span class="c1"># noqa</span>
+    <span class="k">return</span></div>
+
+
 <div class="viewcode-block" id="filter_weights"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.filter_weights">[docs]</a><span class="k">def</span> <span class="nf">filter_weights</span><span class="p">(</span><span class="n">weights</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This function makes sure that weights are in correct format for</span>
 <span class="sd">    regression and multitask TabNet</span>
 
@@ -402,7 +558,7 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="validate_eval_set"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.validate_eval_set">[docs]</a><span class="k">def</span> <span class="nf">validate_eval_set</span><span class="p">(</span><span class="n">eval_set</span><span class="p">,</span> <span class="n">eval_name</span><span class="p">,</span> <span class="n">X_train</span><span class="p">,</span> <span class="n">y_train</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;Check if the shapes of eval_set are compatible with (X_train, y_train).</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Check if the shapes of eval_set are compatible with (X_train, y_train).</span>
 
 <span class="sd">    Parameters</span>
 <span class="sd">    ----------</span>
@@ -469,7 +625,7 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="define_device"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.define_device">[docs]</a><span class="k">def</span> <span class="nf">define_device</span><span class="p">(</span><span class="n">device_name</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Define the device to use during training and inference.</span>
 <span class="sd">    If auto it will detect automatically whether to use cuda or cpu</span>
 
@@ -496,25 +652,25 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="ComplexEncoder"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.ComplexEncoder">[docs]</a><span class="k">class</span> <span class="nc">ComplexEncoder</span><span class="p">(</span><span class="n">json</span><span class="o">.</span><span class="n">JSONEncoder</span><span class="p">):</span>
 <div class="viewcode-block" id="ComplexEncoder.default"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.ComplexEncoder.default">[docs]</a>    <span class="k">def</span> <span class="nf">default</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obj</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">int64</span><span class="p">):</span>
-            <span class="k">return</span> <span class="nb">int</span><span class="p">(</span><span class="n">obj</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">generic</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)):</span>
+            <span class="k">return</span> <span class="n">obj</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
         <span class="c1"># Let the base class default method raise the TypeError</span>
         <span class="k">return</span> <span class="n">json</span><span class="o">.</span><span class="n">JSONEncoder</span><span class="o">.</span><span class="n">default</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">obj</span><span class="p">)</span></div></div>
 
 
 <div class="viewcode-block" id="check_input"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.check_input">[docs]</a><span class="k">def</span> <span class="nf">check_input</span><span class="p">(</span><span class="n">X</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Raise a clear error if X is a pandas dataframe</span>
 <span class="sd">    and check array according to scikit rules</span>
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">X</span><span class="p">,</span> <span class="p">(</span><span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span> <span class="n">pd</span><span class="o">.</span><span class="n">Series</span><span class="p">)):</span>
         <span class="n">err_message</span> <span class="o">=</span> <span class="s2">&quot;Pandas DataFrame are not supported: apply X.values when calling fit&quot;</span>
         <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span><span class="n">err_message</span><span class="p">)</span>
-    <span class="n">check_array</span><span class="p">(</span><span class="n">X</span><span class="p">)</span></div>
+    <span class="n">check_array</span><span class="p">(</span><span class="n">X</span><span class="p">,</span> <span class="n">accept_sparse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></div>
 
 
 <div class="viewcode-block" id="check_warm_start"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.check_warm_start">[docs]</a><span class="k">def</span> <span class="nf">check_warm_start</span><span class="p">(</span><span class="n">warm_start</span><span class="p">,</span> <span class="n">from_unsupervised</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Gives a warning about ambiguous usage of the two parameters.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="k">if</span> <span class="n">warm_start</span> <span class="ow">and</span> <span class="n">from_unsupervised</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
@@ -522,6 +678,40 @@ <h1>Source code for pytorch_tabnet.utils</h1><div class="highlight"><pre>
         <span class="n">warn_msg</span> <span class="o">=</span> <span class="s2">&quot;warm_start will be ignore, training will start from unsupervised weights&quot;</span>
         <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="n">warn_msg</span><span class="p">)</span>
     <span class="k">return</span></div>
+
+
+<div class="viewcode-block" id="check_embedding_parameters"><a class="viewcode-back" href="../../generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.check_embedding_parameters">[docs]</a><span class="k">def</span> <span class="nf">check_embedding_parameters</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">,</span> <span class="n">cat_idxs</span><span class="p">,</span> <span class="n">cat_emb_dim</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Check parameters related to embeddings and rearrange them in a unique manner.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="p">(</span><span class="n">cat_dims</span> <span class="o">==</span> <span class="p">[])</span> <span class="o">^</span> <span class="p">(</span><span class="n">cat_idxs</span> <span class="o">==</span> <span class="p">[]):</span>
+        <span class="k">if</span> <span class="n">cat_dims</span> <span class="o">==</span> <span class="p">[]:</span>
+            <span class="n">msg</span> <span class="o">=</span> <span class="s2">&quot;If cat_idxs is non-empty, cat_dims must be defined as a list of same length.&quot;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">msg</span> <span class="o">=</span> <span class="s2">&quot;If cat_dims is non-empty, cat_idxs must be defined as a list of same length.&quot;</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_idxs</span><span class="p">):</span>
+        <span class="n">msg</span> <span class="o">=</span> <span class="s2">&quot;The lists cat_dims and cat_idxs must have the same length.&quot;</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">cat_emb_dim</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+        <span class="n">cat_emb_dims</span> <span class="o">=</span> <span class="p">[</span><span class="n">cat_emb_dim</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_idxs</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">cat_emb_dims</span> <span class="o">=</span> <span class="n">cat_emb_dim</span>
+
+    <span class="c1"># check that all embeddings are provided</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_emb_dims</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">):</span>
+        <span class="n">msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&quot;&quot;cat_emb_dim and cat_dims must be lists of same length, got </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">cat_emb_dims</span><span class="p">)</span><span class="si">}</span>
+<span class="s2">                    and </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">cat_dims</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span>
+
+    <span class="c1"># Rearrange to get reproducible seeds with different ordering</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">cat_idxs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">sorted_idxs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">cat_idxs</span><span class="p">)</span>
+        <span class="n">cat_dims</span> <span class="o">=</span> <span class="p">[</span><span class="n">cat_dims</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">sorted_idxs</span><span class="p">]</span>
+        <span class="n">cat_emb_dims</span> <span class="o">=</span> <span class="p">[</span><span class="n">cat_emb_dims</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">sorted_idxs</span><span class="p">]</span>
+
+    <span class="k">return</span> <span class="n">cat_dims</span><span class="p">,</span> <span class="n">cat_idxs</span><span class="p">,</span> <span class="n">cat_emb_dims</span></div>
 </pre></div>
 
            </div>
diff --git a/docs/_modules/torch/optim/adam.html b/docs/_modules/torch/optim/adam.html
index 7871f583..2360413c 100644
--- a/docs/_modules/torch/optim/adam.html
+++ b/docs/_modules/torch/optim/adam.html
@@ -87,6 +87,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -159,17 +160,96 @@
            <div itemprop="articleBody">
             
   <h1>Source code for torch.optim.adam</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">math</span>
-<span class="kn">import</span> <span class="nn">torch</span>
-<span class="kn">from</span> <span class="nn">.optimizer</span> <span class="kn">import</span> <span class="n">Optimizer</span>
+<span></span><span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">defaultdict</span>
+<span class="kn">import</span> <span class="nn">math</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">cast</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Tuple</span>
 
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">Tensor</span>
+<span class="kn">from</span> <span class="nn">.optimizer</span> <span class="kn">import</span> <span class="n">Optimizer</span><span class="p">,</span> <span class="n">_use_grad_for_differentiable</span>
+
+<span class="n">__all__</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;Adam&#39;</span><span class="p">,</span> <span class="s1">&#39;adam&#39;</span><span class="p">]</span>
+
+
+<span class="c1"># TODO(crcrpar): Move this to soemwhere (e.g. torch/optim/_utils?) else when adding another fused optimizer.</span>
+<span class="c1"># NOTE(crcrpar): Almost the same as `_MultiDeviceReplicator` defined in</span>
+<span class="c1"># torch/cuda/amp/grad_scaler.py except for the key being str only for torch script.</span>
+<span class="k">class</span> <span class="nc">_MultiDeviceReplicator</span><span class="p">:</span>
+    <span class="n">main_tensor</span><span class="p">:</span> <span class="n">Tensor</span>
+    <span class="n">_per_device_tensors</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">main_tensor</span><span class="p">:</span> <span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">main_tensor</span> <span class="o">=</span> <span class="n">main_tensor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_per_device_tensors</span> <span class="o">=</span> <span class="p">{</span><span class="nb">str</span><span class="p">(</span><span class="n">main_tensor</span><span class="o">.</span><span class="n">device</span><span class="p">):</span> <span class="n">main_tensor</span><span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">get</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">device</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">device</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_per_device_tensors</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_per_device_tensors</span><span class="p">[</span><span class="n">device</span><span class="p">]</span>
+        <span class="n">tensor</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">main_tensor</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">non_blocking</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">copy</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_per_device_tensors</span><span class="p">[</span><span class="n">device</span><span class="p">]</span> <span class="o">=</span> <span class="n">tensor</span>
+        <span class="k">return</span> <span class="n">tensor</span>
+
+
+<span class="c1"># todo(crcrpar): Move this to another place when adding another fused optimizer.</span>
+<span class="k">def</span> <span class="nf">_get_fp16AMP_params</span><span class="p">(</span>
+    <span class="o">*</span><span class="p">,</span>
+    <span class="n">optimizer</span><span class="p">:</span> <span class="n">Optimizer</span><span class="p">,</span>
+    <span class="n">grad_scaler</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">amp</span><span class="o">.</span><span class="n">GradScaler</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">device</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">]:</span>
+    <span class="k">if</span> <span class="n">grad_scaler</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">None</span>
+    <span class="n">found_inf_dict</span> <span class="o">=</span> <span class="n">grad_scaler</span><span class="o">.</span><span class="n">_check_inf_per_device</span><span class="p">(</span><span class="n">optimizer</span><span class="p">)</span>
+    <span class="c1"># Combines found_inf tensors from all devices. As in GradScaler.update(),</span>
+    <span class="c1"># tensors are combined on the scale&#39;s device, which is an arbitrary but</span>
+    <span class="c1"># reasonable choice that avoids new context creation.</span>
+    <span class="n">found_infs</span> <span class="o">=</span> <span class="p">[</span><span class="n">f</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">,</span> <span class="n">non_blocking</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">found_inf_dict</span><span class="o">.</span><span class="n">values</span><span class="p">()]</span>
+    <span class="k">assert</span> <span class="nb">len</span><span class="p">(</span><span class="n">found_infs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;No inf checks were recorded in _check_inf_per_device.&quot;</span>
+    <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+        <span class="n">found_inf_combined</span> <span class="o">=</span> <span class="n">cast</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="nb">sum</span><span class="p">(</span><span class="n">found_infs</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">_MultiDeviceReplicator</span><span class="p">(</span><span class="n">found_inf_combined</span><span class="p">)</span>
 
 <span class="k">class</span> <span class="nc">Adam</span><span class="p">(</span><span class="n">Optimizer</span><span class="p">):</span>
-    <span class="sa">r</span><span class="sd">&quot;&quot;&quot;Implements Adam algorithm.</span>
-
-<span class="sd">    It has been proposed in `Adam: A Method for Stochastic Optimization`_.</span>
-
-<span class="sd">    Arguments:</span>
+<span class="w">    </span><span class="sa">r</span><span class="sd">&quot;&quot;&quot;Implements Adam algorithm.</span>
+
+<span class="sd">    .. math::</span>
+<span class="sd">       \begin{aligned}</span>
+<span class="sd">            &amp;\rule{110mm}{0.4pt}                                                                 \\</span>
+<span class="sd">            &amp;\textbf{input}      : \gamma \text{ (lr)}, \beta_1, \beta_2</span>
+<span class="sd">                \text{ (betas)},\theta_0 \text{ (params)},f(\theta) \text{ (objective)}          \\</span>
+<span class="sd">            &amp;\hspace{13mm}      \lambda \text{ (weight decay)},  \: \textit{amsgrad},</span>
+<span class="sd">                \:\textit{maximize}                                                              \\</span>
+<span class="sd">            &amp;\textbf{initialize} :  m_0 \leftarrow 0 \text{ ( first moment)},</span>
+<span class="sd">                v_0\leftarrow 0 \text{ (second moment)},\: \widehat{v_0}^{max}\leftarrow 0\\[-1.ex]</span>
+<span class="sd">            &amp;\rule{110mm}{0.4pt}                                                                 \\</span>
+<span class="sd">            &amp;\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do}                         \\</span>
+
+<span class="sd">            &amp;\hspace{5mm}\textbf{if} \: \textit{maximize}:                                       \\</span>
+<span class="sd">            &amp;\hspace{10mm}g_t           \leftarrow   -\nabla_{\theta} f_t (\theta_{t-1})         \\</span>
+<span class="sd">            &amp;\hspace{5mm}\textbf{else}                                                           \\</span>
+<span class="sd">            &amp;\hspace{10mm}g_t           \leftarrow   \nabla_{\theta} f_t (\theta_{t-1})          \\</span>
+<span class="sd">            &amp;\hspace{5mm}\textbf{if} \: \lambda \neq 0                                           \\</span>
+<span class="sd">            &amp;\hspace{10mm} g_t \leftarrow g_t + \lambda  \theta_{t-1}                            \\</span>
+<span class="sd">            &amp;\hspace{5mm}m_t           \leftarrow   \beta_1 m_{t-1} + (1 - \beta_1) g_t          \\</span>
+<span class="sd">            &amp;\hspace{5mm}v_t           \leftarrow   \beta_2 v_{t-1} + (1-\beta_2) g^2_t          \\</span>
+<span class="sd">            &amp;\hspace{5mm}\widehat{m_t} \leftarrow   m_t/\big(1-\beta_1^t \big)                   \\</span>
+<span class="sd">            &amp;\hspace{5mm}\widehat{v_t} \leftarrow   v_t/\big(1-\beta_2^t \big)                   \\</span>
+<span class="sd">            &amp;\hspace{5mm}\textbf{if} \: amsgrad                                                  \\</span>
+<span class="sd">            &amp;\hspace{10mm}\widehat{v_t}^{max} \leftarrow \mathrm{max}(\widehat{v_t}^{max},</span>
+<span class="sd">                \widehat{v_t})                                                                   \\</span>
+<span class="sd">            &amp;\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma \widehat{m_t}/</span>
+<span class="sd">                \big(\sqrt{\widehat{v_t}^{max}} + \epsilon \big)                                 \\</span>
+<span class="sd">            &amp;\hspace{5mm}\textbf{else}                                                           \\</span>
+<span class="sd">            &amp;\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma \widehat{m_t}/</span>
+<span class="sd">                \big(\sqrt{\widehat{v_t}} + \epsilon \big)                                       \\</span>
+<span class="sd">            &amp;\rule{110mm}{0.4pt}                                                          \\[-1.ex]</span>
+<span class="sd">            &amp;\bf{return} \:  \theta_t                                                     \\[-1.ex]</span>
+<span class="sd">            &amp;\rule{110mm}{0.4pt}                                                          \\[-1.ex]</span>
+<span class="sd">       \end{aligned}</span>
+
+<span class="sd">    For further details regarding the algorithm we refer to `Adam: A Method for Stochastic Optimization`_.</span>
+
+<span class="sd">    Args:</span>
 <span class="sd">        params (iterable): iterable of parameters to optimize or dicts defining</span>
 <span class="sd">            parameter groups</span>
 <span class="sd">        lr (float, optional): learning rate (default: 1e-3)</span>
@@ -178,9 +258,19 @@ <h1>Source code for torch.optim.adam</h1><div class="highlight"><pre>
 <span class="sd">        eps (float, optional): term added to the denominator to improve</span>
 <span class="sd">            numerical stability (default: 1e-8)</span>
 <span class="sd">        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)</span>
-<span class="sd">        amsgrad (boolean, optional): whether to use the AMSGrad variant of this</span>
+<span class="sd">        amsgrad (bool, optional): whether to use the AMSGrad variant of this</span>
 <span class="sd">            algorithm from the paper `On the Convergence of Adam and Beyond`_</span>
 <span class="sd">            (default: False)</span>
+<span class="sd">        foreach (bool, optional): whether foreach implementation of optimizer</span>
+<span class="sd">            is used (default: None)</span>
+<span class="sd">        maximize (bool, optional): maximize the params based on the objective, instead of</span>
+<span class="sd">            minimizing (default: False)</span>
+<span class="sd">        capturable (bool, optional): whether this instance is safe to capture in a CUDA graph.</span>
+<span class="sd">            Passing True can impair ungraphed performance, so if you don&#39;t intend to</span>
+<span class="sd">            graph capture this instance, leave it False (default: False)</span>
+<span class="sd">        fused (bool, optional): whether fused implementation of optimizer is used.</span>
+<span class="sd">            Currently, `torch.float64`, `torch.float32`, `torch.float16`, and `torch.bfloat16`</span>
+<span class="sd">            are supported. (default: False)</span>
 
 <span class="sd">    .. _Adam\: A Method for Stochastic Optimization:</span>
 <span class="sd">        https://arxiv.org/abs/1412.6980</span>
@@ -189,7 +279,9 @@ <h1>Source code for torch.optim.adam</h1><div class="highlight"><pre>
 <span class="sd">    &quot;&quot;&quot;</span>
 
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">,</span> <span class="n">betas</span><span class="o">=</span><span class="p">(</span><span class="mf">0.9</span><span class="p">,</span> <span class="mf">0.999</span><span class="p">),</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-8</span><span class="p">,</span>
-                 <span class="n">weight_decay</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">amsgrad</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+                 <span class="n">weight_decay</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">amsgrad</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">foreach</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">maximize</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="n">capturable</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+                 <span class="n">differentiable</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="n">fused</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="mf">0.0</span> <span class="o">&lt;=</span> <span class="n">lr</span><span class="p">:</span>
             <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Invalid learning rate: </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">lr</span><span class="p">))</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="mf">0.0</span> <span class="o">&lt;=</span> <span class="n">eps</span><span class="p">:</span>
@@ -198,76 +290,482 @@ <h1>Source code for torch.optim.adam</h1><div class="highlight"><pre>
             <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Invalid beta parameter at index 0: </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">betas</span><span class="p">[</span><span class="mi">0</span><span class="p">]))</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="mf">0.0</span> <span class="o">&lt;=</span> <span class="n">betas</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">&lt;</span> <span class="mf">1.0</span><span class="p">:</span>
             <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Invalid beta parameter at index 1: </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">betas</span><span class="p">[</span><span class="mi">1</span><span class="p">]))</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="mf">0.0</span> <span class="o">&lt;=</span> <span class="n">weight_decay</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Invalid weight_decay value: </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">weight_decay</span><span class="p">))</span>
         <span class="n">defaults</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">lr</span><span class="o">=</span><span class="n">lr</span><span class="p">,</span> <span class="n">betas</span><span class="o">=</span><span class="n">betas</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="n">eps</span><span class="p">,</span>
-                        <span class="n">weight_decay</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">,</span> <span class="n">amsgrad</span><span class="o">=</span><span class="n">amsgrad</span><span class="p">)</span>
+                        <span class="n">weight_decay</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">,</span> <span class="n">amsgrad</span><span class="o">=</span><span class="n">amsgrad</span><span class="p">,</span>
+                        <span class="n">maximize</span><span class="o">=</span><span class="n">maximize</span><span class="p">,</span> <span class="n">foreach</span><span class="o">=</span><span class="n">foreach</span><span class="p">,</span> <span class="n">capturable</span><span class="o">=</span><span class="n">capturable</span><span class="p">,</span>
+                        <span class="n">differentiable</span><span class="o">=</span><span class="n">differentiable</span><span class="p">,</span> <span class="n">fused</span><span class="o">=</span><span class="n">fused</span><span class="p">)</span>
         <span class="nb">super</span><span class="p">(</span><span class="n">Adam</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">defaults</span><span class="p">)</span>
 
+        <span class="k">if</span> <span class="n">fused</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">differentiable</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span><span class="s2">&quot;`fused` cannot be `differentiable`&quot;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_step_supports_amp_scaling</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="c1"># TODO(crcrpar): [low prec params &amp; their higher prec copy]</span>
+            <span class="c1"># Suppor AMP with FP16/BF16 model params which would need</span>
+            <span class="c1"># higher prec copy of params to do update math in higher prec to</span>
+            <span class="c1"># alleviate the loss of information.</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">all</span><span class="p">(</span>
+                <span class="n">p</span><span class="o">.</span><span class="n">is_cuda</span> <span class="ow">and</span> <span class="n">torch</span><span class="o">.</span><span class="n">is_floating_point</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">pg</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_groups</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">pg</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span>
+            <span class="p">):</span>
+                <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span><span class="s2">&quot;FusedAdam requires all the params to be CUDA, floating point&quot;</span><span class="p">)</span>
+
     <span class="k">def</span> <span class="nf">__setstate__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">Adam</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__setstate__</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">__setstate__</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
         <span class="k">for</span> <span class="n">group</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_groups</span><span class="p">:</span>
             <span class="n">group</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;amsgrad&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">closure</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Performs a single optimization step.</span>
-
-<span class="sd">        Arguments:</span>
-<span class="sd">            closure (callable, optional): A closure that reevaluates the model</span>
+            <span class="n">group</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;maximize&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+            <span class="n">group</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;foreach&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">group</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;capturable&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+            <span class="n">group</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;differentiable&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+            <span class="n">group</span><span class="o">.</span><span class="n">setdefault</span><span class="p">(</span><span class="s1">&#39;fused&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+        <span class="n">state_values</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
+        <span class="n">step_is_tensor</span> <span class="o">=</span> <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">state_values</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">)</span> <span class="ow">and</span> <span class="n">torch</span><span class="o">.</span><span class="n">is_tensor</span><span class="p">(</span><span class="n">state_values</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;step&#39;</span><span class="p">])</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">step_is_tensor</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">state_values</span><span class="p">:</span>
+                <span class="n">s</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="n">s</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">]))</span>
+
+    <span class="nd">@_use_grad_for_differentiable</span>
+    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">closure</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">grad_scaler</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Performs a single optimization step.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            closure (Callable, optional): A closure that reevaluates the model</span>
 <span class="sd">                and returns the loss.</span>
+<span class="sd">            grad_scaler (:class:`torch.cuda.amp.GradScaler`, optional): A GradScaler which is</span>
+<span class="sd">                supplied from ``grad_scaler.step(optimizer)``.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_cuda_graph_capture_health_check</span><span class="p">()</span>
+
         <span class="n">loss</span> <span class="o">=</span> <span class="kc">None</span>
         <span class="k">if</span> <span class="n">closure</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">loss</span> <span class="o">=</span> <span class="n">closure</span><span class="p">()</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">enable_grad</span><span class="p">():</span>
+                <span class="n">loss</span> <span class="o">=</span> <span class="n">closure</span><span class="p">()</span>
 
         <span class="k">for</span> <span class="n">group</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_groups</span><span class="p">:</span>
+            <span class="n">params_with_grad</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">grads</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">exp_avgs</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">exp_avg_sqs</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">max_exp_avg_sqs</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">state_steps</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">beta1</span><span class="p">,</span> <span class="n">beta2</span> <span class="o">=</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;betas&#39;</span><span class="p">]</span>
+
+            <span class="n">grad_scale</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">found_inf</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="k">if</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;fused&#39;</span><span class="p">]</span> <span class="ow">and</span> <span class="n">grad_scaler</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">grad_scale</span> <span class="o">=</span> <span class="n">grad_scaler</span><span class="o">.</span><span class="n">_get_scale_async</span><span class="p">()</span>
+                <span class="n">device</span> <span class="o">=</span> <span class="n">grad_scale</span><span class="o">.</span><span class="n">device</span>
+                <span class="n">grad_scale</span> <span class="o">=</span> <span class="n">_MultiDeviceReplicator</span><span class="p">(</span><span class="n">grad_scale</span><span class="p">)</span>
+                <span class="n">found_inf</span> <span class="o">=</span> <span class="n">_get_fp16AMP_params</span><span class="p">(</span><span class="n">optimizer</span><span class="o">=</span><span class="bp">self</span><span class="p">,</span> <span class="n">grad_scaler</span><span class="o">=</span><span class="n">grad_scaler</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span>
+
             <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]:</span>
-                <span class="k">if</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                    <span class="k">continue</span>
-                <span class="n">grad</span> <span class="o">=</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">data</span>
-                <span class="k">if</span> <span class="n">grad</span><span class="o">.</span><span class="n">is_sparse</span><span class="p">:</span>
-                    <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span><span class="s1">&#39;Adam does not support sparse gradients, please consider SparseAdam instead&#39;</span><span class="p">)</span>
-                <span class="n">amsgrad</span> <span class="o">=</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;amsgrad&#39;</span><span class="p">]</span>
-
-                <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p</span><span class="p">]</span>
-
-                <span class="c1"># State initialization</span>
-                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">state</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-                    <span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span>
-                    <span class="c1"># Exponential moving average of gradient values</span>
-                    <span class="n">state</span><span class="p">[</span><span class="s1">&#39;exp_avg&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">data</span><span class="p">,</span> <span class="n">memory_format</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">preserve_format</span><span class="p">)</span>
-                    <span class="c1"># Exponential moving average of squared gradient values</span>
-                    <span class="n">state</span><span class="p">[</span><span class="s1">&#39;exp_avg_sq&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">data</span><span class="p">,</span> <span class="n">memory_format</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">preserve_format</span><span class="p">)</span>
-                    <span class="k">if</span> <span class="n">amsgrad</span><span class="p">:</span>
-                        <span class="c1"># Maintains max of all exp. moving avg. of sq. grad. values</span>
-                        <span class="n">state</span><span class="p">[</span><span class="s1">&#39;max_exp_avg_sq&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">data</span><span class="p">,</span> <span class="n">memory_format</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">preserve_format</span><span class="p">)</span>
-
-                <span class="n">exp_avg</span><span class="p">,</span> <span class="n">exp_avg_sq</span> <span class="o">=</span> <span class="n">state</span><span class="p">[</span><span class="s1">&#39;exp_avg&#39;</span><span class="p">],</span> <span class="n">state</span><span class="p">[</span><span class="s1">&#39;exp_avg_sq&#39;</span><span class="p">]</span>
-                <span class="k">if</span> <span class="n">amsgrad</span><span class="p">:</span>
-                    <span class="n">max_exp_avg_sq</span> <span class="o">=</span> <span class="n">state</span><span class="p">[</span><span class="s1">&#39;max_exp_avg_sq&#39;</span><span class="p">]</span>
-                <span class="n">beta1</span><span class="p">,</span> <span class="n">beta2</span> <span class="o">=</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;betas&#39;</span><span class="p">]</span>
-
-                <span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-                <span class="n">bias_correction1</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">beta1</span> <span class="o">**</span> <span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">]</span>
-                <span class="n">bias_correction2</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">beta2</span> <span class="o">**</span> <span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">]</span>
-
-                <span class="k">if</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;weight_decay&#39;</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
-                    <span class="n">grad</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;weight_decay&#39;</span><span class="p">],</span> <span class="n">p</span><span class="o">.</span><span class="n">data</span><span class="p">)</span>
-
-                <span class="c1"># Decay the first and second moment running average coefficient</span>
-                <span class="n">exp_avg</span><span class="o">.</span><span class="n">mul_</span><span class="p">(</span><span class="n">beta1</span><span class="p">)</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta1</span><span class="p">,</span> <span class="n">grad</span><span class="p">)</span>
-                <span class="n">exp_avg_sq</span><span class="o">.</span><span class="n">mul_</span><span class="p">(</span><span class="n">beta2</span><span class="p">)</span><span class="o">.</span><span class="n">addcmul_</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta2</span><span class="p">,</span> <span class="n">grad</span><span class="p">,</span> <span class="n">grad</span><span class="p">)</span>
-                <span class="k">if</span> <span class="n">amsgrad</span><span class="p">:</span>
-                    <span class="c1"># Maintains the maximum of all 2nd moment running avg. till now</span>
-                    <span class="n">torch</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">max_exp_avg_sq</span><span class="p">,</span> <span class="n">exp_avg_sq</span><span class="p">,</span> <span class="n">out</span><span class="o">=</span><span class="n">max_exp_avg_sq</span><span class="p">)</span>
-                    <span class="c1"># Use the max. for normalizing running avg. of gradient</span>
-                    <span class="n">denom</span> <span class="o">=</span> <span class="p">(</span><span class="n">max_exp_avg_sq</span><span class="o">.</span><span class="n">sqrt</span><span class="p">()</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">bias_correction2</span><span class="p">))</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;eps&#39;</span><span class="p">])</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">denom</span> <span class="o">=</span> <span class="p">(</span><span class="n">exp_avg_sq</span><span class="o">.</span><span class="n">sqrt</span><span class="p">()</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">bias_correction2</span><span class="p">))</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;eps&#39;</span><span class="p">])</span>
+                <span class="k">if</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">params_with_grad</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">is_sparse</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span><span class="s1">&#39;Adam does not support sparse gradients, please consider SparseAdam instead&#39;</span><span class="p">)</span>
+                    <span class="n">grads</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="p">)</span>
+
+                    <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p</span><span class="p">]</span>
+                    <span class="c1"># Lazy state initialization</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">state</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                            <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="mi">1</span><span class="p">,),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">p</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">defaults</span><span class="p">[</span><span class="s1">&#39;capturable&#39;</span><span class="p">]</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">defaults</span><span class="p">[</span><span class="s1">&#39;fused&#39;</span><span class="p">]</span>
+                            <span class="k">else</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="mf">0.</span><span class="p">)</span>
+                        <span class="p">)</span>
+                        <span class="c1"># Exponential moving average of gradient values</span>
+                        <span class="n">state</span><span class="p">[</span><span class="s1">&#39;exp_avg&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">memory_format</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">preserve_format</span><span class="p">)</span>
+                        <span class="c1"># Exponential moving average of squared gradient values</span>
+                        <span class="n">state</span><span class="p">[</span><span class="s1">&#39;exp_avg_sq&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">memory_format</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">preserve_format</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;amsgrad&#39;</span><span class="p">]:</span>
+                            <span class="c1"># Maintains max of all exp. moving avg. of sq. grad. values</span>
+                            <span class="n">state</span><span class="p">[</span><span class="s1">&#39;max_exp_avg_sq&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">memory_format</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">preserve_format</span><span class="p">)</span>
+
+                    <span class="n">exp_avgs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;exp_avg&#39;</span><span class="p">])</span>
+                    <span class="n">exp_avg_sqs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;exp_avg_sq&#39;</span><span class="p">])</span>
+
+                    <span class="k">if</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;amsgrad&#39;</span><span class="p">]:</span>
+                        <span class="n">max_exp_avg_sqs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;max_exp_avg_sq&#39;</span><span class="p">])</span>
+                    <span class="k">if</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;differentiable&#39;</span><span class="p">]</span> <span class="ow">and</span> <span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">]</span><span class="o">.</span><span class="n">requires_grad</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span><span class="s1">&#39;`requires_grad` is not supported for `step` in differentiable mode&#39;</span><span class="p">)</span>
+                    <span class="n">state_steps</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">])</span>
+
+            <span class="n">adam</span><span class="p">(</span><span class="n">params_with_grad</span><span class="p">,</span>
+                 <span class="n">grads</span><span class="p">,</span>
+                 <span class="n">exp_avgs</span><span class="p">,</span>
+                 <span class="n">exp_avg_sqs</span><span class="p">,</span>
+                 <span class="n">max_exp_avg_sqs</span><span class="p">,</span>
+                 <span class="n">state_steps</span><span class="p">,</span>
+                 <span class="n">amsgrad</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;amsgrad&#39;</span><span class="p">],</span>
+                 <span class="n">beta1</span><span class="o">=</span><span class="n">beta1</span><span class="p">,</span>
+                 <span class="n">beta2</span><span class="o">=</span><span class="n">beta2</span><span class="p">,</span>
+                 <span class="n">lr</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;lr&#39;</span><span class="p">],</span>
+                 <span class="n">weight_decay</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;weight_decay&#39;</span><span class="p">],</span>
+                 <span class="n">eps</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;eps&#39;</span><span class="p">],</span>
+                 <span class="n">maximize</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;maximize&#39;</span><span class="p">],</span>
+                 <span class="n">foreach</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;foreach&#39;</span><span class="p">],</span>
+                 <span class="n">capturable</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;capturable&#39;</span><span class="p">],</span>
+                 <span class="n">differentiable</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;differentiable&#39;</span><span class="p">],</span>
+                 <span class="n">fused</span><span class="o">=</span><span class="n">group</span><span class="p">[</span><span class="s1">&#39;fused&#39;</span><span class="p">],</span>
+                 <span class="n">grad_scale</span><span class="o">=</span><span class="n">grad_scale</span><span class="p">,</span>
+                 <span class="n">found_inf</span><span class="o">=</span><span class="n">found_inf</span><span class="p">)</span>
 
-                <span class="n">step_size</span> <span class="o">=</span> <span class="n">group</span><span class="p">[</span><span class="s1">&#39;lr&#39;</span><span class="p">]</span> <span class="o">/</span> <span class="n">bias_correction1</span>
+        <span class="k">return</span> <span class="n">loss</span>
 
-                <span class="n">p</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">addcdiv_</span><span class="p">(</span><span class="o">-</span><span class="n">step_size</span><span class="p">,</span> <span class="n">exp_avg</span><span class="p">,</span> <span class="n">denom</span><span class="p">)</span>
 
-        <span class="k">return</span> <span class="n">loss</span>
+<span class="k">def</span> <span class="nf">adam</span><span class="p">(</span><span class="n">params</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+         <span class="n">grads</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+         <span class="n">exp_avgs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+         <span class="n">exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+         <span class="n">max_exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+         <span class="n">state_steps</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+         <span class="c1"># kwonly args with defaults are not supported by functions compiled with torchscript issue #70627</span>
+         <span class="c1"># setting this as kwarg for now as functional API is compiled by torch/distributed/optim</span>
+         <span class="n">foreach</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+         <span class="n">capturable</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+         <span class="n">differentiable</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+         <span class="n">fused</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+         <span class="n">grad_scale</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+         <span class="n">found_inf</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+         <span class="o">*</span><span class="p">,</span>
+         <span class="n">amsgrad</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+         <span class="n">beta1</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+         <span class="n">beta2</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+         <span class="n">lr</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+         <span class="n">weight_decay</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+         <span class="n">eps</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+         <span class="n">maximize</span><span class="p">:</span> <span class="nb">bool</span><span class="p">):</span>
+<span class="w">    </span><span class="sa">r</span><span class="sd">&quot;&quot;&quot;Functional API that performs Adam algorithm computation.</span>
+<span class="sd">    See :class:`~torch.optim.Adam` for details.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">all</span><span class="p">(</span><span class="nb">isinstance</span><span class="p">(</span><span class="n">t</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">state_steps</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span><span class="s2">&quot;API has changed, `state_steps` argument must contain a list of singleton tensors&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">foreach</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="c1"># Placeholder for more complex foreach logic to be added when value is not set</span>
+        <span class="n">foreach</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="k">if</span> <span class="n">foreach</span> <span class="ow">and</span> <span class="n">torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">is_scripting</span><span class="p">():</span>
+        <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span><span class="s1">&#39;torch.jit.script not supported with foreach optimizers&#39;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">foreach</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">is_scripting</span><span class="p">():</span>
+        <span class="n">func</span> <span class="o">=</span> <span class="n">_multi_tensor_adam</span>
+    <span class="k">elif</span> <span class="n">fused</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">is_scripting</span><span class="p">():</span>
+        <span class="n">func</span> <span class="o">=</span> <span class="n">_fused_adam</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">func</span> <span class="o">=</span> <span class="n">_single_tensor_adam</span>
+
+    <span class="n">func</span><span class="p">(</span><span class="n">params</span><span class="p">,</span>
+         <span class="n">grads</span><span class="p">,</span>
+         <span class="n">exp_avgs</span><span class="p">,</span>
+         <span class="n">exp_avg_sqs</span><span class="p">,</span>
+         <span class="n">max_exp_avg_sqs</span><span class="p">,</span>
+         <span class="n">state_steps</span><span class="p">,</span>
+         <span class="n">amsgrad</span><span class="o">=</span><span class="n">amsgrad</span><span class="p">,</span>
+         <span class="n">beta1</span><span class="o">=</span><span class="n">beta1</span><span class="p">,</span>
+         <span class="n">beta2</span><span class="o">=</span><span class="n">beta2</span><span class="p">,</span>
+         <span class="n">lr</span><span class="o">=</span><span class="n">lr</span><span class="p">,</span>
+         <span class="n">weight_decay</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">,</span>
+         <span class="n">eps</span><span class="o">=</span><span class="n">eps</span><span class="p">,</span>
+         <span class="n">maximize</span><span class="o">=</span><span class="n">maximize</span><span class="p">,</span>
+         <span class="n">capturable</span><span class="o">=</span><span class="n">capturable</span><span class="p">,</span>
+         <span class="n">differentiable</span><span class="o">=</span><span class="n">differentiable</span><span class="p">,</span>
+         <span class="n">grad_scale</span><span class="o">=</span><span class="n">grad_scale</span><span class="p">,</span>
+         <span class="n">found_inf</span><span class="o">=</span><span class="n">found_inf</span><span class="p">)</span>
+
+
+<span class="k">def</span> <span class="nf">_single_tensor_adam</span><span class="p">(</span><span class="n">params</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                        <span class="n">grads</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                        <span class="n">exp_avgs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                        <span class="n">exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                        <span class="n">max_exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                        <span class="n">state_steps</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                        <span class="n">grad_scale</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">],</span>
+                        <span class="n">found_inf</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">],</span>
+                        <span class="o">*</span><span class="p">,</span>
+                        <span class="n">amsgrad</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+                        <span class="n">beta1</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                        <span class="n">beta2</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                        <span class="n">lr</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                        <span class="n">weight_decay</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                        <span class="n">eps</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                        <span class="n">maximize</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+                        <span class="n">capturable</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+                        <span class="n">differentiable</span><span class="p">:</span> <span class="nb">bool</span><span class="p">):</span>
+
+    <span class="k">assert</span> <span class="n">grad_scale</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">found_inf</span> <span class="ow">is</span> <span class="kc">None</span>
+
+    <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">param</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">params</span><span class="p">):</span>
+
+        <span class="n">grad</span> <span class="o">=</span> <span class="n">grads</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">maximize</span> <span class="k">else</span> <span class="o">-</span><span class="n">grads</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+        <span class="n">exp_avg</span> <span class="o">=</span> <span class="n">exp_avgs</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+        <span class="n">exp_avg_sq</span> <span class="o">=</span> <span class="n">exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+        <span class="n">step_t</span> <span class="o">=</span> <span class="n">state_steps</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">capturable</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="n">param</span><span class="o">.</span><span class="n">is_cuda</span> <span class="ow">and</span> <span class="n">step_t</span><span class="o">.</span><span class="n">is_cuda</span><span class="p">,</span> <span class="s2">&quot;If capturable=True, params and state_steps must be CUDA tensors.&quot;</span>
+
+        <span class="c1"># update step</span>
+        <span class="n">step_t</span> <span class="o">+=</span> <span class="mi">1</span>
+
+        <span class="k">if</span> <span class="n">weight_decay</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">grad</span> <span class="o">=</span> <span class="n">grad</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">param</span><span class="p">,</span> <span class="n">alpha</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">is_complex</span><span class="p">(</span><span class="n">param</span><span class="p">):</span>
+            <span class="n">grad</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">view_as_real</span><span class="p">(</span><span class="n">grad</span><span class="p">)</span>
+            <span class="n">exp_avg</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">view_as_real</span><span class="p">(</span><span class="n">exp_avg</span><span class="p">)</span>
+            <span class="n">exp_avg_sq</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">view_as_real</span><span class="p">(</span><span class="n">exp_avg_sq</span><span class="p">)</span>
+            <span class="n">param</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">view_as_real</span><span class="p">(</span><span class="n">param</span><span class="p">)</span>
+
+        <span class="c1"># Decay the first and second moment running average coefficient</span>
+        <span class="n">exp_avg</span><span class="o">.</span><span class="n">mul_</span><span class="p">(</span><span class="n">beta1</span><span class="p">)</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="n">grad</span><span class="p">,</span> <span class="n">alpha</span><span class="o">=</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta1</span><span class="p">)</span>
+        <span class="n">exp_avg_sq</span><span class="o">.</span><span class="n">mul_</span><span class="p">(</span><span class="n">beta2</span><span class="p">)</span><span class="o">.</span><span class="n">addcmul_</span><span class="p">(</span><span class="n">grad</span><span class="p">,</span> <span class="n">grad</span><span class="o">.</span><span class="n">conj</span><span class="p">(),</span> <span class="n">value</span><span class="o">=</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta2</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">capturable</span> <span class="ow">or</span> <span class="n">differentiable</span><span class="p">:</span>
+            <span class="n">step</span> <span class="o">=</span> <span class="n">step_t</span>
+
+            <span class="c1"># 1 - beta1 ** step can&#39;t be captured in a CUDA graph, even if step is a CUDA tensor</span>
+            <span class="c1"># (incurs &quot;RuntimeError: CUDA error: operation not permitted when stream is capturing&quot;)</span>
+            <span class="n">bias_correction1</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">torch</span><span class="o">.</span><span class="n">pow</span><span class="p">(</span><span class="n">beta1</span><span class="p">,</span> <span class="n">step</span><span class="p">)</span>
+            <span class="n">bias_correction2</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">torch</span><span class="o">.</span><span class="n">pow</span><span class="p">(</span><span class="n">beta2</span><span class="p">,</span> <span class="n">step</span><span class="p">)</span>
+
+            <span class="n">step_size</span> <span class="o">=</span> <span class="n">lr</span> <span class="o">/</span> <span class="n">bias_correction1</span>
+            <span class="n">step_size_neg</span> <span class="o">=</span> <span class="n">step_size</span><span class="o">.</span><span class="n">neg</span><span class="p">()</span>
+
+            <span class="n">bias_correction2_sqrt</span> <span class="o">=</span> <span class="n">bias_correction2</span><span class="o">.</span><span class="n">sqrt</span><span class="p">()</span>
+
+            <span class="k">if</span> <span class="n">amsgrad</span><span class="p">:</span>
+                <span class="c1"># Maintains the maximum of all 2nd moment running avg. till now</span>
+                <span class="k">if</span> <span class="n">differentiable</span><span class="p">:</span>
+                    <span class="n">max_exp_avg_sqs_i</span> <span class="o">=</span> <span class="n">max_exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">max_exp_avg_sqs_i</span> <span class="o">=</span> <span class="n">max_exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+                <span class="n">max_exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">copy_</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">maximum</span><span class="p">(</span><span class="n">max_exp_avg_sqs_i</span><span class="p">,</span> <span class="n">exp_avg_sq</span><span class="p">))</span>
+                <span class="c1"># Uses the max. for normalizing running avg. of gradient</span>
+                <span class="c1"># Folds in (admittedly ugly) 1-elem step_size math here to avoid extra param-set-sized read+write</span>
+                <span class="c1"># (can&#39;t fold it into addcdiv_ below because addcdiv_ requires value is a Number, not a Tensor)</span>
+                <span class="n">denom</span> <span class="o">=</span> <span class="p">(</span><span class="n">max_exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">sqrt</span><span class="p">()</span> <span class="o">/</span> <span class="p">(</span><span class="n">bias_correction2_sqrt</span> <span class="o">*</span> <span class="n">step_size_neg</span><span class="p">))</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="n">eps</span> <span class="o">/</span> <span class="n">step_size_neg</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">denom</span> <span class="o">=</span> <span class="p">(</span><span class="n">exp_avg_sq</span><span class="o">.</span><span class="n">sqrt</span><span class="p">()</span> <span class="o">/</span> <span class="p">(</span><span class="n">bias_correction2_sqrt</span> <span class="o">*</span> <span class="n">step_size_neg</span><span class="p">))</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="n">eps</span> <span class="o">/</span> <span class="n">step_size_neg</span><span class="p">)</span>
+
+            <span class="n">param</span><span class="o">.</span><span class="n">addcdiv_</span><span class="p">(</span><span class="n">exp_avg</span><span class="p">,</span> <span class="n">denom</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">step</span> <span class="o">=</span> <span class="n">step_t</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+            <span class="n">bias_correction1</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">beta1</span> <span class="o">**</span> <span class="n">step</span>
+            <span class="n">bias_correction2</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">beta2</span> <span class="o">**</span> <span class="n">step</span>
+
+            <span class="n">step_size</span> <span class="o">=</span> <span class="n">lr</span> <span class="o">/</span> <span class="n">bias_correction1</span>
+
+            <span class="n">bias_correction2_sqrt</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">bias_correction2</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">amsgrad</span><span class="p">:</span>
+                <span class="c1"># Maintains the maximum of all 2nd moment running avg. till now</span>
+                <span class="n">torch</span><span class="o">.</span><span class="n">maximum</span><span class="p">(</span><span class="n">max_exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">],</span> <span class="n">exp_avg_sq</span><span class="p">,</span> <span class="n">out</span><span class="o">=</span><span class="n">max_exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+                <span class="c1"># Use the max. for normalizing running avg. of gradient</span>
+                <span class="n">denom</span> <span class="o">=</span> <span class="p">(</span><span class="n">max_exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">sqrt</span><span class="p">()</span> <span class="o">/</span> <span class="n">bias_correction2_sqrt</span><span class="p">)</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="n">eps</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">denom</span> <span class="o">=</span> <span class="p">(</span><span class="n">exp_avg_sq</span><span class="o">.</span><span class="n">sqrt</span><span class="p">()</span> <span class="o">/</span> <span class="n">bias_correction2_sqrt</span><span class="p">)</span><span class="o">.</span><span class="n">add_</span><span class="p">(</span><span class="n">eps</span><span class="p">)</span>
+
+            <span class="n">param</span><span class="o">.</span><span class="n">addcdiv_</span><span class="p">(</span><span class="n">exp_avg</span><span class="p">,</span> <span class="n">denom</span><span class="p">,</span> <span class="n">value</span><span class="o">=-</span><span class="n">step_size</span><span class="p">)</span>
+
+
+<span class="k">def</span> <span class="nf">_multi_tensor_adam</span><span class="p">(</span><span class="n">params</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                       <span class="n">grads</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                       <span class="n">exp_avgs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                       <span class="n">exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                       <span class="n">max_exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                       <span class="n">state_steps</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+                       <span class="n">grad_scale</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">],</span>
+                       <span class="n">found_inf</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">],</span>
+                       <span class="o">*</span><span class="p">,</span>
+                       <span class="n">amsgrad</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+                       <span class="n">beta1</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                       <span class="n">beta2</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                       <span class="n">lr</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                       <span class="n">weight_decay</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                       <span class="n">eps</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+                       <span class="n">maximize</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+                       <span class="n">capturable</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+                       <span class="n">differentiable</span><span class="p">:</span> <span class="nb">bool</span><span class="p">):</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">params</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="k">return</span>
+
+    <span class="k">if</span> <span class="n">capturable</span><span class="p">:</span>
+        <span class="k">assert</span> <span class="nb">all</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">is_cuda</span> <span class="ow">and</span> <span class="n">step</span><span class="o">.</span><span class="n">is_cuda</span> <span class="k">for</span> <span class="n">p</span><span class="p">,</span> <span class="n">step</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">state_steps</span><span class="p">)),</span> \
+            <span class="s2">&quot;If capturable=True, params and state_steps must be CUDA tensors.&quot;</span>
+
+    <span class="k">assert</span> <span class="n">grad_scale</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">found_inf</span> <span class="ow">is</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="n">maximize</span><span class="p">:</span>
+        <span class="n">grads</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_neg</span><span class="p">(</span><span class="nb">tuple</span><span class="p">(</span><span class="n">grads</span><span class="p">))</span>  <span class="c1"># type: ignore[assignment]</span>
+
+    <span class="k">assert</span> <span class="ow">not</span> <span class="n">differentiable</span><span class="p">,</span> <span class="s2">&quot;_foreach ops don&#39;t support autograd&quot;</span>
+    <span class="c1"># Handle complex parameters</span>
+    <span class="n">grads</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">view_as_real</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">is_complex</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">else</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">grads</span><span class="p">]</span>
+    <span class="n">exp_avgs</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">view_as_real</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">is_complex</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">else</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">exp_avgs</span><span class="p">]</span>
+    <span class="n">exp_avg_sqs</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">view_as_real</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">is_complex</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">else</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">exp_avg_sqs</span><span class="p">]</span>
+    <span class="n">params_</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">view_as_real</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">is_complex</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">else</span> <span class="n">x</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">params</span><span class="p">]</span>
+
+    <span class="c1"># update steps</span>
+    <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_add_</span><span class="p">(</span><span class="n">state_steps</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">weight_decay</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_add_</span><span class="p">(</span><span class="n">grads</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">alpha</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">)</span>
+
+    <span class="c1"># Decay the first and second moment running average coefficient</span>
+    <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_mul_</span><span class="p">(</span><span class="n">exp_avgs</span><span class="p">,</span> <span class="n">beta1</span><span class="p">)</span>
+    <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_add_</span><span class="p">(</span><span class="n">exp_avgs</span><span class="p">,</span> <span class="n">grads</span><span class="p">,</span> <span class="n">alpha</span><span class="o">=</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta1</span><span class="p">)</span>
+
+    <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_mul_</span><span class="p">(</span><span class="n">exp_avg_sqs</span><span class="p">,</span> <span class="n">beta2</span><span class="p">)</span>
+    <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_addcmul_</span><span class="p">(</span><span class="n">exp_avg_sqs</span><span class="p">,</span> <span class="n">grads</span><span class="p">,</span> <span class="n">grads</span><span class="p">,</span> <span class="mi">1</span> <span class="o">-</span> <span class="n">beta2</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">capturable</span><span class="p">:</span>
+        <span class="c1"># TODO: use foreach_pow if/when foreach_pow is added</span>
+        <span class="n">bias_correction1</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">pow</span><span class="p">(</span><span class="n">beta1</span><span class="p">,</span> <span class="n">step</span><span class="p">)</span> <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="n">state_steps</span><span class="p">]</span>
+        <span class="n">bias_correction2</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">pow</span><span class="p">(</span><span class="n">beta2</span><span class="p">,</span> <span class="n">step</span><span class="p">)</span> <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="n">state_steps</span><span class="p">]</span>
+        <span class="c1"># foreach_sub doesn&#39;t allow a scalar as the first arg</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_sub_</span><span class="p">(</span><span class="n">bias_correction1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_sub_</span><span class="p">(</span><span class="n">bias_correction2</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_neg_</span><span class="p">(</span><span class="n">bias_correction1</span><span class="p">)</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_neg_</span><span class="p">(</span><span class="n">bias_correction2</span><span class="p">)</span>
+
+        <span class="c1"># foreach_div doesn&#39;t allow a scalar as the first arg</span>
+        <span class="n">step_size</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_div</span><span class="p">(</span><span class="n">bias_correction1</span><span class="p">,</span> <span class="n">lr</span><span class="p">)</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_reciprocal_</span><span class="p">(</span><span class="n">step_size</span><span class="p">)</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_neg_</span><span class="p">(</span><span class="n">step_size</span><span class="p">)</span>
+
+        <span class="n">bias_correction2_sqrt</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_sqrt</span><span class="p">(</span><span class="n">bias_correction2</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">amsgrad</span><span class="p">:</span>
+            <span class="c1"># Maintains the maximum of all 2nd moment running avg. till now</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_maximum_</span><span class="p">(</span><span class="n">max_exp_avg_sqs</span><span class="p">,</span> <span class="n">exp_avg_sqs</span><span class="p">)</span>  <span class="c1"># type: ignore[assignment]</span>
+
+            <span class="c1"># Use the max. for normalizing running avg. of gradient</span>
+            <span class="n">max_exp_avg_sq_sqrt</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_sqrt</span><span class="p">(</span><span class="n">max_exp_avg_sqs</span><span class="p">)</span>
+            <span class="c1"># Folds in (admittedly ugly) 1-elem step_size math here to avoid extra param-set-sized read+write</span>
+            <span class="c1"># (can&#39;t fold it into addcdiv_ below because addcdiv_ requires value is a Number, not a Tensor)</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_div_</span><span class="p">(</span><span class="n">max_exp_avg_sq_sqrt</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_mul</span><span class="p">(</span><span class="n">bias_correction2_sqrt</span><span class="p">,</span> <span class="n">step_size</span><span class="p">))</span>
+            <span class="n">eps_over_step_size</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_div</span><span class="p">(</span><span class="n">step_size</span><span class="p">,</span> <span class="n">eps</span><span class="p">)</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_reciprocal_</span><span class="p">(</span><span class="n">eps_over_step_size</span><span class="p">)</span>
+            <span class="n">denom</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_add</span><span class="p">(</span><span class="n">max_exp_avg_sq_sqrt</span><span class="p">,</span> <span class="n">eps_over_step_size</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">exp_avg_sq_sqrt</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_sqrt</span><span class="p">(</span><span class="n">exp_avg_sqs</span><span class="p">)</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_div_</span><span class="p">(</span><span class="n">exp_avg_sq_sqrt</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_mul</span><span class="p">(</span><span class="n">bias_correction2_sqrt</span><span class="p">,</span> <span class="n">step_size</span><span class="p">))</span>
+            <span class="n">eps_over_step_size</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_div</span><span class="p">(</span><span class="n">step_size</span><span class="p">,</span> <span class="n">eps</span><span class="p">)</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_reciprocal_</span><span class="p">(</span><span class="n">eps_over_step_size</span><span class="p">)</span>
+            <span class="n">denom</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_add</span><span class="p">(</span><span class="n">exp_avg_sq_sqrt</span><span class="p">,</span> <span class="n">eps_over_step_size</span><span class="p">)</span>
+
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_addcdiv_</span><span class="p">(</span><span class="n">params_</span><span class="p">,</span> <span class="n">exp_avgs</span><span class="p">,</span> <span class="n">denom</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">bias_correction1</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta1</span> <span class="o">**</span> <span class="n">step</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="n">state_steps</span><span class="p">]</span>
+        <span class="n">bias_correction2</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta2</span> <span class="o">**</span> <span class="n">step</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="n">state_steps</span><span class="p">]</span>
+
+        <span class="n">step_size</span> <span class="o">=</span> <span class="p">[(</span><span class="n">lr</span> <span class="o">/</span> <span class="n">bc</span><span class="p">)</span> <span class="o">*</span> <span class="o">-</span><span class="mi">1</span> <span class="k">for</span> <span class="n">bc</span> <span class="ow">in</span> <span class="n">bias_correction1</span><span class="p">]</span>
+
+        <span class="n">bias_correction2_sqrt</span> <span class="o">=</span> <span class="p">[</span><span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">bc</span><span class="p">)</span> <span class="k">for</span> <span class="n">bc</span> <span class="ow">in</span> <span class="n">bias_correction2</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">amsgrad</span><span class="p">:</span>
+            <span class="c1"># Maintains the maximum of all 2nd moment running avg. till now</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_maximum_</span><span class="p">(</span><span class="n">max_exp_avg_sqs</span><span class="p">,</span> <span class="n">exp_avg_sqs</span><span class="p">)</span>
+
+            <span class="c1"># Use the max. for normalizing running avg. of gradient</span>
+            <span class="n">max_exp_avg_sq_sqrt</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_sqrt</span><span class="p">(</span><span class="n">max_exp_avg_sqs</span><span class="p">)</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_div_</span><span class="p">(</span><span class="n">max_exp_avg_sq_sqrt</span><span class="p">,</span> <span class="n">bias_correction2_sqrt</span><span class="p">)</span>
+            <span class="n">denom</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_add</span><span class="p">(</span><span class="n">max_exp_avg_sq_sqrt</span><span class="p">,</span> <span class="n">eps</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">exp_avg_sq_sqrt</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_sqrt</span><span class="p">(</span><span class="n">exp_avg_sqs</span><span class="p">)</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_div_</span><span class="p">(</span><span class="n">exp_avg_sq_sqrt</span><span class="p">,</span> <span class="n">bias_correction2_sqrt</span><span class="p">)</span>
+            <span class="n">denom</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_add</span><span class="p">(</span><span class="n">exp_avg_sq_sqrt</span><span class="p">,</span> <span class="n">eps</span><span class="p">)</span>
+
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_addcdiv_</span><span class="p">(</span><span class="n">params_</span><span class="p">,</span> <span class="n">exp_avgs</span><span class="p">,</span> <span class="n">denom</span><span class="p">,</span> <span class="n">step_size</span><span class="p">)</span>
+
+
+<span class="c1"># TODO(crcrpar): Move this to another place when adding another fused optimizer.</span>
+<span class="c1"># TODO(crcrpar): Make this generic when there&#39;s more fused optimizers.</span>
+<span class="c1"># TODO(crcrpar): Think of rewriting this in C++.</span>
+<span class="nd">@torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">()</span>
+<span class="k">def</span> <span class="nf">_group_params_by_device_and_dtype</span><span class="p">(</span>
+    <span class="n">params</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">grads</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">exp_avgs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">max_exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">state_steps</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">dtype</span><span class="p">],</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">]]]:</span>
+    <span class="n">per_device_and_dtype_tensors</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="p">[[]</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">6</span><span class="p">)])</span>
+    <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">step</span><span class="p">)</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="nb">zip</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">state_steps</span><span class="p">)):</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">p</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="n">per_device_and_dtype_tensors</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">per_device_and_dtype_tensors</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">grads</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+        <span class="n">per_device_and_dtype_tensors</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">2</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">exp_avgs</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+        <span class="n">per_device_and_dtype_tensors</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">3</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+        <span class="k">if</span> <span class="n">max_exp_avg_sqs</span><span class="p">:</span>
+            <span class="n">per_device_and_dtype_tensors</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">4</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">max_exp_avg_sqs</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+        <span class="n">per_device_and_dtype_tensors</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">5</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">step</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">per_device_and_dtype_tensors</span>
+
+
+<span class="k">def</span> <span class="nf">_fused_adam</span><span class="p">(</span>
+    <span class="n">params</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">grads</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">exp_avgs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">max_exp_avg_sqs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">state_steps</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">],</span>
+    <span class="n">grad_scale</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">],</span>
+    <span class="n">found_inf</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">_MultiDeviceReplicator</span><span class="p">],</span>
+    <span class="o">*</span><span class="p">,</span>
+    <span class="n">amsgrad</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+    <span class="n">beta1</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+    <span class="n">beta2</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+    <span class="n">lr</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+    <span class="n">weight_decay</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+    <span class="n">eps</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+    <span class="n">maximize</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+    <span class="n">capturable</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>  <span class="c1"># Needed for consistency.</span>
+    <span class="n">differentiable</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+    <span class="n">grouped_tensors</span> <span class="o">=</span> <span class="n">_group_params_by_device_and_dtype</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">grads</span><span class="p">,</span> <span class="n">exp_avgs</span><span class="p">,</span> <span class="n">exp_avg_sqs</span><span class="p">,</span> <span class="n">max_exp_avg_sqs</span><span class="p">,</span> <span class="n">state_steps</span><span class="p">)</span>
+    <span class="k">for</span> <span class="p">(</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="p">)</span> <span class="ow">in</span> <span class="n">grouped_tensors</span><span class="p">:</span>
+        <span class="p">(</span>
+            <span class="n">device_params</span><span class="p">,</span>
+            <span class="n">device_grads</span><span class="p">,</span>
+            <span class="n">device_exp_avgs</span><span class="p">,</span>
+            <span class="n">device_exp_avg_sqs</span><span class="p">,</span>
+            <span class="n">device_max_exp_avg_sqs</span><span class="p">,</span>
+            <span class="n">device_state_steps</span><span class="p">,</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="n">grouped_tensors</span><span class="p">[(</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="p">)]</span>
+        <span class="k">if</span> <span class="n">grad_scale</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">found_inf</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">device_grad_scale</span> <span class="o">=</span> <span class="n">grad_scale</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
+            <span class="n">device_found_inf</span> <span class="o">=</span> <span class="n">found_inf</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">device_grad_scale</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">device_found_inf</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_add_</span><span class="p">(</span><span class="n">device_state_steps</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">_fused_adam_</span><span class="p">(</span>
+            <span class="n">device_params</span><span class="p">,</span>
+            <span class="n">device_grads</span><span class="p">,</span>
+            <span class="n">device_exp_avgs</span><span class="p">,</span>
+            <span class="n">device_exp_avg_sqs</span><span class="p">,</span>
+            <span class="n">device_max_exp_avg_sqs</span><span class="p">,</span>
+            <span class="n">device_state_steps</span><span class="p">,</span>
+            <span class="n">amsgrad</span><span class="o">=</span><span class="n">amsgrad</span><span class="p">,</span>
+            <span class="n">lr</span><span class="o">=</span><span class="n">lr</span><span class="p">,</span>
+            <span class="n">beta1</span><span class="o">=</span><span class="n">beta1</span><span class="p">,</span>
+            <span class="n">beta2</span><span class="o">=</span><span class="n">beta2</span><span class="p">,</span>
+            <span class="n">weight_decay</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="n">eps</span><span class="p">,</span>
+            <span class="n">maximize</span><span class="o">=</span><span class="n">maximize</span><span class="p">,</span>
+            <span class="n">grad_scale</span><span class="o">=</span><span class="n">device_grad_scale</span><span class="p">,</span>
+            <span class="n">found_inf</span><span class="o">=</span><span class="n">device_found_inf</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">device_found_inf</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">_foreach_sub_</span><span class="p">(</span><span class="n">device_state_steps</span><span class="p">,</span> <span class="p">[</span><span class="n">device_found_inf</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">device_state_steps</span><span class="p">))</span>
 </pre></div>
 
            </div>
diff --git a/docs/_sources/generated_docs/README.md.txt b/docs/_sources/generated_docs/README.md.txt
index 0f0954bb..07e79d39 100644
--- a/docs/_sources/generated_docs/README.md.txt
+++ b/docs/_sources/generated_docs/README.md.txt
@@ -2,7 +2,7 @@
 
 # TabNet : Attentive Interpretable Tabular Learning
 
-This is a pyTorch implementation of Tabnet (Arik, S. O., & Pfister, T. (2019). TabNet: Attentive Interpretable Tabular Learning. arXiv preprint arXiv:1908.07442.) https://arxiv.org/pdf/1908.07442.pdf.
+This is a pyTorch implementation of Tabnet (Arik, S. O., & Pfister, T. (2019). TabNet: Attentive Interpretable Tabular Learning. arXiv preprint arXiv:1908.07442.) https://arxiv.org/pdf/1908.07442.pdf. Please note that some different choices have been made overtime to improve the library which can differ from the orginal paper.
 
 <!--- BADGES: START --->
 [![CircleCI](https://circleci.com/gh/dreamquark-ai/tabnet.svg?style=svg)](https://circleci.com/gh/dreamquark-ai/tabnet)
@@ -68,6 +68,10 @@ If you wan to use it locally within a docker container:
 
 - `make notebook` inside the same terminal. You can then follow the link to a jupyter notebook with tabnet installed.
 
+# What is new ?
+
+- from version **> 4.0** attention is now embedding aware. This aims to maintain a good attention mechanism even with large number of embedding. It is also now possible to specify attention groups (using `grouped_features`). Attention is now done at the group level and not feature level. This is especially useful if a dataset has a lot of columns coming from on single source of data (exemple: a text column transformed using TD-IDF).
+
 # Contributing
 
 When contributing to the TabNet repository, please make sure to first discuss the change you wish to make via a new or already existing issue.
@@ -316,6 +320,12 @@ loaded_clf.load_model(saved_filepath)
 - `mask_type: str` (default='sparsemax')
     Either "sparsemax" or "entmax" : this is the masking function to use for selecting features.
 
+- `grouped_features: list of list of ints` (default=None)
+    This allows the model to share it's attention accross feature inside a same group.
+    This can be especially useful when your preprocessing generates correlated or dependant features: like if you use a TF-IDF or a PCA on a text column.
+    Note that feature importance will be exactly the same between features on a same group.
+    Please also note that embeddings generated for a categorical variable are always inside a same group. 
+
 - `n_shared_decoder` : int (default=1)
 
     Number of shared GLU block in decoder, this is only useful for `TabNetPretrainer`.
@@ -326,7 +336,7 @@ loaded_clf.load_model(saved_filepath)
 
 ## Fit parameters
 
-- `X_train` : np.array
+- `X_train` : np.array or scipy.sparse.csr_matrix
 
     Training features
 
@@ -401,3 +411,7 @@ loaded_clf.load_model(saved_filepath)
 - `warm_start` : bool (default=False)
     In order to match scikit-learn API, this is set to False.
     It allows to fit twice the same model and start from a warm start.
+
+- `compute_importance` : bool (default=True)
+
+    Whether to compute feature importance
diff --git a/docs/generated_docs/README.html b/docs/generated_docs/README.html
index f6deca28..8e019dd5 100644
--- a/docs/generated_docs/README.html
+++ b/docs/generated_docs/README.html
@@ -98,6 +98,7 @@
 </li>
 </ul>
 </li>
+<li class="toctree-l1"><a class="reference internal" href="#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="#how-to-use-it">How to use it?</a><ul>
@@ -184,7 +185,7 @@ <h1>README<a class="headerlink" href="#readme" title="Permalink to this headline
 </section>
 <section id="tabnet-attentive-interpretable-tabular-learning">
 <h1>TabNet : Attentive Interpretable Tabular Learning<a class="headerlink" href="#tabnet-attentive-interpretable-tabular-learning" title="Permalink to this headline">¶</a></h1>
-<p>This is a pyTorch implementation of Tabnet (Arik, S. O., &amp; Pfister, T. (2019). TabNet: Attentive Interpretable Tabular Learning. arXiv preprint arXiv:1908.07442.) https://arxiv.org/pdf/1908.07442.pdf.</p>
+<p>This is a pyTorch implementation of Tabnet (Arik, S. O., &amp; Pfister, T. (2019). TabNet: Attentive Interpretable Tabular Learning. arXiv preprint arXiv:1908.07442.) https://arxiv.org/pdf/1908.07442.pdf. Please note that some different choices have been made overtime to improve the library which can differ from the orginal paper.</p>
 <!--- BADGES: START ---><p><a class="reference external" href="https://circleci.com/gh/dreamquark-ai/tabnet"><img alt="CircleCI" src="https://circleci.com/gh/dreamquark-ai/tabnet.svg?style=svg" /></a></p>
 <p><a class="reference external" href="https://badge.fury.io/py/pytorch-tabnet"><img alt="PyPI version" src="https://badge.fury.io/py/pytorch-tabnet.svg" /></a></p>
 <p><img alt="PyPI - Downloads" src="https://img.shields.io/pypi/dm/pytorch-tabnet" /></p>
@@ -200,11 +201,11 @@ <h1>Installation<a class="headerlink" href="#installation" title="Permalink to t
 <h2>Easy installation<a class="headerlink" href="#easy-installation" title="Permalink to this headline">¶</a></h2>
 <p>You can install using <code class="docutils literal notranslate"><span class="pre">pip</span></code> or <code class="docutils literal notranslate"><span class="pre">conda</span></code> as follows.</p>
 <p><strong>with pip</strong></p>
-<div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>pip install pytorch-tabnet
+<div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>pip<span class="w"> </span>install<span class="w"> </span>pytorch-tabnet
 </pre></div>
 </div>
 <p><strong>with conda</strong></p>
-<div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>conda install -c conda-forge pytorch-tabnet
+<div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>conda<span class="w"> </span>install<span class="w"> </span>-c<span class="w"> </span>conda-forge<span class="w"> </span>pytorch-tabnet
 </pre></div>
 </div>
 </section>
@@ -235,6 +236,12 @@ <h3>GPU<a class="headerlink" href="#gpu" title="Permalink to this headline">¶</
 </section>
 </section>
 </section>
+<section id="what-is-new">
+<h1>What is new ?<a class="headerlink" href="#what-is-new" title="Permalink to this headline">¶</a></h1>
+<ul class="simple">
+<li><p>from version <strong>&gt; 4.0</strong> attention is now embedding aware. This aims to maintain a good attention mechanism even with large number of embedding. It is also now possible to specify attention groups (using <code class="docutils literal notranslate"><span class="pre">grouped_features</span></code>). Attention is now done at the group level and not feature level. This is especially useful if a dataset has a lot of columns coming from on single source of data (exemple: a text column transformed using TD-IDF).</p></li>
+</ul>
+</section>
 <section id="contributing">
 <h1>Contributing<a class="headerlink" href="#contributing" title="Permalink to this headline">¶</a></h1>
 <p>When contributing to the TabNet repository, please make sure to first discuss the change you wish to make via a new or already existing issue.</p>
@@ -451,6 +458,11 @@ <h2>Model parameters<a class="headerlink" href="#model-parameters" title="Permal
 ‘cpu’ for cpu training, ‘gpu’ for gpu training, ‘auto’ to automatically detect gpu.</p></li>
 <li><p><code class="docutils literal notranslate"><span class="pre">mask_type:</span> <span class="pre">str</span></code> (default=’sparsemax’)
 Either “sparsemax” or “entmax” : this is the masking function to use for selecting features.</p></li>
+<li><p><code class="docutils literal notranslate"><span class="pre">grouped_features:</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">ints</span></code> (default=None)
+This allows the model to share it’s attention accross feature inside a same group.
+This can be especially useful when your preprocessing generates correlated or dependant features: like if you use a TF-IDF or a PCA on a text column.
+Note that feature importance will be exactly the same between features on a same group.
+Please also note that embeddings generated for a categorical variable are always inside a same group.</p></li>
 <li><p><code class="docutils literal notranslate"><span class="pre">n_shared_decoder</span></code> : int (default=1)</p>
 <p>Number of shared GLU block in decoder, this is only useful for <code class="docutils literal notranslate"><span class="pre">TabNetPretrainer</span></code>.</p>
 </li>
@@ -462,7 +474,7 @@ <h2>Model parameters<a class="headerlink" href="#model-parameters" title="Permal
 <section id="fit-parameters">
 <h2>Fit parameters<a class="headerlink" href="#fit-parameters" title="Permalink to this headline">¶</a></h2>
 <ul>
-<li><p><code class="docutils literal notranslate"><span class="pre">X_train</span></code> : np.array</p>
+<li><p><code class="docutils literal notranslate"><span class="pre">X_train</span></code> : np.array or scipy.sparse.csr_matrix</p>
 <p>Training features</p>
 </li>
 <li><p><code class="docutils literal notranslate"><span class="pre">y_train</span></code> : np.array</p>
@@ -517,6 +529,9 @@ <h2>Fit parameters<a class="headerlink" href="#fit-parameters" title="Permalink
 <li><p><code class="docutils literal notranslate"><span class="pre">warm_start</span></code> : bool (default=False)
 In order to match scikit-learn API, this is set to False.
 It allows to fit twice the same model and start from a warm start.</p></li>
+<li><p><code class="docutils literal notranslate"><span class="pre">compute_importance</span></code> : bool (default=True)</p>
+<p>Whether to compute feature importance</p>
+</li>
 </ul>
 </section>
 </section>
diff --git a/docs/generated_docs/pytorch_tabnet.html b/docs/generated_docs/pytorch_tabnet.html
index 2aefc158..376f57dc 100644
--- a/docs/generated_docs/pytorch_tabnet.html
+++ b/docs/generated_docs/pytorch_tabnet.html
@@ -89,6 +89,7 @@
 <li class="toctree-l1"><a class="reference internal" href="README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="README.html#how-to-use-it">How to use it?</a></li>
@@ -190,8 +191,8 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>X_train</strong> (<em>np.ndarray</em>) – Training data</p></li>
-<li><p><strong>eval_set</strong> (<em>list of np.array</em>) – List of eval sets</p></li>
+<li><p><strong>X_train</strong> (<em>np.ndarray</em><em> or </em><em>scipy.sparse.csr_matrix</em>) – Training data</p></li>
+<li><p><strong>eval_set</strong> (<em>list of np.array</em><em> (</em><em>for Xs and ys</em><em>) or </em><em>scipy.sparse.csr_matrix</em><em> (</em><em>for Xs</em><em>)</em>) – List of eval sets</p></li>
 <li><p><strong>weights</strong> (<em>either 0</em><em>, </em><em>1</em><em>, </em><em>dict</em><em> or </em><em>iterable</em>) – <p>if 0 (default) : no weights will be applied
 if 1 : classification only, will balanced class with inverse frequency
 if dict : keys are corresponding class values are sample weights
@@ -266,7 +267,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <span id="pytorch-tabnet-tab-network-module"></span><h2>pytorch_tabnet.tab_network module<a class="headerlink" href="#module-pytorch_tabnet.tab_network" title="Permalink to this headline">¶</a></h2>
 <dl class="class">
 <dt id="pytorch_tabnet.tab_network.AttentiveTransformer">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">AttentiveTransformer</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">output_dim</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#AttentiveTransformer"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.AttentiveTransformer" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">AttentiveTransformer</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">group_dim</em>, <em class="sig-param">group_matrix</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#AttentiveTransformer"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.AttentiveTransformer" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
 <dl class="method">
 <dt id="pytorch_tabnet.tab_network.AttentiveTransformer.forward">
@@ -282,11 +283,16 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </div>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.AttentiveTransformer.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.AttentiveTransformer.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.tab_network.EmbeddingGenerator">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">EmbeddingGenerator</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">cat_dims</em>, <em class="sig-param">cat_idxs</em>, <em class="sig-param">cat_emb_dim</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#EmbeddingGenerator"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.EmbeddingGenerator" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">EmbeddingGenerator</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">cat_dims</em>, <em class="sig-param">cat_idxs</em>, <em class="sig-param">cat_emb_dims</em>, <em class="sig-param">group_matrix</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#EmbeddingGenerator"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.EmbeddingGenerator" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
 <p>Classical embeddings generator</p>
 <dl class="method">
@@ -297,6 +303,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 Outputs will be of size (batch_size, self.post_embed_dim)</p>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.EmbeddingGenerator.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.EmbeddingGenerator.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
@@ -317,6 +328,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </div>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.FeatTransformer.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.FeatTransformer.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
@@ -339,6 +355,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </div>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.GBN.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.GBN.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
@@ -360,6 +381,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </div>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.GLU_Block.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.GLU_Block.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
@@ -380,13 +406,19 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </div>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.GLU_Layer.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.GLU_Layer.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.tab_network.RandomObfuscator">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">RandomObfuscator</code><span class="sig-paren">(</span><em class="sig-param">pretraining_ratio</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#RandomObfuscator"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.RandomObfuscator" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">RandomObfuscator</code><span class="sig-paren">(</span><em class="sig-param">pretraining_ratio</em>, <em class="sig-param">group_matrix</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#RandomObfuscator"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.RandomObfuscator" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
-<p>Create and applies obfuscation masks</p>
+<p>Create and applies obfuscation masks.
+The obfuscation is done at group level to match attention.</p>
 <dl class="method">
 <dt id="pytorch_tabnet.tab_network.RandomObfuscator.forward">
 <code class="sig-name descname">forward</code><span class="sig-paren">(</span><em class="sig-param">x</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#RandomObfuscator.forward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.RandomObfuscator.forward" title="Permalink to this definition">¶</a></dt>
@@ -401,11 +433,16 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </dl>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.RandomObfuscator.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.RandomObfuscator.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.tab_network.TabNet">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">TabNet</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">output_dim</em>, <em class="sig-param">n_d=8</em>, <em class="sig-param">n_a=8</em>, <em class="sig-param">n_steps=3</em>, <em class="sig-param">gamma=1.3</em>, <em class="sig-param">cat_idxs=[]</em>, <em class="sig-param">cat_dims=[]</em>, <em class="sig-param">cat_emb_dim=1</em>, <em class="sig-param">n_independent=2</em>, <em class="sig-param">n_shared=2</em>, <em class="sig-param">epsilon=1e-15</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNet"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNet" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">TabNet</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">output_dim</em>, <em class="sig-param">n_d=8</em>, <em class="sig-param">n_a=8</em>, <em class="sig-param">n_steps=3</em>, <em class="sig-param">gamma=1.3</em>, <em class="sig-param">cat_idxs=[]</em>, <em class="sig-param">cat_dims=[]</em>, <em class="sig-param">cat_emb_dim=1</em>, <em class="sig-param">n_independent=2</em>, <em class="sig-param">n_shared=2</em>, <em class="sig-param">epsilon=1e-15</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em>, <em class="sig-param">group_attention_matrix=[]</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNet"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNet" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
 <dl class="method">
 <dt id="pytorch_tabnet.tab_network.TabNet.forward">
@@ -426,6 +463,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <code class="sig-name descname">forward_masks</code><span class="sig-paren">(</span><em class="sig-param">x</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNet.forward_masks"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNet.forward_masks" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.TabNet.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNet.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
@@ -446,11 +488,16 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </div>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.TabNetDecoder.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetDecoder.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.tab_network.TabNetEncoder">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">TabNetEncoder</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">output_dim</em>, <em class="sig-param">n_d=8</em>, <em class="sig-param">n_a=8</em>, <em class="sig-param">n_steps=3</em>, <em class="sig-param">gamma=1.3</em>, <em class="sig-param">n_independent=2</em>, <em class="sig-param">n_shared=2</em>, <em class="sig-param">epsilon=1e-15</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetEncoder"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetEncoder" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">TabNetEncoder</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">output_dim</em>, <em class="sig-param">n_d=8</em>, <em class="sig-param">n_a=8</em>, <em class="sig-param">n_steps=3</em>, <em class="sig-param">gamma=1.3</em>, <em class="sig-param">n_independent=2</em>, <em class="sig-param">n_shared=2</em>, <em class="sig-param">epsilon=1e-15</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em>, <em class="sig-param">group_attention_matrix=None</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetEncoder"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetEncoder" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
 <dl class="method">
 <dt id="pytorch_tabnet.tab_network.TabNetEncoder.forward">
@@ -471,11 +518,16 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <code class="sig-name descname">forward_masks</code><span class="sig-paren">(</span><em class="sig-param">x</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetEncoder.forward_masks"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetEncoder.forward_masks" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.TabNetEncoder.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetEncoder.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.tab_network.TabNetNoEmbeddings">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">TabNetNoEmbeddings</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">output_dim</em>, <em class="sig-param">n_d=8</em>, <em class="sig-param">n_a=8</em>, <em class="sig-param">n_steps=3</em>, <em class="sig-param">gamma=1.3</em>, <em class="sig-param">n_independent=2</em>, <em class="sig-param">n_shared=2</em>, <em class="sig-param">epsilon=1e-15</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetNoEmbeddings"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetNoEmbeddings" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">TabNetNoEmbeddings</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">output_dim</em>, <em class="sig-param">n_d=8</em>, <em class="sig-param">n_a=8</em>, <em class="sig-param">n_steps=3</em>, <em class="sig-param">gamma=1.3</em>, <em class="sig-param">n_independent=2</em>, <em class="sig-param">n_shared=2</em>, <em class="sig-param">epsilon=1e-15</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em>, <em class="sig-param">group_attention_matrix=None</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetNoEmbeddings"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetNoEmbeddings" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
 <dl class="method">
 <dt id="pytorch_tabnet.tab_network.TabNetNoEmbeddings.forward">
@@ -496,11 +548,16 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <code class="sig-name descname">forward_masks</code><span class="sig-paren">(</span><em class="sig-param">x</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetNoEmbeddings.forward_masks"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetNoEmbeddings.forward_masks" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.TabNetNoEmbeddings.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetNoEmbeddings.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.tab_network.TabNetPretraining">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">TabNetPretraining</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">pretraining_ratio=0.2</em>, <em class="sig-param">n_d=8</em>, <em class="sig-param">n_a=8</em>, <em class="sig-param">n_steps=3</em>, <em class="sig-param">gamma=1.3</em>, <em class="sig-param">cat_idxs=[]</em>, <em class="sig-param">cat_dims=[]</em>, <em class="sig-param">cat_emb_dim=1</em>, <em class="sig-param">n_independent=2</em>, <em class="sig-param">n_shared=2</em>, <em class="sig-param">epsilon=1e-15</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em>, <em class="sig-param">n_shared_decoder=1</em>, <em class="sig-param">n_indep_decoder=1</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetPretraining"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetPretraining" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_network.</code><code class="sig-name descname">TabNetPretraining</code><span class="sig-paren">(</span><em class="sig-param">input_dim</em>, <em class="sig-param">pretraining_ratio=0.2</em>, <em class="sig-param">n_d=8</em>, <em class="sig-param">n_a=8</em>, <em class="sig-param">n_steps=3</em>, <em class="sig-param">gamma=1.3</em>, <em class="sig-param">cat_idxs=[]</em>, <em class="sig-param">cat_dims=[]</em>, <em class="sig-param">cat_emb_dim=1</em>, <em class="sig-param">n_independent=2</em>, <em class="sig-param">n_shared=2</em>, <em class="sig-param">epsilon=1e-15</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">momentum=0.02</em>, <em class="sig-param">mask_type='sparsemax'</em>, <em class="sig-param">n_shared_decoder=1</em>, <em class="sig-param">n_indep_decoder=1</em>, <em class="sig-param">group_attention_matrix=None</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetPretraining"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetPretraining" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
 <dl class="method">
 <dt id="pytorch_tabnet.tab_network.TabNetPretraining.forward">
@@ -518,6 +575,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <code class="sig-name descname">forward_masks</code><span class="sig-paren">(</span><em class="sig-param">x</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_network.html#TabNetPretraining.forward_masks"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetPretraining.forward_masks" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_network.TabNetPretraining.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_network.TabNetPretraining.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="function">
@@ -637,7 +699,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dt id="pytorch_tabnet.metrics.RMSLE">
 <em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.metrics.</code><code class="sig-name descname">RMSLE</code><a class="reference internal" href="../_modules/pytorch_tabnet/metrics.html#RMSLE"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.metrics.RMSLE" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="#pytorch_tabnet.metrics.Metric" title="pytorch_tabnet.metrics.Metric"><code class="xref py py-class docutils literal notranslate"><span class="pre">pytorch_tabnet.metrics.Metric</span></code></a></p>
-<p>Mean squared logarithmic error regression loss.
+<p>Root Mean squared logarithmic error regression loss.
 Scikit-implementation:
 <a class="reference external" href="https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html">https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html</a>
 Note: In order to avoid error, negative predictions are clipped to 0.
@@ -738,7 +800,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <span id="pytorch-tabnet-tab-model-module"></span><h2>pytorch_tabnet.tab_model module<a class="headerlink" href="#module-pytorch_tabnet.tab_model" title="Permalink to this headline">¶</a></h2>
 <dl class="class">
 <dt id="pytorch_tabnet.tab_model.TabNetClassifier">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_model.</code><code class="sig-name descname">TabNetClassifier</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_model.html#TabNetClassifier"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_model.TabNetClassifier" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_model.</code><code class="sig-name descname">TabNetClassifier</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em>, <em class="sig-param">grouped_features: List[List[int]] = &lt;factory&gt;</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_model.html#TabNetClassifier"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_model.TabNetClassifier" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="#pytorch_tabnet.abstract_model.TabModel" title="pytorch_tabnet.abstract_model.TabModel"><code class="xref py py-class docutils literal notranslate"><span class="pre">pytorch_tabnet.abstract_model.TabModel</span></code></a></p>
 <dl class="attribute">
 <dt id="pytorch_tabnet.tab_model.TabNetClassifier.cat_dims">
@@ -770,6 +832,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </dl>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_model.TabNetClassifier.grouped_features">
+<code class="sig-name descname">grouped_features</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_model.TabNetClassifier.grouped_features" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 <dl class="attribute">
 <dt id="pytorch_tabnet.tab_model.TabNetClassifier.optimizer_params">
 <code class="sig-name descname">optimizer_params</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_model.TabNetClassifier.optimizer_params" title="Permalink to this definition">¶</a></dt>
@@ -786,7 +853,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dd><p>Make predictions for classification on a batch (valid)</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite>) – Input data</p>
+<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite> or matrix: <cite>scipy.sparse.csr_matrix</cite>) – Input data</p>
 </dd>
 <dt class="field-even">Returns</dt>
 <dd class="field-even"><p><strong>res</strong></p>
@@ -862,7 +929,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 
 <dl class="class">
 <dt id="pytorch_tabnet.tab_model.TabNetRegressor">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_model.</code><code class="sig-name descname">TabNetRegressor</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_model.html#TabNetRegressor"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_model.TabNetRegressor" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.tab_model.</code><code class="sig-name descname">TabNetRegressor</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em>, <em class="sig-param">grouped_features: List[List[int]] = &lt;factory&gt;</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/tab_model.html#TabNetRegressor"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.tab_model.TabNetRegressor" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="#pytorch_tabnet.abstract_model.TabModel" title="pytorch_tabnet.abstract_model.TabModel"><code class="xref py py-class docutils literal notranslate"><span class="pre">pytorch_tabnet.abstract_model.TabModel</span></code></a></p>
 <dl class="attribute">
 <dt id="pytorch_tabnet.tab_model.TabNetRegressor.cat_dims">
@@ -894,6 +961,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </dl>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.tab_model.TabNetRegressor.grouped_features">
+<code class="sig-name descname">grouped_features</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_model.TabNetRegressor.grouped_features" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 <dl class="attribute">
 <dt id="pytorch_tabnet.tab_model.TabNetRegressor.optimizer_params">
 <code class="sig-name descname">optimizer_params</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.tab_model.TabNetRegressor.optimizer_params" title="Permalink to this definition">¶</a></dt>
@@ -971,11 +1043,16 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </div>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.sparsemax.Entmax15.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.sparsemax.Entmax15.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.sparsemax.Entmax15Function">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.sparsemax.</code><code class="sig-name descname">Entmax15Function</code><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#Entmax15Function"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.Entmax15Function" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.sparsemax.</code><code class="sig-name descname">Entmax15Function</code><span class="sig-paren">(</span><em class="sig-param">*args</em>, <em class="sig-param">**kwargs</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#Entmax15Function"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.Entmax15Function" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.autograd.function.Function</span></code></p>
 <p>An implementation of exact Entmax with alpha=1.5 (B. Peters, V. Niculae, A. Martins). See
 :cite:<a href="#id1"><span class="problematic" id="id2">`</span></a><a class="reference external" href="https://arxiv.org/abs/1905.05702">https://arxiv.org/abs/1905.05702</a> for detailed description.
@@ -983,13 +1060,17 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dl class="method">
 <dt id="pytorch_tabnet.sparsemax.Entmax15Function.backward">
 <em class="property">static </em><code class="sig-name descname">backward</code><span class="sig-paren">(</span><em class="sig-param">ctx</em>, <em class="sig-param">grad_output</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#Entmax15Function.backward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.Entmax15Function.backward" title="Permalink to this definition">¶</a></dt>
-<dd><p>Defines a formula for differentiating the operation.</p>
+<dd><p>Defines a formula for differentiating the operation with backward mode
+automatic differentiation (alias to the vjp function).</p>
 <p>This function is to be overridden by all subclasses.</p>
 <p>It must accept a context <code class="xref py py-attr docutils literal notranslate"><span class="pre">ctx</span></code> as the first argument, followed by
-as many outputs did <a class="reference internal" href="#pytorch_tabnet.sparsemax.Entmax15Function.forward" title="pytorch_tabnet.sparsemax.Entmax15Function.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a> return, and it should return as many
-tensors, as there were inputs to <a class="reference internal" href="#pytorch_tabnet.sparsemax.Entmax15Function.forward" title="pytorch_tabnet.sparsemax.Entmax15Function.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a>. Each argument is the
-gradient w.r.t the given output, and each returned value should be the
-gradient w.r.t. the corresponding input.</p>
+as many outputs as the <a class="reference internal" href="#pytorch_tabnet.sparsemax.Entmax15Function.forward" title="pytorch_tabnet.sparsemax.Entmax15Function.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a> returned (None will be passed in
+for non tensor outputs of the forward function),
+and it should return as many tensors, as there were inputs to
+<a class="reference internal" href="#pytorch_tabnet.sparsemax.Entmax15Function.forward" title="pytorch_tabnet.sparsemax.Entmax15Function.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a>. Each argument is the gradient w.r.t the given output,
+and each returned value should be the gradient w.r.t. the
+corresponding input. If an input is not a Tensor or is a Tensor not
+requiring grads, you can just pass None as a gradient for that input.</p>
 <p>The context can be used to retrieve tensors saved during the forward
 pass. It also has an attribute <code class="xref py py-attr docutils literal notranslate"><span class="pre">ctx.needs_input_grad</span></code> as a tuple
 of booleans representing whether each input needs gradient. E.g.,
@@ -1005,27 +1086,36 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <p>This function is to be overridden by all subclasses.</p>
 <p>It must accept a context ctx as the first argument, followed by any
 number of arguments (tensors or other types).</p>
-<p>The context can be used to store tensors that can be then retrieved
-during the backward pass.</p>
+<p>The context can be used to store arbitrary data that can be then
+retrieved during the backward pass. Tensors should not be stored
+directly on <cite>ctx</cite> (though this is not currently enforced for
+backward compatibility). Instead, tensors should be saved either with
+<code class="xref py py-func docutils literal notranslate"><span class="pre">ctx.save_for_backward()</span></code> if they are intended to be used in
+<code class="docutils literal notranslate"><span class="pre">backward</span></code> (equivalently, <code class="docutils literal notranslate"><span class="pre">vjp</span></code>) or <code class="xref py py-func docutils literal notranslate"><span class="pre">ctx.save_for_forward()</span></code>
+if they are intended to be used for in <code class="docutils literal notranslate"><span class="pre">jvp</span></code>.</p>
 </dd></dl>
 
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.sparsemax.Entmoid15">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.sparsemax.</code><code class="sig-name descname">Entmoid15</code><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#Entmoid15"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.Entmoid15" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.sparsemax.</code><code class="sig-name descname">Entmoid15</code><span class="sig-paren">(</span><em class="sig-param">*args</em>, <em class="sig-param">**kwargs</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#Entmoid15"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.Entmoid15" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.autograd.function.Function</span></code></p>
 <p>A highly optimized equivalent of lambda x: Entmax15([x, 0])</p>
 <dl class="method">
 <dt id="pytorch_tabnet.sparsemax.Entmoid15.backward">
 <em class="property">static </em><code class="sig-name descname">backward</code><span class="sig-paren">(</span><em class="sig-param">ctx</em>, <em class="sig-param">grad_output</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#Entmoid15.backward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.Entmoid15.backward" title="Permalink to this definition">¶</a></dt>
-<dd><p>Defines a formula for differentiating the operation.</p>
+<dd><p>Defines a formula for differentiating the operation with backward mode
+automatic differentiation (alias to the vjp function).</p>
 <p>This function is to be overridden by all subclasses.</p>
 <p>It must accept a context <code class="xref py py-attr docutils literal notranslate"><span class="pre">ctx</span></code> as the first argument, followed by
-as many outputs did <a class="reference internal" href="#pytorch_tabnet.sparsemax.Entmoid15.forward" title="pytorch_tabnet.sparsemax.Entmoid15.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a> return, and it should return as many
-tensors, as there were inputs to <a class="reference internal" href="#pytorch_tabnet.sparsemax.Entmoid15.forward" title="pytorch_tabnet.sparsemax.Entmoid15.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a>. Each argument is the
-gradient w.r.t the given output, and each returned value should be the
-gradient w.r.t. the corresponding input.</p>
+as many outputs as the <a class="reference internal" href="#pytorch_tabnet.sparsemax.Entmoid15.forward" title="pytorch_tabnet.sparsemax.Entmoid15.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a> returned (None will be passed in
+for non tensor outputs of the forward function),
+and it should return as many tensors, as there were inputs to
+<a class="reference internal" href="#pytorch_tabnet.sparsemax.Entmoid15.forward" title="pytorch_tabnet.sparsemax.Entmoid15.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a>. Each argument is the gradient w.r.t the given output,
+and each returned value should be the gradient w.r.t. the
+corresponding input. If an input is not a Tensor or is a Tensor not
+requiring grads, you can just pass None as a gradient for that input.</p>
 <p>The context can be used to retrieve tensors saved during the forward
 pass. It also has an attribute <code class="xref py py-attr docutils literal notranslate"><span class="pre">ctx.needs_input_grad</span></code> as a tuple
 of booleans representing whether each input needs gradient. E.g.,
@@ -1041,8 +1131,13 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <p>This function is to be overridden by all subclasses.</p>
 <p>It must accept a context ctx as the first argument, followed by any
 number of arguments (tensors or other types).</p>
-<p>The context can be used to store tensors that can be then retrieved
-during the backward pass.</p>
+<p>The context can be used to store arbitrary data that can be then
+retrieved during the backward pass. Tensors should not be stored
+directly on <cite>ctx</cite> (though this is not currently enforced for
+backward compatibility). Instead, tensors should be saved either with
+<code class="xref py py-func docutils literal notranslate"><span class="pre">ctx.save_for_backward()</span></code> if they are intended to be used in
+<code class="docutils literal notranslate"><span class="pre">backward</span></code> (equivalently, <code class="docutils literal notranslate"><span class="pre">vjp</span></code>) or <code class="xref py py-func docutils literal notranslate"><span class="pre">ctx.save_for_forward()</span></code>
+if they are intended to be used for in <code class="docutils literal notranslate"><span class="pre">jvp</span></code>.</p>
 </dd></dl>
 
 </dd></dl>
@@ -1065,11 +1160,16 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </div>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.sparsemax.Sparsemax.training">
+<code class="sig-name descname">training</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.sparsemax.Sparsemax.training" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="class">
 <dt id="pytorch_tabnet.sparsemax.SparsemaxFunction">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.sparsemax.</code><code class="sig-name descname">SparsemaxFunction</code><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#SparsemaxFunction"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.SparsemaxFunction" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.sparsemax.</code><code class="sig-name descname">SparsemaxFunction</code><span class="sig-paren">(</span><em class="sig-param">*args</em>, <em class="sig-param">**kwargs</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#SparsemaxFunction"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.SparsemaxFunction" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.autograd.function.Function</span></code></p>
 <p>An implementation of sparsemax (Martins &amp; Astudillo, 2016). See
 <a href="#id3"><span class="problematic" id="id4">:cite:`DBLP:journals/corr/MartinsA16`</span></a> for detailed description.
@@ -1077,13 +1177,17 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dl class="method">
 <dt id="pytorch_tabnet.sparsemax.SparsemaxFunction.backward">
 <em class="property">static </em><code class="sig-name descname">backward</code><span class="sig-paren">(</span><em class="sig-param">ctx</em>, <em class="sig-param">grad_output</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/sparsemax.html#SparsemaxFunction.backward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.sparsemax.SparsemaxFunction.backward" title="Permalink to this definition">¶</a></dt>
-<dd><p>Defines a formula for differentiating the operation.</p>
+<dd><p>Defines a formula for differentiating the operation with backward mode
+automatic differentiation (alias to the vjp function).</p>
 <p>This function is to be overridden by all subclasses.</p>
 <p>It must accept a context <code class="xref py py-attr docutils literal notranslate"><span class="pre">ctx</span></code> as the first argument, followed by
-as many outputs did <a class="reference internal" href="#pytorch_tabnet.sparsemax.SparsemaxFunction.forward" title="pytorch_tabnet.sparsemax.SparsemaxFunction.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a> return, and it should return as many
-tensors, as there were inputs to <a class="reference internal" href="#pytorch_tabnet.sparsemax.SparsemaxFunction.forward" title="pytorch_tabnet.sparsemax.SparsemaxFunction.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a>. Each argument is the
-gradient w.r.t the given output, and each returned value should be the
-gradient w.r.t. the corresponding input.</p>
+as many outputs as the <a class="reference internal" href="#pytorch_tabnet.sparsemax.SparsemaxFunction.forward" title="pytorch_tabnet.sparsemax.SparsemaxFunction.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a> returned (None will be passed in
+for non tensor outputs of the forward function),
+and it should return as many tensors, as there were inputs to
+<a class="reference internal" href="#pytorch_tabnet.sparsemax.SparsemaxFunction.forward" title="pytorch_tabnet.sparsemax.SparsemaxFunction.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">forward()</span></code></a>. Each argument is the gradient w.r.t the given output,
+and each returned value should be the gradient w.r.t. the
+corresponding input. If an input is not a Tensor or is a Tensor not
+requiring grads, you can just pass None as a gradient for that input.</p>
 <p>The context can be used to retrieve tensors saved during the forward
 pass. It also has an attribute <code class="xref py py-attr docutils literal notranslate"><span class="pre">ctx.needs_input_grad</span></code> as a tuple
 of booleans representing whether each input needs gradient. E.g.,
@@ -1393,7 +1497,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <span id="pytorch-tabnet-abstract-model-module"></span><h2>pytorch_tabnet.abstract_model module<a class="headerlink" href="#module-pytorch_tabnet.abstract_model" title="Permalink to this headline">¶</a></h2>
 <dl class="class">
 <dt id="pytorch_tabnet.abstract_model.TabModel">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.abstract_model.</code><code class="sig-name descname">TabModel</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/abstract_model.html#TabModel"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.abstract_model.TabModel" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.abstract_model.</code><code class="sig-name descname">TabModel</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em>, <em class="sig-param">grouped_features: List[List[int]] = &lt;factory&gt;</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/abstract_model.html#TabModel"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.abstract_model.TabModel" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">sklearn.base.BaseEstimator</span></code></p>
 <p>Class for TabNet model.</p>
 <dl class="attribute">
@@ -1453,7 +1557,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>X</strong> (tensor: <cite>torch.Tensor</cite>) – Input data</p></li>
+<li><p><strong>X</strong> (tensor: <cite>torch.Tensor</cite> or matrix: <cite>scipy.sparse.csr_matrix</cite>) – Input data</p></li>
 <li><p><strong>normalize</strong> (<em>bool</em><em> (</em><em>default False</em><em>)</em>) – Wheter to normalize so that sum of features are equal to 1</p></li>
 </ul>
 </dd>
@@ -1469,7 +1573,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 
 <dl class="method">
 <dt id="pytorch_tabnet.abstract_model.TabModel.fit">
-<code class="sig-name descname">fit</code><span class="sig-paren">(</span><em class="sig-param">X_train</em>, <em class="sig-param">y_train</em>, <em class="sig-param">eval_set=None</em>, <em class="sig-param">eval_name=None</em>, <em class="sig-param">eval_metric=None</em>, <em class="sig-param">loss_fn=None</em>, <em class="sig-param">weights=0</em>, <em class="sig-param">max_epochs=100</em>, <em class="sig-param">patience=10</em>, <em class="sig-param">batch_size=1024</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">num_workers=0</em>, <em class="sig-param">drop_last=True</em>, <em class="sig-param">callbacks=None</em>, <em class="sig-param">pin_memory=True</em>, <em class="sig-param">from_unsupervised=None</em>, <em class="sig-param">warm_start=False</em>, <em class="sig-param">augmentations=None</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/abstract_model.html#TabModel.fit"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.abstract_model.TabModel.fit" title="Permalink to this definition">¶</a></dt>
+<code class="sig-name descname">fit</code><span class="sig-paren">(</span><em class="sig-param">X_train</em>, <em class="sig-param">y_train</em>, <em class="sig-param">eval_set=None</em>, <em class="sig-param">eval_name=None</em>, <em class="sig-param">eval_metric=None</em>, <em class="sig-param">loss_fn=None</em>, <em class="sig-param">weights=0</em>, <em class="sig-param">max_epochs=100</em>, <em class="sig-param">patience=10</em>, <em class="sig-param">batch_size=1024</em>, <em class="sig-param">virtual_batch_size=128</em>, <em class="sig-param">num_workers=0</em>, <em class="sig-param">drop_last=True</em>, <em class="sig-param">callbacks=None</em>, <em class="sig-param">pin_memory=True</em>, <em class="sig-param">from_unsupervised=None</em>, <em class="sig-param">warm_start=False</em>, <em class="sig-param">augmentations=None</em>, <em class="sig-param">compute_importance=True</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/abstract_model.html#TabModel.fit"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.abstract_model.TabModel.fit" title="Permalink to this definition">¶</a></dt>
 <dd><p>Train a neural network stored in self.network
 Using train_dataloader for training data and
 valid_dataloader for validation.</p>
@@ -1497,6 +1601,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <li><p><strong>pin_memory</strong> (<em>bool</em>) – Whether to set pin_memory to True or False during training</p></li>
 <li><p><strong>from_unsupervised</strong> (<em>unsupervised trained model</em>) – Use a previously self supervised model as starting weights</p></li>
 <li><p><strong>warm_start</strong> (<em>bool</em>) – If True, current model parameters are used to start training</p></li>
+<li><p><strong>compute_importance</strong> (<em>bool</em>) – Whether to compute feature importance</p></li>
 </ul>
 </dd>
 </dl>
@@ -1507,6 +1612,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <code class="sig-name descname">gamma</code><em class="property">: float</em><em class="property"> = 1.3</em><a class="headerlink" href="#pytorch_tabnet.abstract_model.TabModel.gamma" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.abstract_model.TabModel.grouped_features">
+<code class="sig-name descname">grouped_features</code><em class="property">: List[List[int]]</em><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.abstract_model.TabModel.grouped_features" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 <dl class="attribute">
 <dt id="pytorch_tabnet.abstract_model.TabModel.input_dim">
 <code class="sig-name descname">input_dim</code><em class="property">: int</em><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.abstract_model.TabModel.input_dim" title="Permalink to this definition">¶</a></dt>
@@ -1605,7 +1715,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dd><p>Make predictions on a batch (valid)</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite>) – Input data</p>
+<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite> or matrix: <cite>scipy.sparse.csr_matrix</cite>) – Input data</p>
 </dd>
 <dt class="field-even">Returns</dt>
 <dd class="field-even"><p><strong>predictions</strong> – Predictions of the regression problem</p>
@@ -1694,7 +1804,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <span id="pytorch-tabnet-pretraining-module"></span><h2>pytorch_tabnet.pretraining module<a class="headerlink" href="#module-pytorch_tabnet.pretraining" title="Permalink to this headline">¶</a></h2>
 <dl class="class">
 <dt id="pytorch_tabnet.pretraining.TabNetPretrainer">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.pretraining.</code><code class="sig-name descname">TabNetPretrainer</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/pretraining.html#TabNetPretrainer"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.pretraining.TabNetPretrainer" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.pretraining.</code><code class="sig-name descname">TabNetPretrainer</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em>, <em class="sig-param">grouped_features: List[List[int]] = &lt;factory&gt;</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/pretraining.html#TabNetPretrainer"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.pretraining.TabNetPretrainer" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="#pytorch_tabnet.abstract_model.TabModel" title="pytorch_tabnet.abstract_model.TabModel"><code class="xref py py-class docutils literal notranslate"><span class="pre">pytorch_tabnet.abstract_model.TabModel</span></code></a></p>
 <dl class="attribute">
 <dt id="pytorch_tabnet.pretraining.TabNetPretrainer.cat_dims">
@@ -1758,6 +1868,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </dl>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.pretraining.TabNetPretrainer.grouped_features">
+<code class="sig-name descname">grouped_features</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.pretraining.TabNetPretrainer.grouped_features" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 <dl class="attribute">
 <dt id="pytorch_tabnet.pretraining.TabNetPretrainer.optimizer_params">
 <code class="sig-name descname">optimizer_params</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.pretraining.TabNetPretrainer.optimizer_params" title="Permalink to this definition">¶</a></dt>
@@ -1769,7 +1884,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dd><p>Make predictions on a batch (valid)</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite>) – Input data</p>
+<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite> or matrix: <cite>scipy.sparse.csr_matrix</cite>) – Input data</p>
 </dd>
 <dt class="field-even">Returns</dt>
 <dd class="field-even"><p><strong>predictions</strong> – Predictions of the regression problem</p>
@@ -1868,6 +1983,33 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </dl>
 </dd></dl>
 
+<dl class="class">
+<dt id="pytorch_tabnet.utils.SparsePredictDataset">
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">SparsePredictDataset</code><span class="sig-paren">(</span><em class="sig-param">x</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#SparsePredictDataset"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.SparsePredictDataset" title="Permalink to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.utils.data.dataset.Dataset</span></code></p>
+<p>Format for csr_matrix</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters</dt>
+<dd class="field-odd"><p><strong>X</strong> (<em>CSR matrix</em>) – The input matrix</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="class">
+<dt id="pytorch_tabnet.utils.SparseTorchDataset">
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">SparseTorchDataset</code><span class="sig-paren">(</span><em class="sig-param">x</em>, <em class="sig-param">y</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#SparseTorchDataset"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.SparseTorchDataset" title="Permalink to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.utils.data.dataset.Dataset</span></code></p>
+<p>Format for csr_matrix</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters</dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>X</strong> (<em>CSR matrix</em>) – The input matrix</p></li>
+<li><p><strong>y</strong> (<em>2D array</em>) – The one-hot encoded target</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="class">
 <dt id="pytorch_tabnet.utils.TorchDataset">
 <em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">TorchDataset</code><span class="sig-paren">(</span><em class="sig-param">x</em>, <em class="sig-param">y</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#TorchDataset"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.TorchDataset" title="Permalink to this definition">¶</a></dt>
@@ -1883,6 +2025,12 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </dl>
 </dd></dl>
 
+<dl class="function">
+<dt id="pytorch_tabnet.utils.check_embedding_parameters">
+<code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">check_embedding_parameters</code><span class="sig-paren">(</span><em class="sig-param">cat_dims</em>, <em class="sig-param">cat_idxs</em>, <em class="sig-param">cat_emb_dim</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#check_embedding_parameters"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.check_embedding_parameters" title="Permalink to this definition">¶</a></dt>
+<dd><p>Check parameters related to embeddings and rearrange them in a unique manner.</p>
+</dd></dl>
+
 <dl class="function">
 <dt id="pytorch_tabnet.utils.check_input">
 <code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">check_input</code><span class="sig-paren">(</span><em class="sig-param">X</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#check_input"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.check_input" title="Permalink to this definition">¶</a></dt>
@@ -1890,6 +2038,30 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 and check array according to scikit rules</p>
 </dd></dl>
 
+<dl class="function">
+<dt id="pytorch_tabnet.utils.check_list_groups">
+<code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">check_list_groups</code><span class="sig-paren">(</span><em class="sig-param">list_groups</em>, <em class="sig-param">input_dim</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#check_list_groups"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.check_list_groups" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Check that list groups:</dt><dd><ul class="simple">
+<li><p>is a list of list</p></li>
+<li><p>does not contain twice the same feature in different groups</p></li>
+<li><p>does not contain unknown features (&gt;= input_dim)</p></li>
+<li><p>does not contain empty groups</p></li>
+</ul>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters</dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>list_groups</strong> (<em>-</em>) – Each element is a list representing features in the same group.
+One feature should appear in maximum one group.
+Feature that don’t get assign a group will be in their own group of one feature.</p></li>
+<li><p><strong>input_dim</strong> (<em>-</em>) – </p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="function">
 <dt id="pytorch_tabnet.utils.check_warm_start">
 <code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">check_warm_start</code><span class="sig-paren">(</span><em class="sig-param">warm_start</em>, <em class="sig-param">from_unsupervised</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#check_warm_start"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.check_warm_start" title="Permalink to this definition">¶</a></dt>
@@ -1957,6 +2129,30 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </dl>
 </dd></dl>
 
+<dl class="function">
+<dt id="pytorch_tabnet.utils.create_group_matrix">
+<code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">create_group_matrix</code><span class="sig-paren">(</span><em class="sig-param">list_groups</em>, <em class="sig-param">input_dim</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#create_group_matrix"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.create_group_matrix" title="Permalink to this definition">¶</a></dt>
+<dd><p>Create the group matrix corresponding to the given list_groups</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters</dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>list_groups</strong> (<em>-</em>) – Each element is a list representing features in the same group.
+One feature should appear in maximum one group.
+Feature that don’t get assigned a group will be in their own group of one feature.</p></li>
+<li><p><strong>input_dim</strong> (<em>-</em>) – </p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns</dt>
+<dd class="field-even"><p><strong>- group_matrix</strong> – A matrix of size (n_groups, input_dim)
+where m_ij represents the importance of feature j in group i
+The rows must some to 1 as each group is equally important a priori.</p>
+</dd>
+<dt class="field-odd">Return type</dt>
+<dd class="field-odd"><p>torch matrix</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="function">
 <dt id="pytorch_tabnet.utils.create_sampler">
 <code class="sig-prename descclassname">pytorch_tabnet.utils.</code><code class="sig-name descname">create_sampler</code><span class="sig-paren">(</span><em class="sig-param">weights</em>, <em class="sig-param">y_train</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/utils.html#create_sampler"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.utils.create_sampler" title="Permalink to this definition">¶</a></dt>
@@ -2043,7 +2239,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <span id="pytorch-tabnet-multitask-module"></span><h2>pytorch_tabnet.multitask module<a class="headerlink" href="#module-pytorch_tabnet.multitask" title="Permalink to this headline">¶</a></h2>
 <dl class="class">
 <dt id="pytorch_tabnet.multitask.TabNetMultiTaskClassifier">
-<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.multitask.</code><code class="sig-name descname">TabNetMultiTaskClassifier</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/multitask.html#TabNetMultiTaskClassifier"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.multitask.TabNetMultiTaskClassifier" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="sig-prename descclassname">pytorch_tabnet.multitask.</code><code class="sig-name descname">TabNetMultiTaskClassifier</code><span class="sig-paren">(</span><em class="sig-param">n_d: int = 8</em>, <em class="sig-param">n_a: int = 8</em>, <em class="sig-param">n_steps: int = 3</em>, <em class="sig-param">gamma: float = 1.3</em>, <em class="sig-param">cat_idxs: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_dims: List[int] = &lt;factory&gt;</em>, <em class="sig-param">cat_emb_dim: int = 1</em>, <em class="sig-param">n_independent: int = 2</em>, <em class="sig-param">n_shared: int = 2</em>, <em class="sig-param">epsilon: float = 1e-15</em>, <em class="sig-param">momentum: float = 0.02</em>, <em class="sig-param">lambda_sparse: float = 0.001</em>, <em class="sig-param">seed: int = 0</em>, <em class="sig-param">clip_value: int = 1</em>, <em class="sig-param">verbose: int = 1</em>, <em class="sig-param">optimizer_fn: Any = &lt;class 'torch.optim.adam.Adam'&gt;</em>, <em class="sig-param">optimizer_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">scheduler_fn: Any = None</em>, <em class="sig-param">scheduler_params: Dict = &lt;factory&gt;</em>, <em class="sig-param">mask_type: str = 'sparsemax'</em>, <em class="sig-param">input_dim: int = None</em>, <em class="sig-param">output_dim: int = None</em>, <em class="sig-param">device_name: str = 'auto'</em>, <em class="sig-param">n_shared_decoder: int = 1</em>, <em class="sig-param">n_indep_decoder: int = 1</em>, <em class="sig-param">grouped_features: List[List[int]] = &lt;factory&gt;</em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/pytorch_tabnet/multitask.html#TabNetMultiTaskClassifier"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#pytorch_tabnet.multitask.TabNetMultiTaskClassifier" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="#pytorch_tabnet.abstract_model.TabModel" title="pytorch_tabnet.abstract_model.TabModel"><code class="xref py py-class docutils literal notranslate"><span class="pre">pytorch_tabnet.abstract_model.TabModel</span></code></a></p>
 <dl class="attribute">
 <dt id="pytorch_tabnet.multitask.TabNetMultiTaskClassifier.cat_dims">
@@ -2075,6 +2271,11 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 </dl>
 </dd></dl>
 
+<dl class="attribute">
+<dt id="pytorch_tabnet.multitask.TabNetMultiTaskClassifier.grouped_features">
+<code class="sig-name descname">grouped_features</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.multitask.TabNetMultiTaskClassifier.grouped_features" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 <dl class="attribute">
 <dt id="pytorch_tabnet.multitask.TabNetMultiTaskClassifier.optimizer_params">
 <code class="sig-name descname">optimizer_params</code><em class="property"> = None</em><a class="headerlink" href="#pytorch_tabnet.multitask.TabNetMultiTaskClassifier.optimizer_params" title="Permalink to this definition">¶</a></dt>
@@ -2086,7 +2287,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dd><p>Make predictions on a batch (valid)</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite>) – Input data</p>
+<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite> or matrix: <cite>scipy.sparse.csr_matrix</cite>) – Input data</p>
 </dd>
 <dt class="field-even">Returns</dt>
 <dd class="field-even"><p><strong>results</strong> – Predictions of the most probable class</p>
@@ -2103,7 +2304,7 @@ <h1>pytorch_tabnet package<a class="headerlink" href="#pytorch-tabnet-package" t
 <dd><p>Make predictions for classification on a batch (valid)</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite>) – Input data</p>
+<dd class="field-odd"><p><strong>X</strong> (a :tensor: <cite>torch.Tensor</cite> or matrix: <cite>scipy.sparse.csr_matrix</cite>) – Input data</p>
 </dd>
 <dt class="field-even">Returns</dt>
 <dd class="field-even"><p><strong>res</strong></p>
diff --git a/docs/genindex.html b/docs/genindex.html
index 3c9e444d..f4d16cdd 100644
--- a/docs/genindex.html
+++ b/docs/genindex.html
@@ -88,6 +88,7 @@
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -257,11 +258,15 @@ <h2 id="C">C</h2>
 </li>
       </ul></li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.check_classification_targets">check_classification_targets() (in module pytorch_tabnet.multiclass_utils)</a>
+</li>
+      <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.check_embedding_parameters">check_embedding_parameters() (in module pytorch_tabnet.utils)</a>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.check_input">check_input() (in module pytorch_tabnet.utils)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.check_list_groups">check_list_groups() (in module pytorch_tabnet.utils)</a>
+</li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.check_metrics">check_metrics() (in module pytorch_tabnet.metrics)</a>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.check_output_dim">check_output_dim() (in module pytorch_tabnet.multiclass_utils)</a>
@@ -295,6 +300,8 @@ <h2 id="C">C</h2>
 </li>
       </ul></li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.create_explain_matrix">create_explain_matrix() (in module pytorch_tabnet.utils)</a>
+</li>
+      <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.create_group_matrix">create_group_matrix() (in module pytorch_tabnet.utils)</a>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.create_sampler">create_sampler() (in module pytorch_tabnet.utils)</a>
 </li>
@@ -418,8 +425,6 @@ <h2 id="G">G</h2>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.GBN">GBN (class in pytorch_tabnet.tab_network)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.metrics.Metric.get_metrics_by_names">get_metrics_by_names() (pytorch_tabnet.metrics.Metric class method)</a>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.GLU_Block">GLU_Block (class in pytorch_tabnet.tab_network)</a>
@@ -427,6 +432,20 @@ <h2 id="G">G</h2>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.GLU_Layer">GLU_Layer (class in pytorch_tabnet.tab_network)</a>
 </li>
   </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.grouped_features">grouped_features (pytorch_tabnet.abstract_model.TabModel attribute)</a>
+
+      <ul>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.multitask.TabNetMultiTaskClassifier.grouped_features">(pytorch_tabnet.multitask.TabNetMultiTaskClassifier attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.pretraining.TabNetPretrainer.grouped_features">(pytorch_tabnet.pretraining.TabNetPretrainer attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_model.TabNetClassifier.grouped_features">(pytorch_tabnet.tab_model.TabNetClassifier attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_model.TabNetRegressor.grouped_features">(pytorch_tabnet.tab_model.TabNetRegressor attribute)</a>
+</li>
+      </ul></li>
+  </ul></td>
 </tr></table>
 
 <h2 id="H">H</h2>
@@ -724,14 +743,14 @@ <h2 id="S">S</h2>
       </ul></li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.abstract_model.TabModel.seed">seed (pytorch_tabnet.abstract_model.TabModel attribute)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.Callback.set_params">set_params() (pytorch_tabnet.callbacks.Callback method)</a>
 
       <ul>
         <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.CallbackContainer.set_params">(pytorch_tabnet.callbacks.CallbackContainer method)</a>
 </li>
       </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.Callback.set_trainer">set_trainer() (pytorch_tabnet.callbacks.Callback method)</a>
 
       <ul>
@@ -743,6 +762,10 @@ <h2 id="S">S</h2>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.sparsemax">sparsemax() (in module pytorch_tabnet.sparsemax)</a>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.SparsemaxFunction">SparsemaxFunction (class in pytorch_tabnet.sparsemax)</a>
+</li>
+      <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.SparsePredictDataset">SparsePredictDataset (class in pytorch_tabnet.utils)</a>
+</li>
+      <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.utils.SparseTorchDataset">SparseTorchDataset (class in pytorch_tabnet.utils)</a>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.multitask.TabNetMultiTaskClassifier.stack_batches">stack_batches() (pytorch_tabnet.multitask.TabNetMultiTaskClassifier method)</a>
 
@@ -774,8 +797,6 @@ <h2 id="T">T</h2>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetNoEmbeddings">TabNetNoEmbeddings (class in pytorch_tabnet.tab_network)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.pretraining.TabNetPretrainer">TabNetPretrainer (class in pytorch_tabnet.pretraining)</a>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetPretraining">TabNetPretraining (class in pytorch_tabnet.tab_network)</a>
@@ -788,6 +809,38 @@ <h2 id="T">T</h2>
 </li>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.callbacks.History.trainer">trainer (pytorch_tabnet.callbacks.History attribute)</a>
 </li>
+      <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.Entmax15.training">training (pytorch_tabnet.sparsemax.Entmax15 attribute)</a>
+
+      <ul>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.sparsemax.Sparsemax.training">(pytorch_tabnet.sparsemax.Sparsemax attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.AttentiveTransformer.training">(pytorch_tabnet.tab_network.AttentiveTransformer attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.EmbeddingGenerator.training">(pytorch_tabnet.tab_network.EmbeddingGenerator attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.FeatTransformer.training">(pytorch_tabnet.tab_network.FeatTransformer attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.GBN.training">(pytorch_tabnet.tab_network.GBN attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.GLU_Block.training">(pytorch_tabnet.tab_network.GLU_Block attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.GLU_Layer.training">(pytorch_tabnet.tab_network.GLU_Layer attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.RandomObfuscator.training">(pytorch_tabnet.tab_network.RandomObfuscator attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNet.training">(pytorch_tabnet.tab_network.TabNet attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetDecoder.training">(pytorch_tabnet.tab_network.TabNetDecoder attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetEncoder.training">(pytorch_tabnet.tab_network.TabNetEncoder attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetNoEmbeddings.training">(pytorch_tabnet.tab_network.TabNetNoEmbeddings attribute)</a>
+</li>
+        <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.tab_network.TabNetPretraining.training">(pytorch_tabnet.tab_network.TabNetPretraining attribute)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="generated_docs/pytorch_tabnet.html#pytorch_tabnet.multiclass_utils.type_of_target">type_of_target() (in module pytorch_tabnet.multiclass_utils)</a>
 </li>
   </ul></td>
diff --git a/docs/index.html b/docs/index.html
index 27c3e93a..9c654c55 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -89,6 +89,7 @@
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#how-to-use-it">How to use it?</a></li>
@@ -174,6 +175,7 @@ <h1>Welcome to pytorch_tabnet’s documentation!<a class="headerlink" href="#wel
 <li class="toctree-l2"><a class="reference internal" href="generated_docs/README.html#source-code">Source code</a></li>
 </ul>
 </li>
+<li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#how-to-use-it">How to use it?</a><ul>
diff --git a/docs/py-modindex.html b/docs/py-modindex.html
index 6dee3c89..89af9bee 100644
--- a/docs/py-modindex.html
+++ b/docs/py-modindex.html
@@ -90,6 +90,7 @@
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#how-to-use-it">How to use it?</a></li>
diff --git a/docs/search.html b/docs/search.html
index 54ba30a5..c88bd8e6 100644
--- a/docs/search.html
+++ b/docs/search.html
@@ -89,6 +89,7 @@
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html">README</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#tabnet-attentive-interpretable-tabular-learning">TabNet : Attentive Interpretable Tabular Learning</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#installation">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-is-new">What is new ?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#contributing">Contributing</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#what-problems-does-pytorch-tabnet-handle">What problems does pytorch-tabnet handle?</a></li>
 <li class="toctree-l1"><a class="reference internal" href="generated_docs/README.html#how-to-use-it">How to use it?</a></li>
diff --git a/docs/searchindex.js b/docs/searchindex.js
index b069376c..c2d3e89d 100644
--- a/docs/searchindex.js
+++ b/docs/searchindex.js
@@ -1 +1 @@
-Search.setIndex({docnames:["generated_docs/README","generated_docs/pytorch_tabnet","index"],envversion:{"sphinx.domains.c":1,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":1,"sphinx.domains.index":1,"sphinx.domains.javascript":1,"sphinx.domains.math":2,"sphinx.domains.python":1,"sphinx.domains.rst":1,"sphinx.domains.std":1,"sphinx.ext.viewcode":1,sphinx:56},filenames:["generated_docs/README.md","generated_docs/pytorch_tabnet.rst","index.rst"],objects:{"pytorch_tabnet.abstract_model":{TabModel:[1,1,1,""]},"pytorch_tabnet.abstract_model.TabModel":{cat_dims:[1,2,1,""],cat_emb_dim:[1,2,1,""],cat_idxs:[1,2,1,""],clip_value:[1,2,1,""],compute_loss:[1,3,1,""],device_name:[1,2,1,""],epsilon:[1,2,1,""],explain:[1,3,1,""],fit:[1,3,1,""],gamma:[1,2,1,""],input_dim:[1,2,1,""],lambda_sparse:[1,2,1,""],load_class_attrs:[1,3,1,""],load_model:[1,3,1,""],load_weights_from_unsupervised:[1,3,1,""],mask_type:[1,2,1,""],momentum:[1,2,1,""],n_a:[1,2,1,""],n_d:[1,2,1,""],n_indep_decoder:[1,2,1,""],n_independent:[1,2,1,""],n_shared:[1,2,1,""],n_shared_decoder:[1,2,1,""],n_steps:[1,2,1,""],optimizer_fn:[1,2,1,""],optimizer_params:[1,2,1,""],output_dim:[1,2,1,""],predict:[1,3,1,""],prepare_target:[1,3,1,""],save_model:[1,3,1,""],scheduler_fn:[1,2,1,""],scheduler_params:[1,2,1,""],seed:[1,2,1,""],update_fit_params:[1,3,1,""],verbose:[1,2,1,""]},"pytorch_tabnet.augmentations":{ClassificationSMOTE:[1,1,1,""],RegressionSMOTE:[1,1,1,""]},"pytorch_tabnet.callbacks":{Callback:[1,1,1,""],CallbackContainer:[1,1,1,""],EarlyStopping:[1,1,1,""],History:[1,1,1,""],LRSchedulerCallback:[1,1,1,""]},"pytorch_tabnet.callbacks.Callback":{on_batch_begin:[1,3,1,""],on_batch_end:[1,3,1,""],on_epoch_begin:[1,3,1,""],on_epoch_end:[1,3,1,""],on_train_begin:[1,3,1,""],on_train_end:[1,3,1,""],set_params:[1,3,1,""],set_trainer:[1,3,1,""]},"pytorch_tabnet.callbacks.CallbackContainer":{append:[1,3,1,""],callbacks:[1,2,1,""],on_batch_begin:[1,3,1,""],on_batch_end:[1,3,1,""],on_epoch_begin:[1,3,1,""],on_epoch_end:[1,3,1,""],on_train_begin:[1,3,1,""],on_train_end:[1,3,1,""],set_params:[1,3,1,""],set_trainer:[1,3,1,""]},"pytorch_tabnet.callbacks.EarlyStopping":{early_stopping_metric:[1,2,1,""],is_maximize:[1,2,1,""],on_epoch_end:[1,3,1,""],on_train_end:[1,3,1,""],patience:[1,2,1,""],tol:[1,2,1,""]},"pytorch_tabnet.callbacks.History":{on_batch_end:[1,3,1,""],on_epoch_begin:[1,3,1,""],on_epoch_end:[1,3,1,""],on_train_begin:[1,3,1,""],trainer:[1,2,1,""],verbose:[1,2,1,""]},"pytorch_tabnet.callbacks.LRSchedulerCallback":{early_stopping_metric:[1,2,1,""],is_batch_level:[1,2,1,""],on_batch_end:[1,3,1,""],on_epoch_end:[1,3,1,""],optimizer:[1,2,1,""],scheduler_fn:[1,2,1,""],scheduler_params:[1,2,1,""]},"pytorch_tabnet.metrics":{AUC:[1,1,1,""],Accuracy:[1,1,1,""],BalancedAccuracy:[1,1,1,""],LogLoss:[1,1,1,""],MAE:[1,1,1,""],MSE:[1,1,1,""],Metric:[1,1,1,""],MetricContainer:[1,1,1,""],RMSE:[1,1,1,""],RMSLE:[1,1,1,""],UnsupMetricContainer:[1,1,1,""],UnsupervisedLoss:[1,4,1,""],UnsupervisedLossNumpy:[1,4,1,""],UnsupervisedMetric:[1,1,1,""],UnsupervisedNumpyMetric:[1,1,1,""],check_metrics:[1,4,1,""]},"pytorch_tabnet.metrics.Metric":{get_metrics_by_names:[1,3,1,""]},"pytorch_tabnet.metrics.MetricContainer":{metric_names:[1,2,1,""],prefix:[1,2,1,""]},"pytorch_tabnet.metrics.UnsupMetricContainer":{metric_names:[1,2,1,""],prefix:[1,2,1,""]},"pytorch_tabnet.multiclass_utils":{assert_all_finite:[1,4,1,""],check_classification_targets:[1,4,1,""],check_output_dim:[1,4,1,""],check_unique_type:[1,4,1,""],infer_multitask_output:[1,4,1,""],infer_output_dim:[1,4,1,""],is_multilabel:[1,4,1,""],type_of_target:[1,4,1,""],unique_labels:[1,4,1,""]},"pytorch_tabnet.multitask":{TabNetMultiTaskClassifier:[1,1,1,""]},"pytorch_tabnet.multitask.TabNetMultiTaskClassifier":{cat_dims:[1,2,1,""],cat_idxs:[1,2,1,""],compute_loss:[1,3,1,""],optimizer_params:[1,2,1,""],predict:[1,3,1,""],predict_proba:[1,3,1,""],prepare_target:[1,3,1,""],scheduler_params:[1,2,1,""],stack_batches:[1,3,1,""],update_fit_params:[1,3,1,""]},"pytorch_tabnet.pretraining":{TabNetPretrainer:[1,1,1,""]},"pytorch_tabnet.pretraining.TabNetPretrainer":{cat_dims:[1,2,1,""],cat_idxs:[1,2,1,""],compute_loss:[1,3,1,""],fit:[1,3,1,""],optimizer_params:[1,2,1,""],predict:[1,3,1,""],prepare_target:[1,3,1,""],scheduler_params:[1,2,1,""],stack_batches:[1,3,1,""],update_fit_params:[1,3,1,""]},"pytorch_tabnet.pretraining_utils":{create_dataloaders:[1,4,1,""],validate_eval_set:[1,4,1,""]},"pytorch_tabnet.sparsemax":{Entmax15:[1,1,1,""],Entmax15Function:[1,1,1,""],Entmoid15:[1,1,1,""],Sparsemax:[1,1,1,""],SparsemaxFunction:[1,1,1,""],entmax15:[1,4,1,""],entmoid15:[1,4,1,""],sparsemax:[1,4,1,""]},"pytorch_tabnet.sparsemax.Entmax15":{forward:[1,3,1,""]},"pytorch_tabnet.sparsemax.Entmax15Function":{backward:[1,3,1,""],forward:[1,3,1,""]},"pytorch_tabnet.sparsemax.Entmoid15":{backward:[1,3,1,""],forward:[1,3,1,""]},"pytorch_tabnet.sparsemax.Sparsemax":{forward:[1,3,1,""]},"pytorch_tabnet.sparsemax.SparsemaxFunction":{backward:[1,3,1,""],forward:[1,3,1,""]},"pytorch_tabnet.tab_model":{TabNetClassifier:[1,1,1,""],TabNetRegressor:[1,1,1,""]},"pytorch_tabnet.tab_model.TabNetClassifier":{cat_dims:[1,2,1,""],cat_idxs:[1,2,1,""],compute_loss:[1,3,1,""],optimizer_params:[1,2,1,""],predict_func:[1,3,1,""],predict_proba:[1,3,1,""],prepare_target:[1,3,1,""],scheduler_params:[1,2,1,""],stack_batches:[1,3,1,""],update_fit_params:[1,3,1,""],weight_updater:[1,3,1,""]},"pytorch_tabnet.tab_model.TabNetRegressor":{cat_dims:[1,2,1,""],cat_idxs:[1,2,1,""],compute_loss:[1,3,1,""],optimizer_params:[1,2,1,""],predict_func:[1,3,1,""],prepare_target:[1,3,1,""],scheduler_params:[1,2,1,""],stack_batches:[1,3,1,""],update_fit_params:[1,3,1,""]},"pytorch_tabnet.tab_network":{AttentiveTransformer:[1,1,1,""],EmbeddingGenerator:[1,1,1,""],FeatTransformer:[1,1,1,""],GBN:[1,1,1,""],GLU_Block:[1,1,1,""],GLU_Layer:[1,1,1,""],RandomObfuscator:[1,1,1,""],TabNet:[1,1,1,""],TabNetDecoder:[1,1,1,""],TabNetEncoder:[1,1,1,""],TabNetNoEmbeddings:[1,1,1,""],TabNetPretraining:[1,1,1,""],initialize_glu:[1,4,1,""],initialize_non_glu:[1,4,1,""]},"pytorch_tabnet.tab_network.AttentiveTransformer":{forward:[1,3,1,""]},"pytorch_tabnet.tab_network.EmbeddingGenerator":{forward:[1,3,1,""]},"pytorch_tabnet.tab_network.FeatTransformer":{forward:[1,3,1,""]},"pytorch_tabnet.tab_network.GBN":{forward:[1,3,1,""]},"pytorch_tabnet.tab_network.GLU_Block":{forward:[1,3,1,""]},"pytorch_tabnet.tab_network.GLU_Layer":{forward:[1,3,1,""]},"pytorch_tabnet.tab_network.RandomObfuscator":{forward:[1,3,1,""]},"pytorch_tabnet.tab_network.TabNet":{forward:[1,3,1,""],forward_masks:[1,3,1,""]},"pytorch_tabnet.tab_network.TabNetDecoder":{forward:[1,3,1,""]},"pytorch_tabnet.tab_network.TabNetEncoder":{forward:[1,3,1,""],forward_masks:[1,3,1,""]},"pytorch_tabnet.tab_network.TabNetNoEmbeddings":{forward:[1,3,1,""],forward_masks:[1,3,1,""]},"pytorch_tabnet.tab_network.TabNetPretraining":{forward:[1,3,1,""],forward_masks:[1,3,1,""]},"pytorch_tabnet.utils":{ComplexEncoder:[1,1,1,""],PredictDataset:[1,1,1,""],TorchDataset:[1,1,1,""],check_input:[1,4,1,""],check_warm_start:[1,4,1,""],create_dataloaders:[1,4,1,""],create_explain_matrix:[1,4,1,""],create_sampler:[1,4,1,""],define_device:[1,4,1,""],filter_weights:[1,4,1,""],validate_eval_set:[1,4,1,""]},"pytorch_tabnet.utils.ComplexEncoder":{"default":[1,3,1,""]},pytorch_tabnet:{abstract_model:[1,0,0,"-"],augmentations:[1,0,0,"-"],callbacks:[1,0,0,"-"],metrics:[1,0,0,"-"],multiclass_utils:[1,0,0,"-"],multitask:[1,0,0,"-"],pretraining:[1,0,0,"-"],pretraining_utils:[1,0,0,"-"],sparsemax:[1,0,0,"-"],tab_model:[1,0,0,"-"],tab_network:[1,0,0,"-"],utils:[1,0,0,"-"]}},objnames:{"0":["py","module","Python module"],"1":["py","class","Python class"],"2":["py","attribute","Python attribute"],"3":["py","method","Python method"],"4":["py","function","Python function"]},objtypes:{"0":"py:module","1":"py:class","2":"py:attribute","3":"py:method","4":"py:function"},terms:{"1st":0,"abstract":1,"boolean":1,"case":1,"class":0,"default":[1,2],"float":[0,1],"function":0,"import":[0,1],"int":[0,1],"new":[0,1],"return":[0,1],"static":1,"throw":1,"true":[0,1],"try":[0,1],"while":1,Added:0,For:1,One:1,The:[0,1],Use:1,Useful:2,Using:1,__call__:0,__init__:0,_contextmethodmixin:1,_maxim:0,_name:0,a_max:0,a_min:0,about:1,abov:1,abs:1,absolut:1,abstract_model:2,accept:1,accord:[0,1],accuraci:[0,1],adam:[0,1],added:0,after:1,afterward:1,alia:1,all:[0,1],allow:[0,1],allow_nan:1,along:1,alpha:1,alreadi:0,also:1,although:1,ambigu:1,amount:1,ani:[0,1],anyth:1,api:0,append:1,appli:[0,1],arbitrari:1,architectur:0,argument:1,arik:0,arrai:[0,1],arxiv:[0,1],assert_all_finit:1,assign:0,astudillo:1,attent:[1,2],attentivetransform:1,attribut:1,auc:[0,1],augment:2,auto:[0,1],autograd:1,autom:[0,1],automat:[0,1],avail:0,averag:1,avoid:1,backward:1,balanc:[0,1],balancedaccuraci:1,base:1,baseestim:1,basic:0,batch:[0,1],batch_out:[],batch_siz:[0,1],becaus:[0,1],been:0,befor:[0,1],bellow:0,below:0,ben:1,best:0,beta:1,better:0,between:[0,1],bigger:0,binari:[0,1],blob:0,block:[0,1],bool:[0,1],both:1,build:[0,1],built:1,call:1,callabl:1,callback:[0,2],callbackcontain:1,can:[0,1],capac:0,care:1,cat:[],cat_dim:[0,1],cat_emb_dim:[0,1],cat_idx:[0,1],categor:[0,1],censu:[],certain:1,chang:[0,1],check:1,check_circular:1,check_classification_target:1,check_input:1,check_metr:1,check_nan:[],check_output_dim:1,check_unique_typ:1,check_warm_start:1,choic:0,cite:1,class_attr:1,classic:[0,1],classif:[0,1],classificationsmot:[0,1],classmethod:1,clear:1,clf:0,clip:[0,1],clip_valu:[0,1],clone:0,close:0,cls:1,code:2,coeffici:0,column:1,com:[0,1],commit:0,compat:[0,1],complet:0,complexencod:1,comput:1,compute_loss:1,conda:0,consecut:[0,1],contain:[0,1],content:2,context:1,continu:1,contribut:2,convert:1,corr:1,correct:1,correl:0,correspond:1,could:[0,1],counter:1,cpu:1,creat:[0,1],create_dataload:1,create_explain_matrix:1,create_sampl:1,cross:0,ctx:1,cuda:1,current:[0,1],custom:[1,2],data:[1,2],datafram:1,dataload:[0,1],dataset:1,dblp:1,decai:0,decis:0,decod:0,deduc:0,deep:1,deeprecomodel:1,def:[0,1],defin:[0,1],define_devic:1,degener:1,depend:[0,1],descript:1,detail:1,detect:[0,1],determin:1,develop:0,devic:1,device_nam:[0,1],dict:[0,1],dictionari:1,dictionnari:[0,1],did:1,differ:1,differenti:1,difficulti:0,dim:1,dimens:1,discret:1,discuss:0,disk:0,distinct:1,distribut:1,divid:0,divis:1,docker:0,doe:[1,2],doing:0,don:1,dreamquark:0,dreamquarktabnet:0,drop:[0,1],drop_last:[0,1],dure:[0,1],each:[0,1],earli:[0,1],early_stopping_metr:1,earlystop:1,easi:2,easier:0,easili:0,either:[0,1],element:1,els:1,emb:[],embded:[],embed:[0,1],embedded_x:1,embeddinggener:1,enabl:0,encod:1,end:0,ensur:1,ensure_ascii:1,entmax15:1,entmax15funct:1,entmax:[0,1],entmoid15:1,entropi:0,epoch:[0,1],eps:1,epsilon:[0,1],equal:1,equival:1,error:1,eval:[0,1,2],eval_metr:1,eval_nam:[0,1],eval_set:[0,1],evalu:[1,2],event:1,everi:[0,1],exact:1,exampl:[0,1],except:1,exist:0,exit:1,expert:1,explain:1,explan:1,explanatori:0,explicit:1,extra:0,extract:1,factori:1,fals:[0,1],feattransform:1,featu:[],featur:[0,1],few:0,file:1,filepath:1,filter_weight:1,first:[0,1],fit:[1,2],fly:2,follow:[0,1],forest:[],forg:0,format:1,former:1,formula:1,forward:1,forward_mask:1,found:0,frequenc:1,from:[0,1],from_unsupervis:[0,1],further:0,gamma:[0,1],gate:0,gbn:1,gener:1,get:[0,1],get_metrics_by_nam:1,ghost:[0,1],gini:0,git:0,github:[0,1],give:[0,1],given:[0,1],glu:[0,1],glu_block:1,glu_lay:1,good:0,gpu:1,grad_output:1,gradient:[0,1],greater:0,handl:2,happen:1,harder:0,has:[0,1],have:[0,1],help:0,here:0,highli:1,histori:1,hold:1,hook:1,hot:1,how:[1,2],html:1,http:[0,1],idx:[],ignor:1,imeplement:[],implement:[0,1],improv:[0,1],includ:0,incomplet:1,indent:1,independ:[0,1],index:[1,2],indic:[0,1],infer:1,infer_multitask_output:1,infer_output_dim:1,infin:1,initi:[0,1],initialize_glu:1,initialize_non_glu:1,input:[0,1],input_dim:1,insid:0,instal:2,instanc:1,instead:1,integ:[0,1],interpret:2,invers:[0,1],ipynb:0,is_batch_level:1,is_maxim:1,is_multilabel:1,issu:0,iter:1,its:0,join:0,journal:1,json:1,jsonencod:1,jupyt:0,kaggl:0,keep:1,kei:[0,1],labda:[],lambda:1,lambda_spars:[0,1],larg:0,last:[0,1],later:0,latter:1,layer:0,learn:[1,2],least:[0,1],left:[0,1],length:[0,1],let:1,like:1,line:0,linear:0,link:2,list:[0,1],list_embedded_x:1,list_obfusc:1,list_output:1,list_y_scor:1,list_y_tru:1,load:[1,2],load_class_attr:1,load_model:[0,1],load_weights_from_unsupervis:1,loaded_clf:0,local:[0,1],log:1,logarithm:1,logloss:[0,1],longtensor:1,loop:1,loss:[0,1],loss_fn:[0,1],lower:0,lr_schedul:[0,1],lrschedulercallback:1,m_explain:1,mae:[0,1],main:1,make:[0,1],mandatori:0,mani:1,manual:1,map:1,martin:1,martinsa16:1,mask:[0,1],mask_typ:[0,1],match:0,matric:1,matrix:1,max:0,max_epoch:[0,1],maxim:[0,1],maximum:[0,1],mean:[0,1],mean_squared_log_error:1,memori:1,mention:0,method:1,metric:2,metric_nam:1,metriccontain:1,might:[0,1],mini:0,minimum:1,mix:1,moa:0,modal:0,model:[1,2],model_nam:0,modul:2,moment:1,momentum:[0,1],monitor:1,more:[0,1],most:1,mse:[0,1],multi:0,multiclass:[0,1],multiclass_util:2,multilabel:1,multioutput:1,multipl:1,multitask:[0,2],must:[0,1],n_a:[0,1],n_d:[0,1],n_glu:1,n_glu_independ:1,n_indep_decod:[0,1],n_independ:[0,1],n_sampl:1,n_share:[0,1],n_shared_decod:[0,1],n_step:[0,1],n_unique_label:1,name:[0,1],nan:1,ndarrai:1,need:[0,1],needs_input_grad:1,neg:[0,1],network:1,neural:1,nicula:1,non:1,none:[0,1],normal:[0,1],note:[0,1],notebook:0,now:0,num:[],num_work:[0,1],number:[0,1],numpi:1,obf_var:1,obfusc:1,obj:1,object:1,occur:[],occurr:0,on_batch_begin:1,on_batch_end:1,on_epoch_begin:1,on_epoch_end:1,on_train_begin:1,on_train_end:1,one:[0,1],onecyclelr:1,ones:0,onli:1,oper:1,optim:[0,1],optimizer_fn:[0,1],optimizer_param:[0,1],optimo:[],option:0,order:[0,1],org:[0,1],orgin:1,origin:[0,1],other:1,otherwis:1,our:0,out:1,output:1,output_dim:1,over:1,overfit:0,overridden:1,overwritten:0,own:[0,1],packag:2,page:2,panda:1,paper:[0,1],param:1,paramet:[1,2],pass:1,path:1,patienc:[0,1],pdf:0,per:[0,1],percentag:[0,1],perform:[0,1],peter:1,pfister:0,pin:1,pin_memori:1,pip:0,pipelin:0,place:0,pleas:0,plot:0,poetri:0,point:1,posit:1,possibl:0,post:1,post_embed_dim:1,pre:2,pred:0,predict:[0,1],predict_func:1,predict_proba:1,predictdataset:1,prefix:1,prepar:1,prepare_target:1,preprint:0,present:0,pretrain:[0,2],pretraining_exampl:0,pretraining_ratio:[0,1],pretraining_util:2,previous:1,print:1,prior:1,probabl:1,problem:[1,2],process:1,processed_feat:1,product:[0,1],propos:0,provid:1,pytorch:[1,2],pytorch_tabnet:0,qualifi:1,question:0,rais:1,random:[0,1],randomobfusc:1,rang:0,rapidli:1,rate:0,readi:0,readm:2,realli:0,recip:1,recommend:0,reconstruct:[0,1],record:1,reduc:[0,1],reducing_matrix:1,regist:1,regress:[0,1],regressionsmot:[0,1],rel:1,repositori:0,repres:1,reproduc:0,res:1,reset:1,result:1,retriev:[0,1],reus:0,reusag:0,risk:0,rmse:[0,1],rmsle:[0,1],roc_auc_scor:0,root:1,row:1,rule:[0,1],run:1,same:[0,1],sampl:[0,1],sampler:1,save:[1,2],save_model:[0,1],saved_filepath:0,saving_path:[],saving_path_nam:0,scale:1,schedul:[0,1],scheduler_fn:[0,1],scheduler_param:[0,1],scikit:[0,1],score:[0,1],search:2,section:[],see:[0,1],seed:[0,1],select:0,self:[0,1],semi:2,separ:1,sequenc:1,serializ:1,set:[0,1],set_param:1,set_train:1,shape:1,share:0,shared_lay:1,should:[0,1],show:1,silent:1,simpl:0,sinc:[0,1],singl:[0,1],size:[0,1],skipkei:1,sklearn:[0,1],slack:0,small:1,smaller:1,smote:1,softmax:1,solut:0,sort:1,sort_kei:1,sourc:[1,2],spars:1,sparsemax:[0,2],sparsemaxfunct:1,sparser:0,sparsiti:0,specif:[0,1],specifii:0,spin:1,squar:1,stabl:1,stack_batch:1,stai:1,start:[0,1],state:0,step:[0,1],step_siz:0,steplr:0,steps_output:1,stop:[0,1],store:1,str:[0,1],string:[0,1],subclass:1,subprocess:1,subsampl:1,sum:1,supermodul:1,supervis:[1,2],support:1,sure:[0,1],tab_model:[0,2],tab_network:2,tabmodel:1,tabnet:[1,2],tabnet_model_test_1:0,tabnetclassifi:[0,1],tabnetdecod:1,tabnetencod:1,tabnetmultitaskclassifi:[0,1],tabnetnoembed:1,tabnetpretrain:[0,1],tabnetregressor:[0,1],tabular:2,take:1,talk:0,target:[0,1],target_mapp:1,target_typ:1,task:[0,1],tasks_dim:1,tasks_label:1,templat:0,tensor:1,term:0,termin:[0,1],than:[0,1],thei:0,them:1,thi:[0,1],tol:1,torch:[0,1],torchdataset:1,train:[1,2],train_dataload:1,train_label:1,trainer:1,trainng:0,transform:[0,1],trick:1,tupl:[0,1],twice:0,two:1,type:[0,1],type_of_target:1,typeerror:1,typic:0,unchang:1,uniqu:[0,1],unique_label:1,unit:0,unknown:1,unsupervis:1,unsupervised_model:[0,1],unsupervisedloss:1,unsupervisedlossnumpi:1,unsupervisedmetr:1,unsupervisednumpymetr:1,unsupmetriccontain:1,untouch:0,updat:1,update_fit_param:1,usag:1,use:[1,2],used:[0,1],useful:0,user:1,using:0,usual:0,util:[0,2],val_metr:1,valid:[0,1],valid_dataload:1,validate_eval_set:1,valu:[0,1],valueerror:1,variabl:1,vector:1,verbos:[0,1],via:0,video:0,virtual:[],virtual_batch_s:[0,1],vlad:1,wait:1,wan:0,want:0,warm:0,warm_start:[0,1],warn:1,weight:[0,1],weight_updat:1,well:1,were:1,what:2,when:[0,1],where:1,wheter:1,whether:[0,1],which:1,width:0,wihtout:[],wish:0,within:[0,1],without:[0,1],work:1,worker:[0,1],wors:0,wrapper:1,wrong:1,www:[],x_predict:0,x_test:0,x_train:[0,1],x_valid:0,y_pred:1,y_score:[0,1],y_train:[0,1],y_true:[0,1],y_valid:0,you:[0,1],your:0,youtu:[],ysbazo8ymx8:[],zerodivisionerror:1,zip:1},titles:["README","pytorch_tabnet package","Welcome to pytorch_tabnet\u2019s documentation!"],titleterms:{"class":1,"default":0,"function":1,Useful:0,abstract_model:1,attent:0,augment:[0,1],callback:1,code:0,contribut:0,cpu:0,custom:0,data:0,doc:[],document:2,doe:0,early_stopping_metr:[],easi:0,eval_metr:0,evalu:0,fit:0,fly:0,gpu:0,handl:0,how:0,indic:2,instal:0,interpret:0,label:1,learn:0,link:0,load:0,metric:[0,1],model:0,modul:1,multi:1,multiclass_util:1,multitask:1,onli:0,packag:1,paramet:0,pre:0,pretrain:1,pretraining_util:1,problem:0,pytorch:0,pytorch_tabnet:[1,2],readm:0,save:0,script:[],semi:0,sourc:0,sparsemax:1,supervis:0,tab_model:1,tab_network:1,tabl:2,tabnet:0,tabular:0,train:0,use:0,util:1,welcom:2,what:0}})
\ No newline at end of file
+Search.setIndex({docnames:["generated_docs/README","generated_docs/pytorch_tabnet","index"],envversion:{"sphinx.domains.c":1,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":1,"sphinx.domains.index":1,"sphinx.domains.javascript":1,"sphinx.domains.math":2,"sphinx.domains.python":1,"sphinx.domains.rst":1,"sphinx.domains.std":1,"sphinx.ext.viewcode":1,sphinx:56},filenames:["generated_docs/README.md","generated_docs/pytorch_tabnet.rst","index.rst"],objects:{"pytorch_tabnet.abstract_model":{TabModel:[1,1,1,""]},"pytorch_tabnet.abstract_model.TabModel":{cat_dims:[1,2,1,""],cat_emb_dim:[1,2,1,""],cat_idxs:[1,2,1,""],clip_value:[1,2,1,""],compute_loss:[1,3,1,""],device_name:[1,2,1,""],epsilon:[1,2,1,""],explain:[1,3,1,""],fit:[1,3,1,""],gamma:[1,2,1,""],grouped_features:[1,2,1,""],input_dim:[1,2,1,""],lambda_sparse:[1,2,1,""],load_class_attrs:[1,3,1,""],load_model:[1,3,1,""],load_weights_from_unsupervised:[1,3,1,""],mask_type:[1,2,1,""],momentum:[1,2,1,""],n_a:[1,2,1,""],n_d:[1,2,1,""],n_indep_decoder:[1,2,1,""],n_independent:[1,2,1,""],n_shared:[1,2,1,""],n_shared_decoder:[1,2,1,""],n_steps:[1,2,1,""],optimizer_fn:[1,2,1,""],optimizer_params:[1,2,1,""],output_dim:[1,2,1,""],predict:[1,3,1,""],prepare_target:[1,3,1,""],save_model:[1,3,1,""],scheduler_fn:[1,2,1,""],scheduler_params:[1,2,1,""],seed:[1,2,1,""],update_fit_params:[1,3,1,""],verbose:[1,2,1,""]},"pytorch_tabnet.augmentations":{ClassificationSMOTE:[1,1,1,""],RegressionSMOTE:[1,1,1,""]},"pytorch_tabnet.callbacks":{Callback:[1,1,1,""],CallbackContainer:[1,1,1,""],EarlyStopping:[1,1,1,""],History:[1,1,1,""],LRSchedulerCallback:[1,1,1,""]},"pytorch_tabnet.callbacks.Callback":{on_batch_begin:[1,3,1,""],on_batch_end:[1,3,1,""],on_epoch_begin:[1,3,1,""],on_epoch_end:[1,3,1,""],on_train_begin:[1,3,1,""],on_train_end:[1,3,1,""],set_params:[1,3,1,""],set_trainer:[1,3,1,""]},"pytorch_tabnet.callbacks.CallbackContainer":{append:[1,3,1,""],callbacks:[1,2,1,""],on_batch_begin:[1,3,1,""],on_batch_end:[1,3,1,""],on_epoch_begin:[1,3,1,""],on_epoch_end:[1,3,1,""],on_train_begin:[1,3,1,""],on_train_end:[1,3,1,""],set_params:[1,3,1,""],set_trainer:[1,3,1,""]},"pytorch_tabnet.callbacks.EarlyStopping":{early_stopping_metric:[1,2,1,""],is_maximize:[1,2,1,""],on_epoch_end:[1,3,1,""],on_train_end:[1,3,1,""],patience:[1,2,1,""],tol:[1,2,1,""]},"pytorch_tabnet.callbacks.History":{on_batch_end:[1,3,1,""],on_epoch_begin:[1,3,1,""],on_epoch_end:[1,3,1,""],on_train_begin:[1,3,1,""],trainer:[1,2,1,""],verbose:[1,2,1,""]},"pytorch_tabnet.callbacks.LRSchedulerCallback":{early_stopping_metric:[1,2,1,""],is_batch_level:[1,2,1,""],on_batch_end:[1,3,1,""],on_epoch_end:[1,3,1,""],optimizer:[1,2,1,""],scheduler_fn:[1,2,1,""],scheduler_params:[1,2,1,""]},"pytorch_tabnet.metrics":{AUC:[1,1,1,""],Accuracy:[1,1,1,""],BalancedAccuracy:[1,1,1,""],LogLoss:[1,1,1,""],MAE:[1,1,1,""],MSE:[1,1,1,""],Metric:[1,1,1,""],MetricContainer:[1,1,1,""],RMSE:[1,1,1,""],RMSLE:[1,1,1,""],UnsupMetricContainer:[1,1,1,""],UnsupervisedLoss:[1,4,1,""],UnsupervisedLossNumpy:[1,4,1,""],UnsupervisedMetric:[1,1,1,""],UnsupervisedNumpyMetric:[1,1,1,""],check_metrics:[1,4,1,""]},"pytorch_tabnet.metrics.Metric":{get_metrics_by_names:[1,3,1,""]},"pytorch_tabnet.metrics.MetricContainer":{metric_names:[1,2,1,""],prefix:[1,2,1,""]},"pytorch_tabnet.metrics.UnsupMetricContainer":{metric_names:[1,2,1,""],prefix:[1,2,1,""]},"pytorch_tabnet.multiclass_utils":{assert_all_finite:[1,4,1,""],check_classification_targets:[1,4,1,""],check_output_dim:[1,4,1,""],check_unique_type:[1,4,1,""],infer_multitask_output:[1,4,1,""],infer_output_dim:[1,4,1,""],is_multilabel:[1,4,1,""],type_of_target:[1,4,1,""],unique_labels:[1,4,1,""]},"pytorch_tabnet.multitask":{TabNetMultiTaskClassifier:[1,1,1,""]},"pytorch_tabnet.multitask.TabNetMultiTaskClassifier":{cat_dims:[1,2,1,""],cat_idxs:[1,2,1,""],compute_loss:[1,3,1,""],grouped_features:[1,2,1,""],optimizer_params:[1,2,1,""],predict:[1,3,1,""],predict_proba:[1,3,1,""],prepare_target:[1,3,1,""],scheduler_params:[1,2,1,""],stack_batches:[1,3,1,""],update_fit_params:[1,3,1,""]},"pytorch_tabnet.pretraining":{TabNetPretrainer:[1,1,1,""]},"pytorch_tabnet.pretraining.TabNetPretrainer":{cat_dims:[1,2,1,""],cat_idxs:[1,2,1,""],compute_loss:[1,3,1,""],fit:[1,3,1,""],grouped_features:[1,2,1,""],optimizer_params:[1,2,1,""],predict:[1,3,1,""],prepare_target:[1,3,1,""],scheduler_params:[1,2,1,""],stack_batches:[1,3,1,""],update_fit_params:[1,3,1,""]},"pytorch_tabnet.pretraining_utils":{create_dataloaders:[1,4,1,""],validate_eval_set:[1,4,1,""]},"pytorch_tabnet.sparsemax":{Entmax15:[1,1,1,""],Entmax15Function:[1,1,1,""],Entmoid15:[1,1,1,""],Sparsemax:[1,1,1,""],SparsemaxFunction:[1,1,1,""],entmax15:[1,4,1,""],entmoid15:[1,4,1,""],sparsemax:[1,4,1,""]},"pytorch_tabnet.sparsemax.Entmax15":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.sparsemax.Entmax15Function":{backward:[1,3,1,""],forward:[1,3,1,""]},"pytorch_tabnet.sparsemax.Entmoid15":{backward:[1,3,1,""],forward:[1,3,1,""]},"pytorch_tabnet.sparsemax.Sparsemax":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.sparsemax.SparsemaxFunction":{backward:[1,3,1,""],forward:[1,3,1,""]},"pytorch_tabnet.tab_model":{TabNetClassifier:[1,1,1,""],TabNetRegressor:[1,1,1,""]},"pytorch_tabnet.tab_model.TabNetClassifier":{cat_dims:[1,2,1,""],cat_idxs:[1,2,1,""],compute_loss:[1,3,1,""],grouped_features:[1,2,1,""],optimizer_params:[1,2,1,""],predict_func:[1,3,1,""],predict_proba:[1,3,1,""],prepare_target:[1,3,1,""],scheduler_params:[1,2,1,""],stack_batches:[1,3,1,""],update_fit_params:[1,3,1,""],weight_updater:[1,3,1,""]},"pytorch_tabnet.tab_model.TabNetRegressor":{cat_dims:[1,2,1,""],cat_idxs:[1,2,1,""],compute_loss:[1,3,1,""],grouped_features:[1,2,1,""],optimizer_params:[1,2,1,""],predict_func:[1,3,1,""],prepare_target:[1,3,1,""],scheduler_params:[1,2,1,""],stack_batches:[1,3,1,""],update_fit_params:[1,3,1,""]},"pytorch_tabnet.tab_network":{AttentiveTransformer:[1,1,1,""],EmbeddingGenerator:[1,1,1,""],FeatTransformer:[1,1,1,""],GBN:[1,1,1,""],GLU_Block:[1,1,1,""],GLU_Layer:[1,1,1,""],RandomObfuscator:[1,1,1,""],TabNet:[1,1,1,""],TabNetDecoder:[1,1,1,""],TabNetEncoder:[1,1,1,""],TabNetNoEmbeddings:[1,1,1,""],TabNetPretraining:[1,1,1,""],initialize_glu:[1,4,1,""],initialize_non_glu:[1,4,1,""]},"pytorch_tabnet.tab_network.AttentiveTransformer":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.EmbeddingGenerator":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.FeatTransformer":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.GBN":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.GLU_Block":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.GLU_Layer":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.RandomObfuscator":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.TabNet":{forward:[1,3,1,""],forward_masks:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.TabNetDecoder":{forward:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.TabNetEncoder":{forward:[1,3,1,""],forward_masks:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.TabNetNoEmbeddings":{forward:[1,3,1,""],forward_masks:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.tab_network.TabNetPretraining":{forward:[1,3,1,""],forward_masks:[1,3,1,""],training:[1,2,1,""]},"pytorch_tabnet.utils":{ComplexEncoder:[1,1,1,""],PredictDataset:[1,1,1,""],SparsePredictDataset:[1,1,1,""],SparseTorchDataset:[1,1,1,""],TorchDataset:[1,1,1,""],check_embedding_parameters:[1,4,1,""],check_input:[1,4,1,""],check_list_groups:[1,4,1,""],check_warm_start:[1,4,1,""],create_dataloaders:[1,4,1,""],create_explain_matrix:[1,4,1,""],create_group_matrix:[1,4,1,""],create_sampler:[1,4,1,""],define_device:[1,4,1,""],filter_weights:[1,4,1,""],validate_eval_set:[1,4,1,""]},"pytorch_tabnet.utils.ComplexEncoder":{"default":[1,3,1,""]},pytorch_tabnet:{abstract_model:[1,0,0,"-"],augmentations:[1,0,0,"-"],callbacks:[1,0,0,"-"],metrics:[1,0,0,"-"],multiclass_utils:[1,0,0,"-"],multitask:[1,0,0,"-"],pretraining:[1,0,0,"-"],pretraining_utils:[1,0,0,"-"],sparsemax:[1,0,0,"-"],tab_model:[1,0,0,"-"],tab_network:[1,0,0,"-"],utils:[1,0,0,"-"]}},objnames:{"0":["py","module","Python module"],"1":["py","class","Python class"],"2":["py","attribute","Python attribute"],"3":["py","method","Python method"],"4":["py","function","Python function"]},objtypes:{"0":"py:module","1":"py:class","2":"py:attribute","3":"py:method","4":"py:function"},terms:{"1st":0,"abstract":1,"boolean":1,"case":1,"class":0,"default":[1,2],"float":[0,1],"function":0,"import":[0,1],"int":[0,1],"new":[1,2],"return":[0,1],"static":1,"throw":1,"true":[0,1],"try":[0,1],"while":1,Added:0,For:1,One:1,The:[0,1],Use:1,Useful:2,Using:1,__call__:0,__init__:0,_contextmethodmixin:1,_maxim:0,_name:0,a_max:0,a_min:0,about:1,abov:1,abs:1,absolut:1,abstract_model:2,accept:1,accord:[0,1],accross:0,accuraci:[0,1],adam:[0,1],added:0,after:1,afterward:1,aim:0,alia:1,all:[0,1],allow:[0,1],allow_nan:1,along:1,alpha:1,alreadi:0,also:[0,1],although:1,alwai:0,ambigu:1,amount:1,ani:[0,1],anyth:1,api:0,appear:1,append:1,appli:[0,1],arbitrari:1,architectur:0,arg:1,argument:1,arik:0,arrai:[0,1],arxiv:[0,1],assert_all_finit:1,assign:[0,1],astudillo:1,attent:[1,2],attentivetransform:1,attribut:1,auc:[0,1],augment:2,auto:[0,1],autograd:1,autom:[0,1],automat:[0,1],avail:0,averag:1,avoid:1,awar:0,backward:1,balanc:[0,1],balancedaccuraci:1,base:1,baseestim:1,basic:0,batch:[0,1],batch_out:[],batch_siz:[0,1],becaus:[0,1],been:0,befor:[0,1],bellow:0,below:0,ben:1,best:0,beta:1,better:0,between:[0,1],bigger:0,binari:[0,1],blob:0,block:[0,1],bool:[0,1],both:1,build:[0,1],built:1,call:1,callabl:1,callback:[0,2],callbackcontain:1,can:[0,1],capac:0,care:1,cat:[],cat_dim:[0,1],cat_emb_dim:[0,1],cat_idx:[0,1],categor:[0,1],censu:[],certain:1,chang:[0,1],check:1,check_circular:1,check_classification_target:1,check_embedding_paramet:1,check_input:1,check_list_group:1,check_metr:1,check_nan:[],check_output_dim:1,check_unique_typ:1,check_warm_start:1,choic:0,cite:1,class_attr:1,classic:[0,1],classif:[0,1],classificationsmot:[0,1],classmethod:1,clear:1,clf:0,clip:[0,1],clip_valu:[0,1],clone:0,close:0,cls:1,code:2,coeffici:0,column:[0,1],com:[0,1],come:0,commit:0,compat:[0,1],complet:0,complexencod:1,comput:[0,1],compute_import:[0,1],compute_loss:1,conda:0,consecut:[0,1],contain:[0,1],content:2,context:1,continu:1,contribut:2,convert:1,corr:1,correct:1,correl:0,correspond:1,could:[0,1],counter:1,cpu:1,creat:[0,1],create_dataload:1,create_explain_matrix:1,create_group_matrix:1,create_sampl:1,cross:0,csr:[0,1],csr_matrix:1,ctx:1,cuda:1,current:[0,1],custom:[1,2],data:[1,2],datafram:1,dataload:[0,1],dataset:[0,1],dblp:1,decai:0,decis:0,decod:0,deduc:0,deep:1,deeprecomodel:1,def:[0,1],defin:[0,1],define_devic:1,degener:1,depend:[0,1],descript:1,detail:1,detect:[0,1],determin:1,develop:0,devic:1,device_nam:[0,1],dict:[0,1],dictionari:1,dictionnari:[0,1],did:[],differ:[0,1],differenti:1,difficulti:0,dim:1,dimens:1,directli:1,discret:1,discuss:0,disk:0,distinct:1,distribut:1,divid:0,divis:1,docker:0,doe:[1,2],doing:0,don:1,done:[0,1],dreamquark:0,dreamquarktabnet:0,drop:[0,1],drop_last:[0,1],dure:[0,1],each:[0,1],earli:[0,1],early_stopping_metr:1,earlystop:1,easi:2,easier:0,easili:0,either:[0,1],element:1,els:1,emb:[],embded:[],embed:[0,1],embedded_x:1,embeddinggener:1,empti:1,enabl:0,encod:1,end:0,enforc:1,ensur:1,ensure_ascii:1,entmax15:1,entmax15funct:1,entmax:[0,1],entmoid15:1,entropi:0,epoch:[0,1],eps:1,epsilon:[0,1],equal:1,equival:1,error:1,especi:0,eval:[0,1,2],eval_metr:1,eval_nam:[0,1],eval_set:[0,1],evalu:[1,2],even:0,event:1,everi:[0,1],exact:1,exactli:0,exampl:[0,1],except:1,exempl:0,exist:0,exit:1,expert:1,explain:1,explan:1,explanatori:0,explicit:1,extra:0,extract:1,factori:1,fals:[0,1],feattransform:1,featu:[],featur:[0,1],few:0,file:1,filepath:1,filter_weight:1,first:[0,1],fit:[1,2],fly:2,follow:[0,1],forest:[],forg:0,format:1,former:1,formula:1,forward:1,forward_mask:1,found:0,frequenc:1,from:[0,1],from_unsupervis:[0,1],further:0,gamma:[0,1],gate:0,gbn:1,gener:[0,1],get:[0,1],get_metrics_by_nam:1,ghost:[0,1],gini:0,git:0,github:[0,1],give:[0,1],given:[0,1],glu:[0,1],glu_block:1,glu_lay:1,good:0,gpu:1,grad:1,grad_output:1,gradient:[0,1],greater:0,group:[0,1],group_attention_matrix:1,group_dim:1,group_matrix:1,grouped_featur:[0,1],handl:2,happen:1,harder:0,has:[0,1],have:[0,1],help:0,here:0,highli:1,histori:1,hold:1,hook:1,hot:1,how:[1,2],html:1,http:[0,1],idf:0,idx:[],ignor:1,imeplement:[],implement:[0,1],improv:[0,1],includ:0,incomplet:1,indent:1,independ:[0,1],index:[1,2],indic:[0,1],infer:1,infer_multitask_output:1,infer_output_dim:1,infin:1,initi:[0,1],initialize_glu:1,initialize_non_glu:1,input:[0,1],input_dim:1,insid:0,instal:2,instanc:1,instead:1,integ:[0,1],intend:1,interpret:2,invers:[0,1],ipynb:0,is_batch_level:1,is_maxim:1,is_multilabel:1,issu:0,iter:1,its:0,join:0,journal:1,json:1,jsonencod:1,jupyt:0,just:1,jvp:1,kaggl:0,keep:1,kei:[0,1],kwarg:1,labda:[],lambda:1,lambda_spars:[0,1],larg:0,last:[0,1],later:0,latter:1,layer:0,learn:[1,2],least:[0,1],left:[0,1],length:[0,1],let:1,level:[0,1],librari:0,like:[0,1],line:0,linear:0,link:2,list:[0,1],list_embedded_x:1,list_group:1,list_obfusc:1,list_output:1,list_y_scor:1,list_y_tru:1,load:[1,2],load_class_attr:1,load_model:[0,1],load_weights_from_unsupervis:1,loaded_clf:0,local:[0,1],log:1,logarithm:1,logloss:[0,1],longtensor:1,loop:1,loss:[0,1],loss_fn:[0,1],lot:0,lower:0,lr_schedul:[0,1],lrschedulercallback:1,m_explain:1,m_ij:1,made:0,mae:[0,1],main:1,maintain:0,make:[0,1],mandatori:0,mani:1,manner:1,manual:1,map:1,martin:1,martinsa16:1,mask:[0,1],mask_typ:[0,1],match:[0,1],matric:1,matrix:[0,1],max:0,max_epoch:[0,1],maxim:[0,1],maximum:[0,1],mean:[0,1],mean_squared_log_error:1,mechan:0,memori:1,mention:0,method:1,metric:2,metric_nam:1,metriccontain:1,might:[0,1],mini:0,minimum:1,mix:1,moa:0,modal:0,mode:1,model:[1,2],model_nam:0,modul:2,moment:1,momentum:[0,1],monitor:1,more:[0,1],most:1,mse:[0,1],multi:0,multiclass:[0,1],multiclass_util:2,multilabel:1,multioutput:1,multipl:1,multitask:[0,2],must:[0,1],n_a:[0,1],n_d:[0,1],n_glu:1,n_glu_independ:1,n_group:1,n_indep_decod:[0,1],n_independ:[0,1],n_sampl:1,n_share:[0,1],n_shared_decod:[0,1],n_step:[0,1],n_unique_label:1,name:[0,1],nan:1,ndarrai:1,need:[0,1],needs_input_grad:1,neg:[0,1],network:1,neural:1,nicula:1,non:1,none:[0,1],normal:[0,1],note:[0,1],notebook:0,now:0,num:[],num_work:[0,1],number:[0,1],numpi:1,obf_var:1,obfusc:1,obj:1,object:1,occur:[],occurr:0,on_batch_begin:1,on_batch_end:1,on_epoch_begin:1,on_epoch_end:1,on_train_begin:1,on_train_end:1,one:[0,1],onecyclelr:1,ones:0,onli:1,oper:1,optim:[0,1],optimizer_fn:[0,1],optimizer_param:[0,1],optimo:[],option:0,order:[0,1],org:[0,1],orgin:[0,1],origin:[0,1],other:1,otherwis:1,our:0,out:1,output:1,output_dim:1,over:1,overfit:0,overridden:1,overtim:0,overwritten:0,own:[0,1],packag:2,page:2,panda:1,paper:[0,1],param:1,paramet:[1,2],pass:1,path:1,patienc:[0,1],pca:0,pdf:0,per:[0,1],percentag:[0,1],perform:[0,1],peter:1,pfister:0,pin:1,pin_memori:1,pip:0,pipelin:0,place:0,pleas:0,plot:0,poetri:0,point:1,posit:1,possibl:0,post:1,post_embed_dim:1,pre:2,pred:0,predict:[0,1],predict_func:1,predict_proba:1,predictdataset:1,prefix:1,prepar:1,prepare_target:1,preprint:0,preprocess:0,present:0,pretrain:[0,2],pretraining_exampl:0,pretraining_ratio:[0,1],pretraining_util:2,previous:1,print:1,prior:1,priori:1,probabl:1,problem:[1,2],process:1,processed_feat:1,product:[0,1],propos:0,provid:1,pytorch:[1,2],pytorch_tabnet:0,qualifi:1,question:0,rais:1,random:[0,1],randomobfusc:1,rang:0,rapidli:1,rate:0,readi:0,readm:2,realli:0,rearrang:1,recip:1,recommend:0,reconstruct:[0,1],record:1,reduc:[0,1],reducing_matrix:1,regist:1,regress:[0,1],regressionsmot:[0,1],rel:1,relat:1,repositori:0,repres:1,reproduc:0,requir:1,res:1,reset:1,result:1,retriev:[0,1],reus:0,reusag:0,risk:0,rmse:[0,1],rmsle:[0,1],roc_auc_scor:0,root:1,row:1,rule:[0,1],run:1,same:[0,1],sampl:[0,1],sampler:1,save:[1,2],save_for_backward:1,save_for_forward:1,save_model:[0,1],saved_filepath:0,saving_path:[],saving_path_nam:0,scale:1,schedul:[0,1],scheduler_fn:[0,1],scheduler_param:[0,1],scikit:[0,1],scipi:[0,1],score:[0,1],search:2,section:[],see:[0,1],seed:[0,1],select:0,self:[0,1],semi:2,separ:1,sequenc:1,serializ:1,set:[0,1],set_param:1,set_train:1,shape:1,share:0,shared_lay:1,should:[0,1],show:1,silent:1,simpl:0,sinc:[0,1],singl:[0,1],size:[0,1],skipkei:1,sklearn:[0,1],slack:0,small:1,smaller:1,smote:1,softmax:1,solut:0,some:[0,1],sort:1,sort_kei:1,sourc:[1,2],spars:[0,1],sparsemax:[0,2],sparsemaxfunct:1,sparsepredictdataset:1,sparser:0,sparsetorchdataset:1,sparsiti:0,specif:[0,1],specifi:0,specifii:0,spin:1,squar:1,stabl:1,stack_batch:1,stai:1,start:[0,1],state:0,step:[0,1],step_siz:0,steplr:0,steps_output:1,stop:[0,1],store:1,str:[0,1],string:[0,1],subclass:1,subprocess:1,subsampl:1,sum:1,supermodul:1,supervis:[1,2],support:1,sure:[0,1],tab_model:[0,2],tab_network:2,tabmodel:1,tabnet:[1,2],tabnet_model_test_1:0,tabnetclassifi:[0,1],tabnetdecod:1,tabnetencod:1,tabnetmultitaskclassifi:[0,1],tabnetnoembed:1,tabnetpretrain:[0,1],tabnetregressor:[0,1],tabular:2,take:1,talk:0,target:[0,1],target_mapp:1,target_typ:1,task:[0,1],tasks_dim:1,tasks_label:1,templat:0,tensor:1,term:0,termin:[0,1],text:0,than:[0,1],thei:[0,1],them:1,thi:[0,1],though:1,tol:1,torch:[0,1],torchdataset:1,train:[1,2],train_dataload:1,train_label:1,trainer:1,trainng:0,transform:[0,1],trick:1,tupl:[0,1],twice:[0,1],two:1,type:[0,1],type_of_target:1,typeerror:1,typic:0,unchang:1,uniqu:[0,1],unique_label:1,unit:0,unknown:1,unsupervis:1,unsupervised_model:[0,1],unsupervisedloss:1,unsupervisedlossnumpi:1,unsupervisedmetr:1,unsupervisednumpymetr:1,unsupmetriccontain:1,untouch:0,updat:1,update_fit_param:1,usag:1,use:[1,2],used:[0,1],useful:0,user:1,using:0,usual:0,util:[0,2],val_metr:1,valid:[0,1],valid_dataload:1,validate_eval_set:1,valu:[0,1],valueerror:1,variabl:[0,1],vector:1,verbos:[0,1],version:0,via:0,video:0,virtual:[],virtual_batch_s:[0,1],vjp:1,vlad:1,wait:1,wan:0,want:0,warm:0,warm_start:[0,1],warn:1,weight:[0,1],weight_updat:1,well:1,were:1,what:2,when:[0,1],where:1,wheter:1,whether:[0,1],which:[0,1],width:0,wihtout:[],wish:0,within:[0,1],without:[0,1],work:1,worker:[0,1],wors:0,wrapper:1,wrong:1,www:[],x_predict:0,x_test:0,x_train:[0,1],x_valid:0,y_pred:1,y_score:[0,1],y_train:[0,1],y_true:[0,1],y_valid:0,you:[0,1],your:0,youtu:[],ysbazo8ymx8:[],zerodivisionerror:1,zip:1},titles:["README","pytorch_tabnet package","Welcome to pytorch_tabnet\u2019s documentation!"],titleterms:{"class":1,"default":0,"function":1,"new":0,Useful:0,abstract_model:1,attent:0,augment:[0,1],callback:1,code:0,contribut:0,cpu:0,custom:0,data:0,doc:[],document:2,doe:0,early_stopping_metr:[],easi:0,eval_metr:0,evalu:0,fit:0,fly:0,gpu:0,handl:0,how:0,indic:2,instal:0,interpret:0,label:1,learn:0,link:0,load:0,metric:[0,1],model:0,modul:1,multi:1,multiclass_util:1,multitask:1,onli:0,packag:1,paramet:0,pre:0,pretrain:1,pretraining_util:1,problem:0,pytorch:0,pytorch_tabnet:[1,2],readm:0,save:0,script:[],semi:0,sourc:0,sparsemax:1,supervis:0,tab_model:1,tab_network:1,tabl:2,tabnet:0,tabular:0,train:0,use:0,util:1,welcom:2,what:0}})
\ No newline at end of file
diff --git a/pyproject.toml b/pyproject.toml
index 537adf0b..09d4f156 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "pytorch_tabnet"
-version = "4.0"
+version = "4.1.0"
 description = "PyTorch implementation of TabNet"
 homepage = "https://github.com/dreamquark-ai/tabnet"
 repository = "https://github.com/dreamquark-ai/tabnet"