Merge pull request #941 from YosefLab/renaming

renaming data loader
scverse · Feb 19, 2021 · f2c42c6 · f2c42c6
2 parents bcae907 + ef96280
commit f2c42c6
Show file tree

Hide file tree

Showing 10 changed files with 76 additions and 40 deletions.
diff --git a/scvi/external/gimvi/_model.py b/scvi/external/gimvi/_model.py
@@ -225,7 +225,7 @@ def train(
     def _make_scvi_dls(self, adatas: List[AnnData] = None, batch_size=128):
         if adatas is None:
             adatas = self.adatas
-        post_list = [self._make_scvi_dl(ad) for ad in adatas]
+        post_list = [self._make_data_loader(ad) for ad in adatas]
         for i, dl in enumerate(post_list):
             dl.mode = i
 

diff --git a/scvi/external/solo/_model.py b/scvi/external/solo/_model.py
@@ -215,7 +215,7 @@ def predict(self, soft: bool = True):
         """
         adata = self._validate_anndata(None)
 
-        scdl = self._make_scvi_dl(
+        scdl = self._make_data_loader(
             adata=adata,
         )
 

diff --git a/scvi/model/_autozi.py b/scvi/model/_autozi.py
@@ -176,7 +176,9 @@ def get_marginal_ll(
         if indices is None:
             indices = np.arange(adata.n_obs)
 
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         log_lkl = 0
         to_sum = torch.zeros((n_mc_samples,))

diff --git a/scvi/model/_peakvi.py b/scvi/model/_peakvi.py
@@ -235,7 +235,9 @@ def get_library_size_factors(
         batch_size: int = 128,
     ):
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         library_sizes = []
         for tensors in scdl:
@@ -300,7 +302,9 @@ def get_accessibility_estimates(
 
         """
         adata = self._validate_anndata(adata)
-        post = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        post = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
         transform_batch = _get_batch_code_from_category(adata, transform_batch)
 
         if threshold is not None and (threshold < 0 or threshold > 1):

diff --git a/scvi/model/_scanvi.py b/scvi/model/_scanvi.py
@@ -356,7 +356,7 @@ def predict(
         if indices is None:
             indices = np.arange(adata.n_obs)
 
-        scdl = self._make_scvi_dl(
+        scdl = self._make_data_loader(
             adata=adata,
             indices=indices,
             batch_size=batch_size,
@@ -415,7 +415,7 @@ def _train_test_val_split(
         n_samples_per_label
             Number of subsamples for each label class to sample per epoch
         **kwargs
-            Keyword args for `_make_scvi_dl()`
+            Keyword args for `_make_data_loader()`
         """
         train_size = float(train_size)
         if train_size > 1.0 or train_size <= 0.0:
@@ -486,37 +486,37 @@ def get_train_val_split(n_samples, test_size, train_size):
         indices_test = indices_test.astype(int)
 
         if len(self._labeled_indices) != 0:
-            dataloader_class = SemiSupervisedDataLoader
+            data_loader_class = SemiSupervisedDataLoader
             dl_kwargs = {
                 "unlabeled_category": unlabeled_category,
                 "n_samples_per_label": n_samples_per_label,
             }
         else:
-            dataloader_class = AnnDataLoader
+            data_loader_class = AnnDataLoader
             dl_kwargs = {}
         dl_kwargs.update(kwargs)
 
-        scanvi_train_dl = self._make_scvi_dl(
+        scanvi_train_dl = self._make_data_loader(
             adata,
             indices=indices_train,
             shuffle=True,
-            scvi_dl_class=dataloader_class,
+            data_loader_class=data_loader_class,
             drop_last=3,
             **dl_kwargs,
         )
-        scanvi_val_dl = self._make_scvi_dl(
+        scanvi_val_dl = self._make_data_loader(
             adata,
             indices=indices_val,
             shuffle=True,
-            scvi_dl_class=dataloader_class,
+            data_loader_class=data_loader_class,
             drop_last=3,
             **dl_kwargs,
         )
-        scanvi_test_dl = self._make_scvi_dl(
+        scanvi_test_dl = self._make_data_loader(
             adata,
             indices=indices_test,
             shuffle=True,
-            scvi_dl_class=dataloader_class,
+            data_loader_class=data_loader_class,
             drop_last=3,
             **dl_kwargs,
         )

diff --git a/scvi/model/_totalvi.py b/scvi/model/_totalvi.py
@@ -272,7 +272,9 @@ def get_latent_library_size(
             raise RuntimeError("Please train the model first.")
 
         adata = self._validate_anndata(adata)
-        post = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        post = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
         libraries = []
         for tensors in post:
             inference_inputs = self.module._get_inference_input(tensors)
@@ -361,7 +363,9 @@ def get_normalized_expression(
         Otherwise, shape is ``(cells, genes)``. Return type is ``pd.DataFrame`` unless ``return_numpy`` is True.
         """
         adata = self._validate_anndata(adata)
-        post = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        post = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         if gene_list is None:
             gene_mask = slice(None)
@@ -524,7 +528,9 @@ def get_protein_foreground_probability(
         Otherwise, shape is `(cells, genes)`. In this case, return type is :class:`~pandas.DataFrame` unless `return_numpy` is True.
         """
         adata = self._validate_anndata(adata)
-        post = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        post = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         if protein_list is None:
             protein_mask = slice(None)
@@ -754,7 +760,9 @@ def posterior_predictive_sample(
             all_proteins = self.scvi_setup_dict_["protein_names"]
             protein_mask = [True if p in protein_list else False for p in all_proteins]
 
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         scdl_list = []
         for tensors in scdl:
@@ -802,7 +810,9 @@ def _get_denoised_samples(
             int of which batch to condition on for all cells
         """
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         scdl_list = []
         for tensors in scdl:
@@ -999,7 +1009,9 @@ def _data_loader_cls(self):
     @torch.no_grad()
     def get_protein_background_mean(self, adata, indices, batch_size):
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
         background_mean = []
         for tensors in scdl:
             _, inference_outputs, _ = self.module.forward(tensors)

diff --git a/scvi/model/base/_base_model.py b/scvi/model/base/_base_model.py
@@ -47,13 +47,13 @@ def __init__(self, adata: Optional[AnnData] = None, use_gpu: Optional[bool] = No
         self.validation_indices_ = None
         self.history_ = None
 
-    def _make_scvi_dl(
+    def _make_data_loader(
         self,
         adata: AnnData,
         indices: Optional[Sequence[int]] = None,
         batch_size: Optional[int] = None,
         shuffle: bool = False,
-        scvi_dl_class=None,
+        data_loader_class=None,
         **data_loader_kwargs,
     ):
         """
@@ -77,13 +77,13 @@ def _make_scvi_dl(
             batch_size = settings.batch_size
         if indices is None:
             indices = np.arange(adata.n_obs)
-        if scvi_dl_class is None:
-            scvi_dl_class = self._data_loader_cls
+        if data_loader_class is None:
+            data_loader_class = self._data_loader_cls
 
         if "num_workers" not in data_loader_kwargs:
             data_loader_kwargs.update({"num_workers": settings.dl_num_workers})
 
-        dl = scvi_dl_class(
+        dl = data_loader_class(
             adata,
             shuffle=shuffle,
             indices=indices,
@@ -113,7 +113,7 @@ def _train_test_val_split(
         validation_size
             float, or None (default is None)
         **kwargs
-            Keyword args for `_make_scvi_dl()`
+            Keyword args for `_make_data_loader()`
         """
         train_size = float(train_size)
         if train_size > 1.0 or train_size <= 0.0:
@@ -140,13 +140,13 @@ def _train_test_val_split(
 
         # do not remove drop_last=3, skips over small minibatches
         return (
-            self._make_scvi_dl(
+            self._make_data_loader(
                 adata, indices=indices_train, shuffle=True, drop_last=3, **kwargs
             ),
-            self._make_scvi_dl(
+            self._make_data_loader(
                 adata, indices=indices_validation, shuffle=True, drop_last=3, **kwargs
             ),
-            self._make_scvi_dl(
+            self._make_data_loader(
                 adata, indices=indices_test, shuffle=True, drop_last=3, **kwargs
             ),
         )

diff --git a/scvi/model/base/_rnamixin.py b/scvi/model/base/_rnamixin.py
@@ -81,7 +81,9 @@ def get_normalized_expression(
         Otherwise, shape is `(cells, genes)`. In this case, return type is :class:`~pandas.DataFrame` unless `return_numpy` is True.
         """
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         transform_batch = _get_batch_code_from_category(adata, transform_batch)
 
@@ -252,7 +254,9 @@ def posterior_predictive_sample(
             raise ValueError("Invalid gene_likelihood.")
 
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         if indices is None:
             indices = np.arange(adata.n_obs)
@@ -308,7 +312,9 @@ def _get_denoised_samples(
         denoised_samples
         """
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         data_loader_list = []
         for tensors in scdl:
@@ -453,7 +459,9 @@ def get_likelihood_parameters(
             Minibatch size for data loading into model. Defaults to `scvi.settings.batch_size`.
         """
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
 
         dropout_list = []
         mean_list = []
@@ -522,7 +530,9 @@ def get_latent_library_size(
         if self.is_trained_ is False:
             raise RuntimeError("Please train the model first.")
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
         libraries = []
         for tensors in scdl:
             inference_inputs = self.module._get_inference_input(tensors)

diff --git a/scvi/model/base/_vaemixin.py b/scvi/model/base/_vaemixin.py
@@ -36,7 +36,9 @@ def get_elbo(
             Minibatch size for data loading into model. Defaults to `scvi.settings.batch_size`.
         """
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
         elbo = compute_elbo(self.module, scdl)
         return -elbo
 
@@ -69,7 +71,9 @@ def get_marginal_ll(
         adata = self._validate_anndata(adata)
         if indices is None:
             indices = np.arange(adata.n_obs)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
         if hasattr(self.module, "marginal_ll"):
             log_lkl = 0
             for tensors in scdl:
@@ -106,7 +110,9 @@ def get_reconstruction_error(
             Minibatch size for data loading into model. Defaults to `scvi.settings.batch_size`.
         """
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
         reconstruction_error = compute_reconstruction_error(self.module, scdl)
         return reconstruction_error
 
@@ -148,7 +154,9 @@ def get_latent_representation(
             raise RuntimeError("Please train the model first.")
 
         adata = self._validate_anndata(adata)
-        scdl = self._make_scvi_dl(adata=adata, indices=indices, batch_size=batch_size)
+        scdl = self._make_data_loader(
+            adata=adata, indices=indices, batch_size=batch_size
+        )
         latent = []
         for tensors in scdl:
             inference_inputs = self.module._get_inference_input(tensors)

diff --git a/tests/models/test_scarches.py b/tests/models/test_scarches.py
@@ -10,7 +10,7 @@
 
 
 def single_pass_for_online_update(model):
-    dl = model._make_scvi_dl(model.adata, indices=range(0, 10))
+    dl = model._make_data_loader(model.adata, indices=range(0, 10))
     for i_batch, tensors in enumerate(dl):
         _, _, scvi_loss = model.module(tensors)
     scvi_loss.loss.backward()