General improvements:

- Fixed examples by removing asynchronous keyword argument. - Improved in logging. - Fixed neuralnetwork.py and rt.py module for cases where batch elements are asymmetric.
muammar · Nov 21, 2019 · a49c7d6 · a49c7d6
1 parent 2196266
commit a49c7d6
Show file tree

Hide file tree

Showing 9 changed files with 29 additions and 22 deletions.
diff --git a/examples/krr_potentials/cu_inference.py b/examples/krr_potentials/cu_inference.py
@@ -31,5 +31,5 @@ def main():
 if __name__ == "__main__":
     logger(filename="cu_inference.log")
     cluster = LocalCluster(n_workers=8, threads_per_worker=2)
-    client = Client(cluster, asyncronous=True)
+    client = Client(cluster)
     main()
diff --git a/examples/krr_potentials/cu_training.py b/examples/krr_potentials/cu_training.py
@@ -31,5 +31,5 @@ def train():
 if __name__ == "__main__":
     logger(filename="cu_training.log")
     cluster = LocalCluster()
-    client = Client(cluster, asyncronous=True)
+    client = Client(cluster)
     train()
diff --git a/examples/nn_potentials/cu_inference.py b/examples/nn_potentials/cu_inference.py
@@ -32,5 +32,5 @@ def main():
         format="%(filename)s:%(lineno)s %(levelname)s:%(message)s",
     )
     cluster = LocalCluster(n_workers=8, threads_per_worker=2)
-    client = Client(cluster, asyncronous=True)
+    client = Client(cluster)
     main()
diff --git a/examples/nn_potentials/cu_training.py b/examples/nn_potentials/cu_training.py
@@ -48,5 +48,5 @@ def train():
 if __name__ == "__main__":
     logger(filename="cu_training.log")
     cluster = LocalCluster()
-    client = Client(cluster, asyncronous=True)
+    client = Client(cluster)
     train()
diff --git a/ml4chem/features/autoencoders.py b/ml4chem/features/autoencoders.py
@@ -172,7 +172,9 @@ def calculate(self, images, purpose="training", data=None, svm=False):
         else:
             if encoder.name() == "VAE":
                 purpose = "inference"
-            latent_space = encoder.get_latent_space(feature_space, svm=svm, purpose=purpose)
+            latent_space = encoder.get_latent_space(
+                feature_space, svm=svm, purpose=purpose
+            )
 
         return latent_space
 

diff --git a/ml4chem/features/cartesian.py b/ml4chem/features/cartesian.py
@@ -81,8 +81,8 @@ def calculate(self, images=None, purpose="training", data=None, svm=False):
         """
 
         logger.info(" ")
-        logger.info("Fingerprinting")
-        logger.info("==============")
+        logger.info("Featurization")
+        logger.info("=============")
 
         if os.path.isfile(self.filename) and self.overwrite is False:
             logger.warning("Loading features from {}.".format(self.filename))
@@ -247,7 +247,7 @@ def calculate(self, images=None, purpose="training", data=None, svm=False):
         h, m, s = convert_elapsed_time(fp_time)
 
         logger.info(
-            "Fingerprinting finished in {} hours {} minutes {:.2f} "
+            "Featurization finished in {} hours {} minutes {:.2f} "
             "seconds.\n".format(h, m, s)
         )
 

diff --git a/ml4chem/features/gaussian.py b/ml4chem/features/gaussian.py
@@ -168,8 +168,8 @@ def calculate(self, images=None, purpose="training", data=None, svm=False):
         """
 
         logger.info(" ")
-        logger.info("Fingerprinting")
-        logger.info("==============")
+        logger.info("Featurization")
+        logger.info("=============")
 
         # FIXME the block below should become a function.
         if os.path.isfile(self.filename) and self.overwrite is False:
@@ -392,7 +392,7 @@ def calculate(self, images=None, purpose="training", data=None, svm=False):
             h, m, s = convert_elapsed_time(fp_time)
 
             logger.info(
-                "Fingerprinting finished in {} hours {} minutes {:.2f}"
+                "Featurization finished in {} hours {} minutes {:.2f}"
                 " seconds.".format(h, m, s)
             )
 
@@ -443,7 +443,7 @@ def calculate(self, images=None, purpose="training", data=None, svm=False):
             h, m, s = convert_elapsed_time(fp_time)
 
             logger.info(
-                "Fingerprinting finished in {} hours {} minutes {:.2f}"
+                "Featurization finished in {} hours {} minutes {:.2f}"
                 " seconds.".format(h, m, s)
             )
 

diff --git a/ml4chem/models/autoencoders.py b/ml4chem/models/autoencoders.py
@@ -169,7 +169,7 @@ def prepare_model(
 
                 values = [h, mu, logvar]
                 encoder = torch.nn.ModuleDict(list(map(list, zip(keys, values))))
-            else: 
+            else:
 
                 encoder = torch.nn.Sequential(*encoder)
 
@@ -599,7 +599,7 @@ def reparameterize(self, mu, logvar, purpose=None):
             A sample from the distribution.
         """
         if purpose is None:
-            raise("You need to provide a purpose")
+            raise ("You need to provide a purpose")
 
         elif purpose == "training":
             std = torch.exp(0.5 * logvar)
@@ -700,7 +700,7 @@ def get_latent_space(self, X, svm=False, purpose=None):
         """
 
         if purpose is None:
-            raise("You need to provide a purpose")
+            raise ("You need to provide a purpose")
 
         # FIXME parallelize me
         if purpose == "preprocessing":
@@ -716,7 +716,9 @@ def get_latent_space(self, X, svm=False, purpose=None):
                         mu_latent, logvar_latent = self.encode(x)
                     else:
                         mu_latent, logvar_latent = self.encode(x, symbol=symbol)
-                    latent_vector = self.reparameterize(mu_latent, logvar_latent, purpose="latent")
+                    latent_vector = self.reparameterize(
+                        mu_latent, logvar_latent, purpose="latent"
+                    )
                     _symbols.append(symbol)
 
                     if svm:
@@ -745,7 +747,9 @@ def get_latent_space(self, X, svm=False, purpose=None):
                         mu_latent, logvar_latent = self.encode(x)
                     else:
                         mu_latent, logvar_latent = self.encode(x, symbol=symbol)
-                    latent_vector = self.reparameterize(mu_latent, logvar_latent, purpose=purpose)
+                    latent_vector = self.reparameterize(
+                        mu_latent, logvar_latent, purpose=purpose
+                    )
 
                     if svm:
                         _latent_vector = latent_vector.detach().numpy()

diff --git a/ml4chem/models/neuralnetwork.py b/ml4chem/models/neuralnetwork.py
@@ -277,11 +277,12 @@ def __init__(
         logging.info("Batch size: {} elements per batch.".format(batch_size))
         logger.info(" ")
 
-        atoms_per_image = torch.tensor(
-            atoms_per_image, requires_grad=False, dtype=torch.float
-        )
+        atoms_per_image = [
+            torch.tensor(n_atoms, requires_grad=False, dtype=torch.float)
+            for n_atoms in atoms_per_image
+        ]
 
-        targets = torch.tensor(targets, requires_grad=False)
+        targets = [torch.tensor(t, requires_grad=False) for t in targets]
 
         if device == "cuda":
             logger.info("Moving data to CUDA...")
@@ -381,7 +382,7 @@ def trainer(self):
             client = dask.distributed.get_client()
 
             rmse = client.submit(compute_rmse, *(outputs_, self.targets))
-            atoms_per_image = self.atoms_per_image.view(1, -1)
+            atoms_per_image = torch.cat(self.atoms_per_image)
             rmse_atom = client.submit(
                 compute_rmse, *(outputs_, self.targets, atoms_per_image)
             )