Preparing to new release.

- Most of the modules print time when they were accessed. - All features now provide a .to_pandas() method. - Black cleaned.
muammar · Jan 7, 2020 · 8c4058c · 8c4058c
1 parent 45e284c
commit 8c4058c
Show file tree

Hide file tree

Showing 9 changed files with 43 additions and 8 deletions.
diff --git a/ml4chem/__init__.py b/ml4chem/__init__.py
@@ -2,4 +2,4 @@
 
 
 __all__ = ["Potentials"]
-__version__ = "0.0.5-dev"
+__version__ = "0.0.5"
diff --git a/ml4chem/data/handler.py b/ml4chem/data/handler.py
@@ -1,5 +1,6 @@
 from collections import OrderedDict
 from ml4chem.utils import get_hash
+import datetime
 import logging
 
 logger = logging.getLogger()
@@ -32,6 +33,8 @@ def __init__(self, images, purpose=None):
         self.unique_element_symbols = None
         logger.info("Data")
         logger.info("====")
+        now = datetime.datetime.now()
+        logger.info("Module accessed on {}.".format(now.strftime("%Y-%m-%d %H:%M:%S")))
 
         if self.is_valid_structure(images) is False:
             logger.warning("Data structure is not compatible with ML4Chem.")

diff --git a/ml4chem/features/autoencoders.py b/ml4chem/features/autoencoders.py
@@ -1,15 +1,17 @@
 import json
 import logging
+import pandas as pd
 import torch
 from collections import OrderedDict
 from ml4chem.data.preprocessing import Preprocessing
+from ml4chem.features.base import AtomisticFeatures
 from ml4chem.utils import dynamic_import
 
 # Starting logger object
 logger = logging.getLogger()
 
 
-class LatentFeatures(object):
+class LatentFeatures(AtomisticFeatures):
     """Extraction of features using AutoEncoder model class.
 
     The latent space represents a feature space from the inputs that an
@@ -176,6 +178,7 @@ def calculate(self, images, purpose="training", data=None, svm=False):
                 feature_space, svm=svm, purpose=purpose
             )
 
+        self.feature_space = latent_space
         return latent_space
 
     def load_encoder(self, encoder, **kwargs):
@@ -217,3 +220,7 @@ def load_encoder(self, encoder, **kwargs):
         autoencoder.load_state_dict(torch.load(model_path), strict=True)
 
         return autoencoder.eval()
+
+    def to_pandas(self):
+        """Convert features to pandas DataFrame"""
+        return pd.DataFrame.from_dict(self.feature_space, orient="index")
diff --git a/ml4chem/features/cartesian.py b/ml4chem/features/cartesian.py
@@ -1,10 +1,13 @@
 import dask
+import datetime
 import logging
 import os
 import time
 import torch
 import numpy as np
+import pandas as pd
 from collections import OrderedDict
+from ml4chem.features.base import AtomisticFeatures
 from ml4chem.data.preprocessing import Preprocessing
 from ml4chem.data.serialization import dump, load
 from ml4chem.utils import convert_elapsed_time
@@ -13,7 +16,7 @@
 logger = logging.getLogger()
 
 
-class Cartesian(object):
+class Cartesian(AtomisticFeatures):
     """Cartesian Coordinates
 
     Cartesian coordinates are features, too (not very useful ones though). This
@@ -47,7 +50,7 @@ def __init__(
         self,
         scheduler="distributed",
         filename="cartesians.db",
-        preprocessor=("Normalizer",),
+        preprocessor=("Normalizer", None),
         save_preprocessor="ml4chem",
         overwrite=True,
     ):
@@ -83,6 +86,8 @@ def calculate(self, images=None, purpose="training", data=None, svm=False):
         logger.info(" ")
         logger.info("Featurization")
         logger.info("=============")
+        now = datetime.datetime.now()
+        logger.info("Module accessed on {}.".format(now.strftime("%Y-%m-%d %H:%M:%S")))
 
         if os.path.isfile(self.filename) and self.overwrite is False:
             logger.warning("Loading features from {}.".format(self.filename))
@@ -257,7 +262,12 @@ def calculate(self, images=None, purpose="training", data=None, svm=False):
         else:
             dump(feature_space, filename=self.filename)
 
-        return feature_space
+        self.feature_space = feature_space
+        return self.feature_space
+
+    def to_pandas(self):
+        """Convert features to pandas DataFrame"""
+        return pd.DataFrame.from_dict(self.feature_space, orient="index")
 
     @dask.delayed
     def get_atomic_features(self, atom, svm=False):

diff --git a/ml4chem/features/gaussian.py b/ml4chem/features/gaussian.py
@@ -1,4 +1,5 @@
 import dask
+import datetime
 import logging
 import os
 import time
@@ -186,6 +187,8 @@ def calculate(self, images=None, purpose="training", data=None, svm=False):
         logger.info(" ")
         logger.info("Featurization")
         logger.info("=============")
+        now = datetime.datetime.now()
+        logger.info("Module accessed on {}.".format(now.strftime("%Y-%m-%d %H:%M:%S")))
 
         # FIXME the block below should become a function.
         if os.path.isfile(self.filename) and self.overwrite is False:

diff --git a/ml4chem/models/autoencoders.py b/ml4chem/models/autoencoders.py
@@ -122,7 +122,9 @@ def prepare_model(
             )
 
         if self.name() == "VAE":
-            logger.info("Variant: {}.".format(self.variant))
+            logger.info(
+                "Variant: {}. One for all: {}.".format(self.variant, self.one_for_all)
+            )
 
         try:
             unique_element_symbols = data.unique_element_symbols[purpose]

diff --git a/ml4chem/models/kernelridge.py b/ml4chem/models/kernelridge.py
@@ -1,4 +1,5 @@
 import dask
+import datetime
 import logging
 import time
 import numpy as np
@@ -180,8 +181,11 @@ def prepare_model(
         """
         if purpose == "training":
             logger.info(" ")
-            logger.info("Model Training")
-            logger.info("==============")
+            logger.info("Model")
+            logger.info("=====")
+            logger.info(
+                "Module accessed on {}.".format(now.strftime("%Y-%m-%d %H:%M:%S"))
+            )
             logger.info("Model name: {}.".format(self.name()))
             logger.info("Kernel parameters:")
             logger.info("    - Kernel function: {}.".format(self.kernel))

diff --git a/ml4chem/models/merger.py b/ml4chem/models/merger.py
@@ -152,6 +152,8 @@ def train(
         logger.info(" ")
         logging.info("Model Merger")
         logging.info("============")
+        now = datetime.datetime.now()
+        logger.info("Module accessed on {}.".format(now.strftime("%Y-%m-%d %H:%M:%S")))
         logging.info("Merging the following models:")
 
         for model in self.models:

diff --git a/ml4chem/models/neuralnetwork.py b/ml4chem/models/neuralnetwork.py
@@ -77,6 +77,10 @@ def prepare_model(self, input_dimension, data=None, purpose="training"):
             logger.info(" ")
             logger.info("Model")
             logger.info("=====")
+            now = datetime.datetime.now()
+            logger.info(
+                "Module accessed on {}.".format(now.strftime("%Y-%m-%d %H:%M:%S"))
+            )
             logger.info("Model name: {}.".format(self.name()))
             logger.info("Number of hidden-layers: {}".format(hl))
             logger.info(