ludwig-ai · w4nderlust · Jun 4, 2021 · Jun 3, 2021 · Jun 3, 2021 · Jun 3, 2021
@@ -81,9 +81,10 @@ def shutdown(self):
 
 
 class DaskBackend(LocalTrainingMixin, Backend):
-    def __init__(self, data_format=PARQUET, **kwargs):
+    def __init__(self, data_format=PARQUET, engine=None, **kwargs):
         super().__init__(data_format=data_format, **kwargs)
-        self._df_engine = DaskEngine()
+        engine = engine or {}
+        self._df_engine = DaskEngine(**engine)
         if data_format != PARQUET:
             raise ValueError(
                 f'Data format {data_format} is not supported when using the Dask backend. '

@@ -121,4 +121,4 @@
 
 HDF5 = 'hdf5'
 PARQUET = 'parquet'
-
+SRC = 'dataset_src'
@@ -21,6 +21,7 @@
 import dask
 import dask.array as da
 import dask.dataframe as dd
+from dask.diagnostics import ProgressBar
 
 from ludwig.constants import NAME, PROC_COLUMN
 from ludwig.data.dataset.parquet import ParquetDataset
@@ -38,8 +39,9 @@ def set_scheduler(scheduler):
 
 
 class DaskEngine(DataFrameEngine):
-    def __init__(self):
-        self._parallelism = multiprocessing.cpu_count()
+    def __init__(self, parallelism=None, persist=False):
+        self._parallelism = parallelism or multiprocessing.cpu_count()
+        self._persist = persist
 
     def set_parallelism(self, parallelism):
         self._parallelism = parallelism
@@ -54,7 +56,7 @@ def parallelize(self, data):
         return data.repartition(self.parallelism)
 
     def persist(self, data):
-        return data.persist()
+        return data.persist() if self._persist else data
 
     def compute(self, data):
         return data.compute()
@@ -74,12 +76,13 @@ def reduce_objects(self, series, reduce_fn):
         return series.reduction(reduce_fn, aggregate=reduce_fn, meta=('data', 'object')).compute()[0]
 
     def to_parquet(self, df, path):
-        df.to_parquet(
-            path,
-            engine='pyarrow',
-            write_index=False,
-            schema='infer',
-        )
+        with ProgressBar():
+            df.to_parquet(
+                path,
+                engine='pyarrow',
+                write_index=False,
+                schema='infer',
+            )
 
     @property
     def array_lib(self):