jina-ai · guenthermi · Nov 29, 2022 · Nov 28, 2022 · Nov 28, 2022 · Nov 28, 2022
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -10,6 +10,8 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 
 ### Added
 
+- Add `val_split` parameter to `fit` function. ([#624](https://github.com/jina-ai/finetuner/pull/624))
+
 ### Removed
 
 ### Changed

diff --git a/finetuner/__init__.py b/finetuner/__init__.py
@@ -115,6 +115,7 @@ def fit(
     model: str,
     train_data: Union[str, TextIO, DocumentArray],
     eval_data: Optional[Union[str, TextIO, DocumentArray]] = None,
+    val_split: float = 0.0,
     run_name: Optional[str] = None,
     description: Optional[str] = None,
     experiment_name: Optional[str] = None,
@@ -147,6 +148,10 @@ def fit(
         `DocumentArray` that is pushed on Jina AI Cloud or a path to a CSV file.
     :param eval_data: Either a `DocumentArray` for evaluation data, a name of the
         `DocumentArray` that is pushed on Jina AI Cloud or a path to a CSV file.
+    :param val_split: Determines which portion of the `train_data` is held out
+        for calculating a validation loss. If it is set to 0, or an `eval_data`
+        parameter is provided, no data is held out from the training data. Instead, the
+        `eval_data` is used to calculate the validation loss if it is provided.
     :param run_name: Name of the run.
     :param description: Run description.
     :param experiment_name: Name of the experiment.
@@ -218,6 +223,7 @@ def fit(
         model=model,
         train_data=train_data,
         eval_data=eval_data,
+        val_split=val_split,
         run_name=run_name,
         description=description,
         experiment_name=experiment_name,

diff --git a/finetuner/constants.py b/finetuner/constants.py
@@ -69,3 +69,4 @@
 ONNX = 'to_onnx'
 PUBLIC = 'public'
 NUM_ITEMS_PER_CLASS = 'num_items_per_class'
+VAL_SPLIT = 'val_split'
diff --git a/finetuner/experiment.py b/finetuner/experiment.py
@@ -32,6 +32,7 @@
     OUTPUT_DIM,
     PUBLIC,
     SCHEDULER_STEP,
+    VAL_SPLIT,
 )
 from finetuner.data import build_finetuning_dataset
 from finetuner.hubble import push_data
@@ -247,6 +248,7 @@ def _create_config_for_run(
         data = config.DataConfig(
             train_data=train_data,
             eval_data=kwargs.get(EVAL_DATA),
+            val_split=kwargs.get(VAL_SPLIT, 0.0),
             num_items_per_class=kwargs.get(NUM_ITEMS_PER_CLASS, 4),
         )
         if kwargs.get(NUM_WORKERS):

diff --git a/finetuner/finetuner.py b/finetuner/finetuner.py
@@ -142,6 +142,7 @@ def create_run(
         model: str,
         train_data: Union[str, DocumentArray],
         eval_data: Optional[Union[str, DocumentArray]] = None,
+        val_split: float = 0.0,
         run_name: Optional[str] = None,
         description: Optional[str] = None,
         experiment_name: Optional[str] = None,
@@ -181,6 +182,7 @@ def create_run(
             model=model,
             train_data=train_data,
             eval_data=eval_data,
+            val_split=val_split,
             run_name=run_name,
             description=description,
             model_options=model_options or {},