alteryx · ParthivNaresh · Apr 6, 2021 · Mar 25, 2021 · Mar 25, 2021 · Mar 25, 2021
diff --git a/docs/source/release_notes.rst b/docs/source/release_notes.rst
@@ -29,6 +29,7 @@ Release Notes
         * Updated ``OneHotEncoder`` to drop one redundant feature by default for features with two categories :pr:`1997`
         * Added a ``PolynomialDetrender`` component :pr:`1992`
     * Fixes
+        * Changed best pipeline to train on the entire dataset rather than just ensemble indices for ensemble problems :pr:`2037`
         * Updated binary classification pipelines to use objective decision function during scoring of custom objectives :pr:`1934`
     * Changes
         * Removed ``data_checks`` parameter, ``data_check_results`` and data checks logic from ``AutoMLSearch`` :pr:`1935`

diff --git a/evalml/automl/automl_search.py b/evalml/automl/automl_search.py
@@ -529,11 +529,8 @@ def _find_best_pipeline(self):
         if not (self._best_pipeline and self._best_pipeline == self.get_pipeline(best_pipeline['id'])):
             best_pipeline = self.get_pipeline(best_pipeline['id'])
             if self._train_best_pipeline:
-                if best_pipeline.model_family == ModelFamily.ENSEMBLE:
-                    X_train, y_train = self.X_train.iloc[self.ensembling_indices], self.y_train.iloc[self.ensembling_indices]
-                else:
-                    X_train = self.X_train
-                    y_train = self.y_train
+                X_train = self.X_train
+                y_train = self.y_train
                 if hasattr(self.data_splitter, "transform_sample"):
                     train_indices = self.data_splitter.transform_sample(X_train, y_train)
                     X_train = X_train.iloc[train_indices]

diff --git a/evalml/automl/engine/sequential_engine.py b/evalml/automl/engine/sequential_engine.py
@@ -34,7 +34,7 @@ def evaluate_batch(self, pipelines):
             X, y = self.X_train, self.y_train
             if pipeline.model_family == ModelFamily.ENSEMBLE:
                 X, y = self.X_train.iloc[self.ensembling_indices], self.y_train.iloc[self.ensembling_indices]
-            elif self.ensembling_indices is not None:
+            elif self.ensembling_indices is not None:   # Is this necessary?
                 training_indices = [i for i in range(len(self.X_train)) if i not in self.ensembling_indices]
                 X = self.X_train.iloc[training_indices]
                 y = self.y_train.iloc[training_indices]

diff --git a/evalml/tests/automl_tests/test_automl.py b/evalml/tests/automl_tests/test_automl.py
@@ -2254,15 +2254,13 @@ def test_automl_ensembling_best_pipeline(mock_fit, mock_score, mock_rankings, in
     ensembling_num = (1 + len(automl.allowed_pipelines) + len(automl.allowed_pipelines) * automl._pipelines_per_batch + 1) + best_pipeline
     mock_rankings.return_value = pd.DataFrame({"id": ensembling_num, "pipeline_name": "stacked_ensembler", "score": 0.1}, index=[0])
     automl.search()
-    training_indices, ensembling_indices, _, _ = split_data(ww.DataTable(np.arange(X.shape[0])), y, problem_type='binary', test_size=ensemble_split_size, random_seed=0)
-    training_indices, ensembling_indices = training_indices.to_dataframe()[0].tolist(), ensembling_indices.to_dataframe()[0].tolist()
     # when best_pipeline == -1, model is ensembling,
     # otherwise, the model is a different model
     # the ensembling_num formula is taken from AutoMLSearch
     if best_pipeline == -1:
         assert automl.best_pipeline.model_family == ModelFamily.ENSEMBLE
-        assert len(mock_fit.call_args_list[-1][0][0]) == len(ensembling_indices)
-        assert len(mock_fit.call_args_list[-1][0][1]) == len(ensembling_indices)
+        assert len(mock_fit.call_args_list[-1][0][0]) == len(X)
+        assert len(mock_fit.call_args_list[-1][0][1]) == len(y)
     else:
         assert automl.best_pipeline.model_family != ModelFamily.ENSEMBLE
         assert len(mock_fit.call_args_list[-1][0][0]) == len(X)