[ENH] Enable Grid-Search for `TableVectorizer` #814

Vincent-Maladiere · 2023-11-02T16:47:56Z

What does this PR fix/address?

Apply Gaël's suggestions and the outputs of discussion #796 to make grid-search possible.

from skrub import TableVectorizer
from skrub.datasets import fetch_employee_salaries

from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import make_pipeline
from sklearn.ensemble import HistGradientBoostingRegressor

dataset = fetch_employee_salaries()
X, y = dataset.X.head(500), dataset.y.head(500)

pipe = make_pipeline(
    TableVectorizer(),
    HistGradientBoostingRegressor()
)

param_grid = {"tablevectorizer__high_cardinality_transformer__n_components": [10, 20]}

cv = GridSearchCV(pipe, param_grid)
cv.fit(X, y)

What does it change?

Replace the default None of the transformers with their global default
When the user actively sets transformers to None, they are turned into "passthrough" during fit (e.g. high_cardinality_encoder = None will result in high_cardinality_encoder_ = passthrough
Some revamp to make cloning during init and during fit more readable

Vincent-Maladiere · 2023-11-02T17:31:05Z

I need to address a small docstring error

skrub/_table_vectorizer.py

Co-authored-by: Jérôme Dockès <jerome@dockes.org>

jeromedockes

LGTM, thanks!

jeromedockes · 2023-11-08T15:56:01Z

skrub/_table_vectorizer.py

 from sklearn.utils.validation import check_is_fitted

 from skrub import DatetimeEncoder, GapEncoder
 from skrub._utils import parse_astype_error_message

+HIGH_CARDINALITY_TRANSFORMER = GapEncoder(n_components=30)
+LOW_CARDINALITY_TRANSFORMER = OneHotEncoder(
+    sparse_output=False,


we expose the ColumnTransformer's sparse_threshold parameter but with our default transformers the default will always be dense (even if toe onehot encoder yields many zeros)

we could consider

pointing out in the doc that users need to change the transformers if they want sparse output

not exposing the sparse_threshold and always returning dense data

making the onehot encoder sparse by default

(not in this PR)

jeromedockes · 2023-11-08T15:58:28Z

skrub/_table_vectorizer.py

            ("numeric", self.numerical_transformer_, numeric_columns),
            ("datetime", self.datetime_transformer_, datetime_columns),
-            ("low_card_cat", self.low_card_cat_transformer_, low_card_cat_columns),
-            ("high_card_cat", self.high_card_cat_transformer_, high_card_cat_columns),
+            ("low_card_cat", self.low_cardinality_transformer_, low_card_cat_columns),


not super important but you could propagate the change 'card_cat' -> 'cardinality' to local variables

along that line it would be nice if we picked one of "numeric" or "numerical" and used it all the time :)

numeric, since it's shorter?

sounds good! it's also the choice made by polars.selectors.numeric. pandas select_dtypes uses "number", "category"

jeromedockes · 2023-11-09T15:31:04Z

I guess this one is ready to merge?

Vincent-Maladiere · 2023-11-09T15:50:46Z

I think so!

GaelVaroquaux · 2023-11-09T21:37:02Z

Very nice. Congratulations!

apply global sub-estimator default parameter

4a4d686

Vincent-Maladiere changed the title ~~[ENH] Apply global sub-estimator default parameter~~ [ENH] Enable Grid-Search for TableVectorizer Nov 2, 2023

Vincent-Maladiere added 2 commits November 2, 2023 18:11

Merge branch 'main' into make_tv_grid_searchable

677ad6d

fix docstirng

db14b9b

Vincent-Maladiere added 4 commits November 4, 2023 12:11

Merge branch 'main' into make_tv_grid_searchable

d205778

fix docstring

22f681d

remove pytest exception

a627851

add changes

c3f5636

jeromedockes reviewed Nov 6, 2023

View reviewed changes

skrub/_table_vectorizer.py Outdated Show resolved Hide resolved

skrub/_table_vectorizer.py Show resolved Hide resolved

skrub/_table_vectorizer.py Outdated Show resolved Hide resolved

Vincent-Maladiere and others added 3 commits November 6, 2023 20:10

Update skrub/_table_vectorizer.py

28e4c0d

Co-authored-by: Jérôme Dockès <jerome@dockes.org>

remove the None conversion to passthrough

8d5c639

add passthrough as default for numerical_transformer

cebd9cb

jeromedockes approved these changes Nov 8, 2023

View reviewed changes

Vincent-Maladiere added 2 commits November 9, 2023 11:48

Merge branch 'main' into make_tv_grid_searchable

2827ae4

fix precommit

a0e9978

jeromedockes merged commit 4b11e62 into skrub-data:main Nov 9, 2023
24 checks passed

Vincent-Maladiere deleted the make_tv_grid_searchable branch November 9, 2023 16:34

This was referenced Nov 9, 2023

DOC quick fixes for TableVectorizer #818

Merged

ENH Using to_datetime within the TableVectorizer #819

Merged

jeromedockes mentioned this pull request Nov 10, 2023

[MRG] FEA Add interpolation join #742

Merged

This was referenced Nov 21, 2023

Grid-search doesn't work with TableVectorizer #709

Closed

Example to do model selection with TableVectorizer #554

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[ENH] Enable Grid-Search for `TableVectorizer` #814

[ENH] Enable Grid-Search for `TableVectorizer` #814

Vincent-Maladiere commented Nov 2, 2023 •

edited

Vincent-Maladiere commented Nov 2, 2023

jeromedockes left a comment

jeromedockes Nov 8, 2023

jeromedockes Nov 8, 2023

Vincent-Maladiere Nov 8, 2023

jeromedockes Nov 9, 2023

jeromedockes commented Nov 9, 2023

Vincent-Maladiere commented Nov 9, 2023

GaelVaroquaux commented Nov 9, 2023

[ENH] Enable Grid-Search for TableVectorizer #814

[ENH] Enable Grid-Search for TableVectorizer #814

Conversation

Vincent-Maladiere commented Nov 2, 2023 • edited

Vincent-Maladiere commented Nov 2, 2023

jeromedockes left a comment

Choose a reason for hiding this comment

jeromedockes Nov 8, 2023

Choose a reason for hiding this comment

jeromedockes Nov 8, 2023

Choose a reason for hiding this comment

Vincent-Maladiere Nov 8, 2023

Choose a reason for hiding this comment

jeromedockes Nov 9, 2023

Choose a reason for hiding this comment

jeromedockes commented Nov 9, 2023

Vincent-Maladiere commented Nov 9, 2023

GaelVaroquaux commented Nov 9, 2023

[ENH] Enable Grid-Search for `TableVectorizer` #814

[ENH] Enable Grid-Search for `TableVectorizer` #814

Vincent-Maladiere commented Nov 2, 2023 •

edited