***7 ways to select column using ColumnTransformer:***

* *column name*
* *integer position*
* *slice*
* *boolean mask*
* *regex pattern*
* *dtypes to include*
* *dtypes to exclude*


> *all 7 of these produce the **same results***

In [54]:
import numpy as np
import pandas as pd
import seaborn as sns

In [55]:
df = sns.load_dataset('titanic')

X = df[['fare','embarked','sex','age']].tail()
X

Unnamed: 0,fare,embarked,sex,age
886,13.0,S,male,27.0
887,30.0,S,female,19.0
888,23.45,S,female,
889,30.0,C,male,26.0
890,7.75,Q,male,32.0


In [56]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import make_column_transformer
from sklearn.compose import  make_column_selector

In [57]:
ohe = OneHotEncoder()

> *column name*

In [58]:
ct = make_column_transformer((ohe, ['embarked', 'sex']))
ct.fit_transform(X)

array([[0., 0., 1., 0., 1.],
       [0., 0., 1., 1., 0.],
       [0., 0., 1., 1., 0.],
       [1., 0., 0., 0., 1.],
       [0., 1., 0., 0., 1.]])

> *integer position*

In [59]:
ct = make_column_transformer((ohe, [1,2]))
ct.fit_transform(X)

array([[0., 0., 1., 0., 1.],
       [0., 0., 1., 1., 0.],
       [0., 0., 1., 1., 0.],
       [1., 0., 0., 0., 1.],
       [0., 1., 0., 0., 1.]])

> *slice*

In [60]:
ct = make_column_transformer((ohe, slice(1,3)))
ct.fit_transform(X)

array([[0., 0., 1., 0., 1.],
       [0., 0., 1., 1., 0.],
       [0., 0., 1., 1., 0.],
       [1., 0., 0., 0., 1.],
       [0., 1., 0., 0., 1.]])

> *boolean mask*

In [61]:
ct = make_column_transformer((ohe, [False, True, True, False]))
ct.fit_transform(X)

array([[0., 0., 1., 0., 1.],
       [0., 0., 1., 1., 0.],
       [0., 0., 1., 1., 0.],
       [1., 0., 0., 0., 1.],
       [0., 1., 0., 0., 1.]])

> *regex pattern*

In [62]:
oheWithoutSparseMtr = OneHotEncoder(sparse_output=False) #nah

In [63]:
ct = make_column_transformer((oheWithoutSparse, make_column_selector(pattern='e|s')))
ct.fit_transform(X)

array([[0., 1., 0., 0., 0., 0., 1., 0., 1., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0., 1., 1., 0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 1., 0., 0., 0., 1., 0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0., 0., 1., 0.]])

***

In [64]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 886 to 890
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   fare      5 non-null      float64
 1   embarked  5 non-null      object 
 2   sex       5 non-null      object 
 3   age       4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes


***

> *dtypes to include*

In [65]:
ct = make_column_transformer((ohe, make_column_selector(dtype_include=object)))
ct.fit_transform(X)

array([[0., 0., 1., 0., 1.],
       [0., 0., 1., 1., 0.],
       [0., 0., 1., 1., 0.],
       [1., 0., 0., 0., 1.],
       [0., 1., 0., 0., 1.]])

> *dtypes to exclude*

In [68]:
ct = make_column_transformer((ohe, make_column_selector(dtype_exclude=float)))
ct.fit_transform(X)

array([[0., 0., 1., 0., 1.],
       [0., 0., 1., 1., 0.],
       [0., 0., 1., 1., 0.],
       [1., 0., 0., 0., 1.],
       [0., 1., 0., 0., 1.]])