# Transformación de columnas con `sklearn`

Anteriormente hemos analizado cómo transformar datos continuos y datos discretos para poder ser utilizados por los algoritmos de *machine learning*. Cuando trabajamos en problema reales, normalmente encontramos conjuntos de datos (*datasets*, en inglés) que poseen características tanto discretas como continuas. En los ejemplos visto anteriormente, sólo podemos aplicar la transformación si todas las características del *dataset* son de idéntico tipo y si a todas las características del *datasets* queremos aplicarles el mismo pre-procesamiento.

Para poder aplicar una transformación a cada una de las características de nuestro *dataset* debemos utilizar el objeto [compose.ColumTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html). Veamos cómo.


Lo primero que debemos hacer es importar el modulo *compose* de *sklearn*:

In [None]:
import sklearn.compose

Supongamos ahora que tenemos el siguiente conjunto de datos:

| id | nombre | altura | peso | sexo |
| :-: | :-: | :-: | :-: | :-: |
| 1 | Alice | 160 | 59 | mujer |
| 2 | Bob | 200 | 98 | hombre |
| 3 | Carl | 175 | 63 | hombre |
| 4 | Denna | 150 | 47 | mujer |

Como observamos, tenemos columnas con datos discretos (*nombre* y *sexo*) y otras con datos continuos (*altura* y *peso*). Queremos aplicar la siguiente transformación:

- Descartar la columna *id*.
- Mantener inalterada la columna *nombre*.
- Aplicar estandarización a la columna *altura*.
- Re-escalar la columna *peso* a escala 0, 1.
- Aplicar *one-hot-encoding* a la columna *sexo*.

El parámetro *transformers* permite determinar el tipo de transformación aplicado a cada columna. Para ello, mediante un array de tuplas, indicaremos:

- El nombre de la transformación.
- La transformación que queremos realizar o *'drop'* si queremos descartar la columna o *'passthroug'* si no queremos alterar la columna.
- El índice de la columna o los índices de las columnas que se ven afectadas.

Definimos, por tanto, nuestro *dataset*:

In [None]:
import numpy as np

X = np.array([[1, "Alice", 160, 59, 'mujer'],
              [2, "Bob",   200, 98, 'hombre'],
              [3, "Carl",  175, 63, 'hombre'],
              [4, "Denna", 150, 47, 'mujer']]);

Definimos la transformación:

In [None]:
column_transformer = sklearn.compose.ColumnTransformer(transformers=[
    ("drop", "drop", [0]),
    ("passthrough", "passthrough", [1]),
    ("scale", sklearn.preprocessing.StandardScaler(), [2]),
    ("min-max", sklearn.preprocessing.MinMaxScaler(), [3]),
    ("one-hot", sklearn.preprocessing.OneHotEncoder(), [4])
]);

Aplicamos la transformación:

In [None]:
X_transform = column_transformer.fit_transform(X)
print(X_transform)

[['Alice' '-0.5973509804399748' '0.23529411764705876' '0.0' '1.0']
 ['Bob' '1.5265636166799355' '1.0' '1.0' '0.0']
 ['Carl' '0.1991169934799916' '0.31372549019607854' '1.0' '0.0']
 ['Denna' '-1.1283296297199523' '0.0' '0.0' '1.0']]


<hr>

Creado por **Fernando Ortega** (fernando.ortega@upm.es)

<img src="https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png">