In [1]:
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer

### Creación del dataset

Se crea una tabla con dos columnas, "identificador" y "categoría". En categoría, se incluirán una lista de valores entre ["a", "b", "c", "d", "e", "f"]

In [2]:
data = [[1001, ["a", "f"]], [1002, ["e"]], [1003, ["c", "d"]], [1004, ["b", "a", "c"]], [1005, ["c"]]]
data = pd.DataFrame(data, columns=["identificador", "categorias"])
data.head()

Unnamed: 0,identificador,categorias
0,1001,"[a, f]"
1,1002,[e]
2,1003,"[c, d]"
3,1004,"[b, a, c]"
4,1005,[c]


### Instanciamos el objeto _MultiLabelBinarizer_ para poder procesar la columna multicategórica.

In [3]:
mlb = MultiLabelBinarizer()

### y transformamos la columna que nos interesa: _categorias_

In [4]:
mlb.fit_transform(data["categorias"])

array([[1, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0],
       [0, 0, 1, 1, 0, 0],
       [1, 1, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0]])

### obtenemos una lista con los nombres de las nuevas variables

In [5]:
new_columns = ["categoria_" + x for x in mlb.classes_]
new_columns

['categoria_a',
 'categoria_b',
 'categoria_c',
 'categoria_d',
 'categoria_e',
 'categoria_f']

### y creamos un nuevo DataFrame que juntaremos con el anterior

In [6]:
new_data = pd.DataFrame(mlb.fit_transform(data["categorias"]), columns = new_columns)
new_data.head()

Unnamed: 0,categoria_a,categoria_b,categoria_c,categoria_d,categoria_e,categoria_f
0,1,0,0,0,0,1
1,0,0,0,0,1,0
2,0,0,1,1,0,0
3,1,1,1,0,0,0
4,0,0,1,0,0,0


In [7]:
data = data.join(new_data)
data.head()

Unnamed: 0,identificador,categorias,categoria_a,categoria_b,categoria_c,categoria_d,categoria_e,categoria_f
0,1001,"[a, f]",1,0,0,0,0,1
1,1002,[e],0,0,0,0,1,0
2,1003,"[c, d]",0,0,1,1,0,0
3,1004,"[b, a, c]",1,1,1,0,0,0
4,1005,[c],0,0,1,0,0,0


### Finalmente, eliminamos la columna que no nos interesa

In [8]:
data = data.drop(columns="categorias")
data.head()

Unnamed: 0,identificador,categoria_a,categoria_b,categoria_c,categoria_d,categoria_e,categoria_f
0,1001,1,0,0,0,0,1
1,1002,0,0,0,0,1,0
2,1003,0,0,1,1,0,0
3,1004,1,1,1,0,0,0
4,1005,0,0,1,0,0,0
