En esta historia, analizaremos el método ‘get_dummies’ de Pandas. ‘get_dummies’ de Pandas es la forma más sencilla de implementar el método de codificación *one-hot* y tiene parámetros muy útiles, de los cuales mencionaremos los más importantes. Con ‘get_dummies’ podemos obtener un DataFrame con codificación ‘one-hot’ (variables ficticias) en una sola fila.

Usaremos los datos de ‘car_price.csv’ para esta demostración.

El propósito de este proceso de ciencia de datos es predecir los precios de los automóviles. Utilizaremos Regresión Lineal para estos datos, pero los datos no están listos para el modelo de aprendizaje automático. Esto se debe a que hay columnas categóricas (no numéricas) y necesitamos transformarlas. Para ello, implementaremos ‘get_dummies’.


In [36]:
import numpy as np
import pandas as pd
#from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('car_price.csv')
df.head()


Unnamed: 0,make_model,body_type,Body Color,km,hp,Gearing Type,Extras,price
0,Audi A1,Sedans,Black,56013,85,Automatic,"Alloy wheels,Catalytic Converter,Voice Control",15770
1,Audi A1,Sedans,Red,80000,85,Automatic,"Alloy wheels,Sport seats,Sport suspension,Voic...",14500
2,Audi A1,Sedans,Black,83450,85,Automatic,"Alloy wheels,Voice Control",14640
3,Audi A1,Sedans,Brown,73000,85,Automatic,"Alloy wheels,Sport seats,Voice Control",14500
4,Audi A1,Sedans,Black,16200,85,Automatic,"Alloy wheels,Sport package,Sport suspension,Vo...",16790


In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4800 entries, 0 to 4799
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   make_model    4800 non-null   object
 1   body_type     4800 non-null   object
 2   Body Color    4800 non-null   object
 3   km            4800 non-null   int64 
 4   hp            4800 non-null   int64 
 5   Gearing Type  4800 non-null   object
 6   Extras        4800 non-null   object
 7   price         4800 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 300.1+ KB


Como puedes ver, los datos no tienen valores faltantes y adquirí esta estructura después de manejar los valores atípicos. 

Tenemos 5 columnas categóricas que necesitamos convertir a formato numérico antes de aplicar el algoritmo de aprendizaje automático. Estas columnas son: "make_model", "body_type", "Body Color", "Gear Type" y "Extras"; todas ellas son datos nominales. Por ejemplo, para "Body Color" no hay una jerarquía entre los colores. El negro no tiene superioridad sobre el rojo. Por eso, debemos usar codificación *one-hot*.

Primero aplicaremos ‘get_dummies’ solo a la columna "Body Color" para ver los detalles de ‘get_dummies’, luego utilizaremos todo el DataFrame.


### 1. get_dummies()

In [24]:
df['Body Color'].unique()

array(['Black', 'Red', 'Brown', 'White', 'Grey', 'Blue', 'Silver',
       'Beige', 'Violet', 'Yellow', 'Green', 'Bronze', 'Orange'],
      dtype=object)

La columna “Body Color” tiene 13 valores únicos, lo que significa que obtendremos 13 columnas después de aplicar ‘get_dummies’.
Con la siguiente sintaxis, podemos aplicar ‘get_dummies’ a una columna del DataFrame.

In [25]:
pd.get_dummies(df['Body Color']).astype(int)

Unnamed: 0,Beige,Black,Blue,Bronze,Brown,Green,Grey,Orange,Red,Silver,Violet,White,Yellow
0,0,1,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,1,0,0,0,0
2,0,1,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,1,0,0,0,0,0,0,0,0
4,0,1,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4795,0,0,0,0,0,0,0,0,0,0,0,1,0
4796,0,0,0,0,0,0,0,0,0,0,0,1,0
4797,0,0,0,0,0,0,0,0,0,1,0,0,0
4798,0,0,0,0,0,0,0,0,0,1,0,0,0


No usamos ningún parámetro, ‘get_dummies’ tiene parámetros predeterminados. Como puedes ver, obtuvimos un DataFrame de 13 columnas después de aplicar ‘get_dummies’. Hay 4800 filas. Podemos ver el color del automóvil. Por ejemplo, el color del primer automóvil es negro, el color del segundo automóvil es rojo, etc.

Nuestro DataFrame original, ‘df’, mantiene su forma. Debemos fusionar estos DataFrames. Ahora podemos asignar las variables dummy (codificación *one-hot*) de "Body Color" a un nuevo DataFrame para fusionarlo con el DataFrame principal.


In [26]:
df_colors = pd.get_dummies(df['Body Color'])
df.head()

Unnamed: 0,make_model,body_type,Body Color,km,hp,Gearing Type,Extras,price
0,Audi A1,Sedans,Black,56013,85,Automatic,"Alloy wheels,Catalytic Converter,Voice Control",15770
1,Audi A1,Sedans,Red,80000,85,Automatic,"Alloy wheels,Sport seats,Sport suspension,Voic...",14500
2,Audi A1,Sedans,Black,83450,85,Automatic,"Alloy wheels,Voice Control",14640
3,Audi A1,Sedans,Brown,73000,85,Automatic,"Alloy wheels,Sport seats,Voice Control",14500
4,Audi A1,Sedans,Black,16200,85,Automatic,"Alloy wheels,Sport package,Sport suspension,Vo...",16790


In [18]:
df_colors.head().astype(int)

Unnamed: 0,Beige,Black,Blue,Bronze,Brown,Green,Grey,Orange,Red,Silver,Violet,White,Yellow
0,0,1,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,1,0,0,0,0
2,0,1,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,1,0,0,0,0,0,0,0,0
4,0,1,0,0,0,0,0,0,0,0,0,0,0


Ahora los fusionaremos en DataFrames utilizando el método ‘join’. Pero deberíamos eliminar la columna "Body Color", ya que no la necesitamos más porque no es numérica.

In [19]:
df = (df.drop(['Body Color'], axis=1)).join(df_colors)

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4800 entries, 0 to 4799
Data columns (total 20 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   make_model    4800 non-null   object
 1   body_type     4800 non-null   object
 2   km            4800 non-null   int64 
 3   hp            4800 non-null   int64 
 4   Gearing Type  4800 non-null   object
 5   Extras        4800 non-null   object
 6   price         4800 non-null   int64 
 7   Beige         4800 non-null   bool  
 8   Black         4800 non-null   bool  
 9   Blue          4800 non-null   bool  
 10  Bronze        4800 non-null   bool  
 11  Brown         4800 non-null   bool  
 12  Green         4800 non-null   bool  
 13  Grey          4800 non-null   bool  
 14  Orange        4800 non-null   bool  
 15  Red           4800 non-null   bool  
 16  Silver        4800 non-null   bool  
 17  Violet        4800 non-null   bool  
 18  White         4800 non-null   bool  
 19  Yellow

Con esta sintaxis, eliminamos la columna "Body Color" y añadimos nuestras variables dummy. Como puedes ver, todos los colores tienen una columna y los tipos de columna son numéricos.

### 2. get_dummies con el parámetro 'drop_first'

Una columna se transformó en 13 columnas. Podemos usar el parámetro ‘drop_first’ para reducir una columna. Podemos obtener 12 columnas. Normalmente, el valor predeterminado de este parámetro es ‘False’; solo lo configuramos en ‘True’. Veamos cómo funciona.

In [30]:
pd.get_dummies(df['Body Color']).astype(int)

Unnamed: 0,Beige,Black,Blue,Bronze,Brown,Green,Grey,Orange,Red,Silver,Violet,White,Yellow
0,0,1,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,1,0,0,0,0
2,0,1,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,1,0,0,0,0,0,0,0,0
4,0,1,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4795,0,0,0,0,0,0,0,0,0,0,0,1,0
4796,0,0,0,0,0,0,0,0,0,0,0,1,0
4797,0,0,0,0,0,0,0,0,0,1,0,0,0
4798,0,0,0,0,0,0,0,0,0,1,0,0,0


In [32]:
pd.get_dummies(df['Body Color'], drop_first=True).astype(int)

Unnamed: 0,Black,Blue,Bronze,Brown,Green,Grey,Orange,Red,Silver,Violet,White,Yellow
0,1,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,1,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,1,0,0,0,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...
4795,0,0,0,0,0,0,0,0,0,0,1,0
4796,0,0,0,0,0,0,0,0,0,0,1,0
4797,0,0,0,0,0,0,0,0,1,0,0,0
4798,0,0,0,0,0,0,0,0,1,0,0,0


Revisa el número de columnas; en lugar de 13, obtuvimos 12 columnas. Esto elimina la primera columna del DataFrame generado por ‘get_dummies’. La primera columna para la columna "Body Color" es Beige. Si hay un coche beige, todas las columnas serán 0. Cuando todas las columnas son 0, el modelo sabe que es un coche beige. Consulta el ejemplo a continuación.

In [34]:
pd.get_dummies(df['Body Color']).loc[[133]].astype(int)

Unnamed: 0,Beige,Black,Blue,Bronze,Brown,Green,Grey,Orange,Red,Silver,Violet,White,Yellow
133,1,0,0,0,0,0,0,0,0,0,0,0,0


In [35]:
pd.get_dummies(df['Body Color'], drop_first=True).loc[[133]].astype(int)

Unnamed: 0,Black,Blue,Bronze,Brown,Green,Grey,Orange,Red,Silver,Violet,White,Yellow
133,0,0,0,0,0,0,0,0,0,0,0,0


Más columnas significan menor rendimiento y más tiempo de entrenamiento. Imagina que tenemos 20 columnas que no son numéricas. Si usamos ‘drop_first’, obtendremos 20 columnas menos. Por lo tanto, es útil usar el parámetro ‘drop_first’ para mejorar el rendimiento del modelo.

### 3. get_dummies con el parámetro 'prefix'

Si el DataFrame tuviera la columna “Upholstery Color”, también obtendríamos una columna para el color negro o marrón del tapizado después de aplicar ‘get_dummies’, además de la columna "Body Color". Múltiples columnas con el mismo nombre pueden causar problemas. Podemos usar el parámetro ‘prefix’ para evitar esta situación.