In [4]:
# pandas.get_dummies
# (data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)
# 该方法可以将类别变量转换成新增的虚拟变量/指示变量

# 参数
# data : array-like, Series, or DataFrame 
# prefix : string, list of strings, or dict of strings, default None,  get_dummies转换后，列名的前缀 
# *columns : list-like, default None 指定需要实现类别转换的列名
# dummy_na : bool, default False 增加一列表示空缺值，如果False就忽略空缺值
# drop_first : bool, default False 获得k中的k-1个类别值，去除第一个

import pandas as pd
import numpy as np

In [2]:
s = pd.Series(list('abca'))
pd.get_dummies(s)

Unnamed: 0,a,b,c
0,1,0,0
1,0,1,0
2,0,0,1
3,1,0,0


In [3]:
pd.get_dummies(s, drop_first=True)

Unnamed: 0,b,c
0,0,0
1,1,0
2,0,1
3,0,0


In [5]:
s1 = ['a', 'b', np.nan]
pd.get_dummies(s1, dummy_na=True)

Unnamed: 0,a,b,nan
0,1,0,0
1,0,1,0
2,0,0,1


In [7]:
df = pd.DataFrame({'A': ['a', 'b', 'a'], 
                   'B': ['b', 'a', 'c'],
                   'C': [1, 2, 3]})
print(df)
# 直接C不参加，因为prefix写明了A和B参加one-hot编码。
pd.get_dummies(df, prefix=['col1', 'col2'])

   A  B  C
0  a  b  1
1  b  a  2
2  a  c  3


Unnamed: 0,C,col1_a,col1_b,col2_a,col2_b,col2_c
0,1,1,0,0,1,0
1,2,0,1,1,0,0
2,3,1,0,0,0,1


In [8]:
pd.get_dummies(pd.Series(list('abcaa')))

Unnamed: 0,a,b,c
0,1,0,0
1,0,1,0
2,0,0,1
3,1,0,0
4,1,0,0


In [9]:
pd.get_dummies(pd.Series(list('abcaa')), drop_first=True)

Unnamed: 0,b,c
0,0,0
1,1,0
2,0,1
3,0,0
4,0,0


In [11]:
# 离散特征的编码分为两种情况： 
# 1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码 
# 2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3} 
# 使用pandas可以很方便的对离散型特征进行one-hot编码

df = pd.DataFrame([
    ['green', 'M', 10.1, 'class1'],
    ['red', 'L', 13.5, 'class2'],
    ['blue', 'XL', 15.3, 'class1']
])

df.columns = ['color', 'size', 'prize', 'class label']
size_mapping = {'XL': 3, 'L': 2, 'M': 1}
df['size'] = df['size'].map(size_mapping)

class_mapping = {label:idx for idx, label in enumerate(set(df['class label']))}
df['class label'] = df['class label'].map(class_mapping)
print(df)

# 使用get_dummies进行one-hot编码
pd.get_dummies(df)

   color  size  prize  class label
0  green     1   10.1            1
1    red     2   13.5            0
2   blue     3   15.3            1


Unnamed: 0,size,prize,class label,color_blue,color_green,color_red
0,1,10.1,1,0,1,0
1,2,13.5,0,0,0,1
2,3,15.3,1,1,0,0
