In [1]:
import pandas as pd
import numpy as np

# 字符串离散化

1. pd.get_dummies(): 将字符串转换为one-hot编码的离散特征，可接受Series和DataFrame输入
    - pd.from_dummies(): 逆过程，将one-hot编码转换为字符串
    - pd.Series.str.get_dummies(sep='|'): 将字符串以sep分隔后转换为one-hot编码
2. pd.factorize(): 将字符串编码为枚举类型或分类变量，只接受Series输入

pd.get_dummies(s).sum() -> s.value_counts() 或使用groupby

### pd.get_dummies()

- pd.get_dummies()
    - 将字符串转换为one-hot编码
    - 可以设置dummy_na=True将NaN也作为新的一类
    - 输入为DataFrame时，列名会被当做前缀
    - 可以设置prefix参数更改前缀
    - 只有字符串列会被编码
    - 可以设置返回DataFrame的dtype

In [2]:
# pd.get_dummies()
# 将字符串转换为one-hot编码
s1 = pd.Series(['a', 'b', 'c', 'a'])
pd.get_dummies(s1)

Unnamed: 0,a,b,c
0,True,False,False
1,False,True,False
2,False,False,True
3,True,False,False


In [4]:
# 存在NaN时，默认不作为新的一类
s2 = pd.Series(['a', 'b', np.nan, 'a'])
pd.get_dummies(s2)

Unnamed: 0,a,b
0,True,False
1,False,True
2,False,False
3,True,False


In [5]:
# 可以设置dummy_na=True将NaN也作为新的一类
pd.get_dummies(s2, dummy_na=True)

Unnamed: 0,a,b,NaN
0,True,False,False
1,False,True,False
2,False,False,True
3,True,False,False


In [13]:
# 输入为DataFrame时，列名会被当做前缀
# 可以设置prefix参数更改前缀
# 只有字符串列会被编码
df1 = pd.DataFrame({'A': ['a', 'b', 'c', 'a'], 'C': [1, 2, 3, 4], 'B': ['b', 'a', 'b', 'c']})
pd.get_dummies(df1, prefix=['col1', 'col2'])

Unnamed: 0,C,col1_a,col1_b,col1_c,col2_a,col2_b,col2_c
0,1,True,False,False,False,True,False
1,2,False,True,False,True,False,False
2,3,False,False,True,False,True,False
3,4,True,False,False,False,False,True


In [8]:
# 指定返回DataFrame的dtype
pd.get_dummies(s1, dtype=float)

Unnamed: 0,a,b,c
0,1.0,0.0,0.0
1,0.0,1.0,0.0
2,0.0,0.0,1.0
3,1.0,0.0,0.0


### pd.from_dummies()

- pd.from_dummies()
    - 逆过程，将one-hot编码转换为字符串
    - 列名中包含前缀时，需要指定sep参数

In [29]:
# pd.from_dummies()
# 逆过程，将one-hot编码转换为字符串
df2 = pd.get_dummies(df1)
df2 = df2.loc[:, ~df2.columns.str.startswith('C')]
df2

Unnamed: 0,A_a,A_b,A_c,B_a,B_b,B_c
0,True,False,False,False,True,False
1,False,True,False,True,False,False
2,False,False,True,False,True,False
3,True,False,False,False,False,True


In [30]:
# 由于列名中包含前缀，需要指定sep参数
pd.from_dummies(df2, sep='_')

Unnamed: 0,A,B
0,a,b
1,b,a
2,c,b
3,a,c


### pd.Series.str.get_dummies(sep='|')

- pd.Series.str.get_dummies(sep='|')
    - 将字符串以sep分隔后转换为one-hot编码

In [15]:
# pd.Series.str.get_dummies(sep='|')
# 将字符串以sep分隔后转换为one-hot编码
s3 = pd.Series(['a|b', 'b|c|a', 'c', 'a'])
s3.str.get_dummies(sep='|')

Unnamed: 0,a,b,c
0,1,1,0
1,1,1,1
2,0,0,1
3,1,0,0


### pd.get_dummies(s).sum() -> s.value_counts()

In [45]:
s2 = pd.Series(['a', 'b', np.nan, 'a'])
pd.get_dummies(s2).sum()

a    2
b    1
dtype: int64

In [46]:
s2.value_counts()

a    2
b    1
Name: count, dtype: int64

### pd.factorize()

- pd.factorize()
    - 将字符串编码为枚举类型或分类变量

In [32]:
# pd.factorize()
# 将字符串编码为枚举类型或分类变量
s4 = pd.Series(['a', 'b', 'c', 'a'])
codes, uniques = pd.factorize(s4)

In [33]:
codes

array([0, 1, 2, 0])

In [34]:
uniques

Index(['a', 'b', 'c'], dtype='object')

In [38]:
# 通过指定use_na_sentinel=True，将NaN编码为-1
s5 = pd.Series(['a', 'b', np.nan, 'a'])
codes, uniques = pd.factorize(s5, use_na_sentinel=True)
codes

array([ 0,  1, -1,  0])

In [39]:
uniques

Index(['a', 'b'], dtype='object')

In [43]:
# 要对DataFrame处理，可以使用apply
df3 = pd.DataFrame({'A': ['a', 'b', 'c', 'a'], 'B': ['b', 'a', 'b', 'c']})
df3.apply(lambda x: pd.factorize(x)[0])

Unnamed: 0,A,B
0,0,0
1,1,1
2,2,0
3,0,2
