In [1]:
'''
OHE = One Hot Encoding
一句话概括：one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。

在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。

例如，考虑一下的三个特征：
["male", "female"]
["from Europe", "from US", "from Asia"]
["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果将上述特征用数字表示，效率会高很多。例如：
["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]
["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]
但是，即使转化为数字表示后，上述数据也不能直接用在我们的分类器中。这个的整数特征表示并不能在分类器中直接使用，
因为这样的连续输入，估计器会认为类别之间是有序的，但实际却是无序的。(例如：浏览器的类别数据则是任意排序的)。

所以我们要对特征进行扩展，以来源地为例，原来一个特征对应3个值，现在扩大成3个特征，每个特征取布尔值。
'''
import pandas as pd

In [2]:
df = pd.DataFrame([  
            ['green', 'M', 10.1, 'class1'],   
            ['red', 'L', 13.5, 'class2'],   
            ['blue', 'XL', 15.3, 'class1']])  
  
df.columns = ['color', 'size', 'prize', 'class label']
df

Unnamed: 0,color,size,prize,class label
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [3]:
size_mapping = {  
           'XL': 3,  
           'L': 2,  
           'M': 1}  
df['size'] = df['size'].map(size_mapping) # 值映射

class_mapping = {label:idx for idx,label in enumerate(set(df['class label']))}  
df['class label'] = df['class label'].map(class_mapping)

df

Unnamed: 0,color,size,prize,class label
0,green,1,10.1,1
1,red,2,13.5,0
2,blue,3,15.3,1


In [4]:
df2 = pd.get_dummies(df)
df2

Unnamed: 0,size,prize,class label,color_blue,color_green,color_red
0,1,10.1,1,0,1,0
1,2,13.5,0,0,0,1
2,3,15.3,1,1,0,0


In [11]:
df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], 'C': [1, 2, 3]})  
# pd.get_dummies(df, prefix=['A', 'B']) # 指定参与变换的列
df

Unnamed: 0,A,B,C
0,a,b,1
1,b,a,2
2,a,c,3


In [13]:
pd.get_dummies(df, prefix=['X', 'Y'])

Unnamed: 0,C,X_a,X_b,Y_a,Y_b,Y_c
0,1,1,0,0,1,0
1,2,0,1,1,0,0
2,3,1,0,0,0,1
