# 特征转换OneHot编码

### 1. 使用Pandas进行OneHot编码

In [1]:
import pandas as pd

In [2]:
data=[[4,'cat',4],[6,'dog',5],[3,'dog',1],[3,'fish',1]]
column_name = ['age','pet','salary']
testdata = pd.DataFrame(data=data,columns=column_name)
testdata

Unnamed: 0,age,pet,salary
0,4,cat,4
1,6,dog,5
2,3,dog,1
3,3,fish,1


In [3]:
# 通过get_dummies函数转换pet字段
a = pd.get_dummies(testdata,columns=['pet'])
a

Unnamed: 0,age,salary,pet_cat,pet_dog,pet_fish
0,4,4,1,0,0
1,6,5,0,1,0
2,3,1,0,1,0
3,3,1,0,0,1


### 2. 使用sklearn进行OneHot编码

In [4]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import LabelBinarizer

**对数值型类别变量**

In [5]:
OneHotEncoder(sparse = False).fit_transform(testdata[['age']]) # testdata.age 这里与 testdata[['age']]等价

array([[0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.]])

**对字符串型类别变量**

`OneHotEncoder`无法对对字符串类型的变量进行编码，也就是说`OneHotEncoder().fit_transform(testdata[[‘pet’]])`这句话会报错，所以应当采用如下步骤
* 方法一 ：先用 LabelEncoder() 转换成连续的数值型变量，再用 OneHotEncoder() 二值化
* 方法二 ：直接用 LabelBinarizer() 进行二值化 

**正因为LabelEncoder和LabelBinarizer设计为只支持 1-D array，也使得它无法像上面 OneHotEncoder 那样批量接受多列输入，也就是说LabelEncoder().fit_transform(testdata[[‘pet’, ‘age’]])会报错。 **

In [6]:
# 方法一：LabelEncoder() + OneHotEncoder()
a = LabelEncoder().fit_transform(testdata['pet'])
OneHotEncoder( sparse=False ).fit_transform(a.reshape(-1,1)) # 注意: 这里把 a 用 reshape 转换成 2-D array

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [7]:
# 方法二: 直接用 LabelBinarizer()
LabelBinarizer().fit_transform(testdata['pet'])

array([[1, 0, 0],
       [0, 1, 0],
       [0, 1, 0],
       [0, 0, 1]])