> ### **解决了分类器不好处理属性数据的问题**
> ### **在一定程度上也起到了扩充特征的作用**

#### $problem1. $ 离散特征的取值有大小的意义，比如 $size:[L,XL,XXL]$ ,那么就使用数值的映射即可

In [37]:
import pandas as pd
data = pd.DataFrame({'size': ['L', 'XL', 'XXL', 'XXXL']})
data

Unnamed: 0,size
0,L
1,XL
2,XXL
3,XXXL


In [38]:
size_map = {
    'L': 1,
    'XL': 2,
    'XXL': 3,
    'XXXL': 4
}
data['size'] = data['size'].map(size_map)
data

Unnamed: 0,size
0,1
1,2
2,3
3,4


#### $problem2. $ 离散特征的取值之间没有大小的意义，比如$color：[red,blue]$,那么就使用$one$-$hot$编码

考虑如下问题： 对于离散型属性$["from Europe", "from US", "from Asia"]$， 如果编码成0， 1， 2， 会导致距离失衡*(喂给机器学习后在映射空间下)*，例如$"from Europe"$与$"from US"$相对$"from Europe"$与$"from Asia"$更近，但实际上三种变量距离应该相等.\
**故引出独热编码**

例如有如下三种离散变量
 - 性别：[“男”，“女”]
 - 年级：[“初一”，“初二”，“初三”]
 - 学校：[“一中”，“二中”，“三中”，“四中”]\
在独热编码映射下：
 - 男：$10$
 - 女：$01$
 - 初一：$100$  
 - 初二：$010$
 - 初三：$001$
 - 一中：$1000$
 - 二中：$0100$
 - 三中：$0010$
 - 四中：$0001$\
 最后将三种变量拼接起来， 例如一样本为“男生，初一，来自二中”\
 则映射为：  $[1 0 1 0 0 0 1 0 0] $
 

---
> #### 方法一、 pandas get_dummies

In [39]:
# All arrays must be of the same length
# size-> 6  |  gender-> 3

data = pd.DataFrame({'size': ['L', 'XL', 'XXL', 'XXXL', 'XXXXL', 'XXXXXL'],
                     'gender':['m','f','m','f','m','n']
                    })
data

Unnamed: 0,size,gender
0,L,m
1,XL,f
2,XXL,m
3,XXXL,f
4,XXXXL,m
5,XXXXXL,n


In [40]:
# 若DataFrame中有数值型特征(columns)，数值型column则保留原始值
data_onehot = pd.get_dummies(data)
data_onehot # 拿转换后的数组喂给机器学习

Unnamed: 0,size_L,size_XL,size_XXL,size_XXXL,size_XXXXL,size_XXXXXL,gender_f,gender_m,gender_n
0,1,0,0,0,0,0,0,1,0
1,0,1,0,0,0,0,1,0,0
2,0,0,1,0,0,0,0,1,0
3,0,0,0,1,0,0,1,0,0
4,0,0,0,0,1,0,0,1,0
5,0,0,0,0,0,1,0,0,1


---
> #### 方法二、 sklearn OneHotEncoder

In [41]:
data = pd.DataFrame({'size': ['L', 'XL', 'XXL', 'XXXL', 'XXXXL', 'XXXXXL'],
                     'gender':['m','f','m','f','m','n']
                    })
data

Unnamed: 0,size,gender
0,L,m
1,XL,f
2,XXL,m
3,XXXL,f
4,XXXXL,m
5,XXXXXL,n


In [42]:
from sklearn import preprocessing
data_onehot = preprocessing.OneHotEncoder()
data_onehot.fit(data)

# 试一下转换效果
person = [['XXXL', 'm'], ['XL', 'm']]
onehot_person = data_onehot.transform(person).toarray()
onehot_person

  "X does not have valid feature names, but"


array([[0., 0., 0., 1., 0., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0., 0., 0., 1., 0.]])

#### 参考
> https://www.cnblogs.com/zongfa/p/9305657.html \
> https://cloud.tencent.com/developer/article/1688022 \
> https://blog.csdn.net/Breathing_yang/article/details/93523822