In [21]:
# In this exercise we'll load the titanic data (from Project 0)
# And then perform one-hot encoding on the feature names

# 在这一节我们将载入泰坦尼克的数据并在指定的名称上练习 one-hot encoding.

import numpy as np
import pandas as pd

# Let's see what is LabelEncoder and OneHotEncoder first.
# 不过我们先看看 LabelEncoder 跟 OneHotEncoder 是啥鸡巴玩儿.

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# Let's create a new LabelEncoder object.
# 先瞅瞅 LabelEncoder.
le = LabelEncoder()
print le

LabelEncoder()


In [77]:
# Then add something to it.
# 然后随便写点数据.

myNumber = [1, 5, 67, 100]
le.fit(myNumber)
print le

LabelEncoder()


In [80]:
# Then do a transform.
# 然后 transform 一下.
checkThis = [1, 1, 100, 67, 5]
le.transform(checkThis)

array([0, 0, 3, 2, 1], dtype=int64)

In [87]:
# 我们得到了一个结果为 [0, 0, 3, 2, 1] 的数组.
# 我们用 le.transform 方法检查了 [1, 1, 100, 67, 5] 在 [1, 5, 67, 100] 中的位置，并返回了下标.

# 这是 LabelEncoder，它用来将不连续的成员进行编号.

# 查看编号看看：
myNumber = [1, 5, 67, 100]
le.transform(myNumber)

array([0, 1, 2, 3], dtype=int64)

In [88]:
# 这里还有一个 fit_transform 的方法，用来直接返回传入项目所使用的编号.
# 和上面的作用一样.
le2 = LabelEncoder()
le2.fit_transform([1, 5, 67, 100])

array([0, 1, 2, 3], dtype=int64)

In [28]:
# 再看看 OneHotEncoder.

# 搞一个 OneHotEncoder.
ohe = OneHotEncoder()
print ohe

OneHotEncoder(categorical_features='all', dtype=<type 'numpy.float64'>,
       handle_unknown='error', n_values='auto', sparse=True)


In [66]:
# 然后搞点数据.
ohe.fit([[11], [22], [33], [44], [55]])

OneHotEncoder(categorical_features='all', dtype=<type 'numpy.float64'>,
       handle_unknown='error', n_values='auto', sparse=True)

In [68]:
# 然后 transform 一下.
ohe.transform([[11], [22], [33], [44], [55]]).toarray()

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [89]:
# 不明白？再来一个.
ohe.transform([[55], [22], [11], [44]]).toarray()

# 可看到，输出的结果：
# - 结果数组中的每一项从 fit 时传入的“每一项 1 个成员”扩容至了 fit 时“传入的成员数量”（5 个）.
# - 结果数组中的每一项中的 1 代表 transform 时传入的数值在原数组中的下标位置，0 为其他位置占位符.

# 还是不懂，不过找到一个参照文章：
# http://blog.csdn.net/ariessurfer/article/details/42526673

array([[ 0.,  0.,  0.,  0.,  1.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.]])

In [93]:
# 这里也有一个 fit_transform 方法，直接返回传入内容的独热编码.
ohe2 = OneHotEncoder()
ohe2.fit_transform([[11], [22], [33], [44], [55]]).toarray()

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

### 若干理解

摘抄至[机器学习 数据预处理之独热编码（One-Hot Encoding）](http://blog.csdn.net/ariessurfer/article/details/42526673)

---

**独热编码** 即 **One-Hot** 编码，又称**一位有效编码**，其方法是使用 N 位状态寄存器来对 N 个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

例如：

自然状态码为：`000, 001, 010, 011, 100, 101`

独热编码（One Hot Encoding）为：`000001, 000010, 000100, 001000, 010000, 100000`

> 每一项被转换为了 6 位的二进制数，因为原成员数为 6 个，然后使用其中一位进行占位，来映射表示原成员项.

可以这样理解，对于每一个特征，如果它有 m 个（上面为 6 个）可能值，那么经过独热编码后，就变成了 m 个二元特征。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。

> 例如：
有一组数据为：names = ["Lancer", "Felix", "Shuhan", "Fanfan"]
那么经过 ohe.fit(names) 后应该为：[0001, 0010, 0100, 1000]
每个成员使用一个 4 位二进制数表示，且其中一位设置为 1，作为个性数值.
那么之后的代码，可以用 0001 代表 "Lancer", 0010 代表 "Felix", 0100 代表 "Shuhan", 1000 代表 "Fanfan".
