# sklearn.preprocessing.Binarizer
根据阈值将数据二值化（将特征值设置为0或1），用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。

In [6]:
import pandas as pd
data = pd.read_csv(r"..\\Narrativedata.csv", index_col=0)
data.dropna(axis=0,inplace=True)

In [9]:
#将年龄二值化
data_2 = data.copy()
data_2.head(10)

Unnamed: 0,Age,Sex,Embarked,Survived
0,22.0,male,S,No
1,38.0,female,C,Yes
2,26.0,female,S,Yes
3,35.0,female,S,Yes
4,35.0,male,S,No
6,54.0,male,S,No
7,2.0,male,S,No
8,27.0,female,S,Yes
9,14.0,female,C,Yes
10,4.0,female,S,Unknown


In [10]:
from sklearn.preprocessing import Binarizer
X = data_2.iloc[:,0].values.reshape(-1,1) #类为特征专用，所以不能使用一维数组
# data_2.iloc[:,0]所有行的第0列，取出来是一个series（一列索引一列值），所以.value取出它的值，reshape转为二维

In [11]:
transformer = Binarizer(threshold=30).fit_transform(X) # 以30为界限，30以上的为1，以下为0
transformer

array([[0.],
       [1.],
       [0.],
       [1.],
       [1.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [1.],
       [0.],
       [1.],
       [0.],
       [1.],
       [1.],
       [1.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [1.],
       [1.],
       [0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [1.],
       [0.],
       [1.],
       [1.],
       [0.],
       [1.],
       [1.],

# preprocessing.KBinsDiscretizer
这是将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码。

**n_bins**
每个特征中分箱的个数，默认5，一次会*被运用到所有导入的特征*

**encode**
编码的方式，默认“onehot”
"onehot"：做哑变量，之后返回一个稀疏矩阵，每一列是一个特征中的一个类别，含有该类别的样本表示为1，不含的表示为0
“ordinal”：每个特征的每个箱都被编码为一个整数，返回每一列是一个特征，每个特征下含有不同整数编码的箱的矩阵
"onehot-dense"：做哑变量，之后返回一个密集数组。

**strategy**
用来定义箱宽的方式，默认"quantile"
"uniform"：表示等宽分箱，即每个特征中的每个箱的最大值之间的差为(特征.max() - 特征.min())/(n_bins)
"quantile"：表示等位分箱，即每个特征中的每个箱内的样本数量都相同
"kmeans"：表示按聚类分箱，每个箱中的值到最近的一维k均值聚类的簇心得距离都相同

In [12]:
from sklearn.preprocessing import KBinsDiscretizer
X = data.iloc[:,0].values.reshape(-1,1)

In [13]:
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform') # 实例化
est.fit_transform(X)[:20]


array([[0.],
       [1.],
       [0.],
       [1.],
       [1.],
       [2.],
       [0.],
       [1.],
       [0.],
       [0.],
       [2.],
       [0.],
       [1.],
       [0.],
       [2.],
       [0.],
       [1.],
       [1.],
       [1.],
       [0.]])

In [14]:
#查看转换后分的箱：变成了一列中的三箱
set(est.fit_transform(X).ravel())
# 放到集合里面，就自动去重，查看有多少类
# ravel()降维，将数组维度拉成一维数组，因为set不支持导入多维

{0.0, 1.0, 2.0}

In [15]:
est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')
#查看转换后分的箱：变成了哑变量
est.fit_transform(X).toarray()
# 返回三列，就是年龄的三箱，接下来就是把这三列放到原来的数据里面，然后把原来的数据删了，再重命名列名就行

array([[1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       ...,
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 1., 0.]])