# 第5章　使用`pandas`进行数据预处理

## 任务5.4　转换数据

<br>
<center>
    <b>代码5-30　哑变量处理示例</b>
</center>

In [1]:
import numpy
import pandas
detail = pandas.read_csv('data/detail.csv', encoding='gbk')
data = detail.loc[0:5, 'dishes_name']
print('哑变量处理前的数据为：', data, sep='\n')
print('哑变量处理后的数据为：', pandas.get_dummies(data), sep='\n')

哑变量处理前的数据为：
0     蒜蓉生蚝
1    蒙古烤羊腿
2     大蒜苋菜
3    芝麻烤紫菜
4      蒜香包
5      白斩鸡
Name: dishes_name, dtype: object
哑变量处理后的数据为：
   大蒜苋菜  白斩鸡  芝麻烤紫菜  蒙古烤羊腿  蒜蓉生蚝  蒜香包
0     0    0      0      0     1    0
1     0    0      0      1     0    0
2     1    0      0      0     0    0
3     0    0      1      0     0    0
4     0    0      0      0     0    1
5     0    1      0      0     0    0


<br>
<center>
    <b>代码5-31　等宽法离散化示例</b>
</center>

In [2]:
price = pandas.cut(detail['amounts'], 5)
print('李灿花后5条记录售价分布为：', price.value_counts(), sep='\n')

李灿花后5条记录售价分布为：
(0.823, 36.4]     5461
(36.4, 71.8]      3157
(71.8, 107.2]      839
(142.6, 178.0]     426
(107.2, 142.6]     154
Name: amounts, dtype: int64


<br>
<center>
    <b>代码5-32　等频法离散化示例</b>
</center>

In [3]:
def sameRateCut(data, k):
    w = data.quantile(numpy.arange(0, 1 + 1.0 / k, 1.0 / k))
    data = pandas.cut(data, w)
    return data
result = sameRateCut(detail['amounts'], 5).value_counts()
print('菜品数据等频法离散化后各个类别数目分布状况为：', result, sep='\n')

菜品数据等频法离散化后各个类别数目分布状况为：
(18.0, 32.0]     2107
(39.0, 58.0]     2080
(32.0, 39.0]     1910
(1.0, 18.0]      1891
(58.0, 178.0]    1863
Name: amounts, dtype: int64


<br>
<center>
    <b>代码5-33　基于聚类分析的离散化</b>
</center>

In [4]:
def kmeansCut(data, k):
    # 引入聚类器
    from sklearn.cluster import KMeans
    # 建立模型
    kmodel = KMeans(n_clusters=k)
    # 训练模型
    kmodel.fit(data.values.reshape((len(data), 1)))
    # 输出聚类中心并排序
    c = pandas.DataFrame(kmodel.cluster_centers_).sort_values(0)
    # 相邻两项计算中点，作为边界点
    w = c.rolling(2).mean().iloc[1:]
    # 追加首末边界点
    w = [0] + list(w[0]) + [data.max()]
    data = pandas.cut(data, w)
    return data
result = kmeansCut(detail['amounts'], 5).value_counts()
print('菜品售价聚类离散化后各个类别数目分布情况为：', result, sep='\n')

菜品售价聚类离散化后各个类别数目分布情况为：
(22.31, 43.51]       3690
(43.51, 73.945]      2474
(0.0, 22.31]         2454
(73.945, 131.858]     993
(131.858, 178.0]      426
Name: amounts, dtype: int64


<br>
<center>
    <b>代码5-34　菜品<code>dishes_name</code>哑变量处理</b>
</center>

In [5]:
data = detail.loc[:, 'dishes_name']
print('哑变量处理前的数据为：', data.iloc[:5], sep='\n')
print('哑变量处理后的数据为：', pandas.get_dummies(data).iloc[:5, :5], sep='\n')

哑变量处理前的数据为：
0     蒜蓉生蚝
1    蒙古烤羊腿
2     大蒜苋菜
3    芝麻烤紫菜
4      蒜香包
Name: dishes_name, dtype: object
哑变量处理后的数据为：
   38度剑南春  42度海之蓝  50度古井贡酒  52度泸州老窖  53度茅台
0       0       0        0        0      0
1       0       0        0        0      0
2       0       0        0        0      0
3       0       0        0        0      0
4       0       0        0        0      0


<br>
<center>
    <b>代码5-35　菜品售价等频法离散化</b>
</center>

In [6]:
def sameRateCut(data, k):
    w = data.quantile(numpy.arange(0, 1 + 1.0 / k, 1.0 / k))
    data = pandas.cut(data, w)
    return data
result = sameRateCut(detail['amounts'], 5).value_counts()
print('菜品数据等频法离散化后各个类别数目分布状况为：', result, sep='\n')

菜品数据等频法离散化后各个类别数目分布状况为：
(18.0, 32.0]     2107
(39.0, 58.0]     2080
(32.0, 39.0]     1910
(1.0, 18.0]      1891
(58.0, 178.0]    1863
Name: amounts, dtype: int64
