### 特征缩放

对于任何基于距离的机器学习模型（正则化回归方法、神经网络，现在是 KMeans ），你都需要缩放数据。

如果你的数据有一些尺度完全不同的特征，则将会对 KMeans 的聚类结果有很大的影响。

在本 Notebook 中，你会看到第一手的资料。 首先，让我们导入必要的库。

In [None]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn import preprocessing as p

%matplotlib inline

plt.rcParams['figure.figsize'] = (16, 9)
import helpers2 as h
import tests as t


# Create the dataset for the notebook
data = h.simulate_data(200, 2, 4)
df = pd.DataFrame(data)
df.columns = ['height', 'weight']
df['height'] = np.abs(df['height']*100)
df['weight'] = df['weight'] + np.random.normal(50, 10, 200)

`1.` 接下来，查看数据来熟悉它。 这个数据集有个两列，它被存储在变量 df 中。 了解当前数据的分布以及可视化这些点可能很有用。  

In [None]:
#Take a look at the data

In [None]:
#use this cell if you would like as well

现在我们已经有了一个数据集，让我们看看一些用于缩放数据的选项, 以及如何缩放数据。我们将讨论两种非常常见的特征缩放类型：


**I.  MinMaxScaler**

在某些情况下，把你的数据看作是百分比数是有用的，即它们与最大值相比的百分比。 在这些情况下，你需要使用 **MinMaxScaler**。


**II. StandardScaler**

另一种非常流行的特征缩放类型是缩放数据使其具有均值为 0、方差为 1的分布。在这些情况下，你需要使用 **StandardScaler**。

使用 **StandardScaler** 可能更适合此数据。但是，为了在python中练习特征缩放方法，我们将执行这两类缩放操作。

`2.` 首先让我们用 **StandardScaler** 变换来拟合这个数据集。 我将做这个，以便你可以看到如何用 sklearn 进行数据预处理。

In [None]:
df_ss = p.StandardScaler().fit_transform(df) # Fit and transform the data

In [None]:
df_ss = pd.DataFrame(df_ss) #create a dataframe
df_ss.columns = ['height', 'weight'] #add column names again

plt.scatter(df_ss['height'], df_ss['weight']); # create a plot

`3.` 现在轮到你了。 请尝试将 **MinMaxScaler** 变换拟合到此数据集。 你应该能够从前面的示例得到帮助。

In [None]:
# fit and transform

In [None]:
#create a dataframe
#change the column names
#plot the data

`4.`  现在让我们来看看 KMeans 是如何根据不同的数据缩放，对数据集进行不同的分组。 当数据缩放不同时，最终你是否得到了不同的聚类？

In [None]:
def fit_kmeans(data, centers):
    '''
    INPUT:
        data = the dataset you would like to fit kmeans to (dataframe)
        centers = the number of centroids (int)
    OUTPUT:
        labels - the labels for each datapoint to which group it belongs (nparray)
    
    '''
    kmeans = KMeans(centers)
    labels = kmeans.fit_predict(data)
    return labels

labels = fit_kmeans(df, 10) #fit kmeans to get the labels
    
# Plot the original data with clusters
plt.scatter(df['height'], df['weight'], c=labels, cmap='Set1');

In [None]:
#plot each of the scaled datasets

In [None]:
#another plot of the other scaled dataset

请在这里写下你的回答！