<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#基本概念" data-toc-modified-id="基本概念-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>基本概念</a></span><ul class="toc-item"><li><span><a href="#参数" data-toc-modified-id="参数-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>参数</a></span></li></ul></li><li><span><a href="#实战" data-toc-modified-id="实战-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>实战</a></span></li><li><span><a href="#总结" data-toc-modified-id="总结-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>总结</a></span></li><li><span><a href="#练习" data-toc-modified-id="练习-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>练习</a></span></li></ul></div>

## 基本概念

K-Means 的工作原理：
1. 从数据集中随机抽取 K 个点作为初始的类中心点；
1. 将每个点分配到最近的类中心，这样就形成 K 个类，然后重新计算每个类的中心店；
1. 重复第二步，直到类不发生变化；或者设置最大迭代数。

### 参数

In [None]:
from sklearn.cluster import KMeans

KMeans(n_clusters=8, init='k-means++', n_init=10,
          max_iter=300, tol=0.0001, precompute_distance='auto',
          verbose=0, random_state=None, copy_x=True, algorithm='auto')

n_clusters：K 值，需要进行多次尝试才能得到更好的聚类效果；

init：初始值选择的方式；

n_init：初始化中心点的运算次数，默认是 10.

max_iter：最大迭代次数；

tol：Relative tolerance with regards to inertia to declare convergence

precompute_distance：Precompute distances (faster but takes more memory).

verbose：Verbosity mode.

random_state：Determines random number generation for centroid initialization. Use an int to make the randomness deterministic.

copy_x：When pre-computing distances it is more numerically accurate to center the data first. If copy_x is True (default), then the original data is not modified, ensuring X is C-contiguous. If False, the original data is modified, and put back before the function returns, but small numerical differences may be introduced by subtracting and then adding the data mean, in this case it will also not ensure that data is C-contiguous which may cause a significant slowdown.

algorithm：K-Means 的实现算法：auto、full、elkan。

## 实战

In [15]:
from sklearn.cluster import KMeans
from sklearn import preprocessing
import pandas as pd
import numpy as np

data = pd.read_csv("datasets/data_026.csv", encoding="gbk")
# data.columns
train_x = data[["2019年国际排名", "2018世界杯", "2015亚洲杯"]]

kmeans = KMeans(n_clusters=3)

min_max_scaler = preprocessing.MinMaxScaler()
train_x = min_max_scaler.fit_transform(train_x)

kmeans.fit(train_x)
predict_y = kmeans.predict(train_x)

result = pd.concat((data, pd.DataFrame(predict_y)), axis=1)
result.rename({0: u"聚类"}, axis=1, inplace=True)
print(result)

        国家  2019年国际排名  2018世界杯  2015亚洲杯  聚类
0       中国         73       40        7   2
1       日本         60       15        5   1
2       韩国         61       19        2   1
3       伊朗         34       18        6   1
4       沙特         67       26       10   1
5      伊拉克         91       40        4   2
6      卡塔尔        101       40       13   0
7      阿联酋         81       40        6   2
8   乌兹别克斯坦         88       40        8   2
9       泰国        122       40       17   0
10      越南        102       50       17   0
11      阿曼         87       50       12   0
12      巴林        116       50       11   0
13      朝鲜        110       50       14   0
14      印尼        164       50       17   0
15      澳洲         40       30        1   1
16     叙利亚         76       40       17   0
17      约旦        118       50        9   0
18     科威特        160       50       15   0
19    巴勒斯坦         96       50       16   0


## 总结

如何确定 K 类的中心？其中包括了初始的设置，以及中间迭代过程中中心点的计算。在初始设置中，会进行 n_init 次的选择，然后选择初始中心点效果最好的作为初始值。在每次分类更新后，都需要重新确认每一类的中心点，一般采用均值的方式进行确认。
***
如何将其他点划分到 K 类中？首先定义距离（欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离等），而后看它离哪个类的中心点近，就划分为哪一类。
***
K-Means 和 KNN 的区别：
1. K-Means 属于无监督学习，KNN 属于监督学习；
1. K-Means 属于聚类算法，KNN 属于分类算法；
1. K-Means 的 K 值代表 K 类，KNN 的 K 值代表 K 个最接近的邻居。
***
<img src="https://static001.geekbang.org/resource/image/eb/c5/eb60546c6a3d9bc6a1538049c26723c5.png" style="width:500px">

## 练习

尝试把实战中的球队划分为 5 类，在规范化数据时采用标准化的方式（即均值为 0，方差为 1）。

In [12]:
from sklearn.cluster import KMeans
from sklearn import preprocessing
import pandas as pd
import numpy as np

data = pd.read_csv("datasets/data_026.csv", encoding="gbk")

train_x = data[["2019年国际排名", "2018世界杯", "2015亚洲杯"]]

kmeans = KMeans(n_clusters=5)

standard_scaler = preprocessing.StandardScaler()
train_x = standard_scaler.fit_transform(train_x)

kmeans.fit(train_x)
predict_y = kmeans.predict(train_x)

result = pd.concat((data, pd.DataFrame(predict_y)), axis=1)
result.rename({0: u"聚类"}, axis=1, inplace=True)
print(result)

        国家  2019年国际排名  2018世界杯  2015亚洲杯  聚类
0       中国         73       40        7   2
1       日本         60       15        5   1
2       韩国         61       19        2   1
3       伊朗         34       18        6   1
4       沙特         67       26       10   1
5      伊拉克         91       40        4   2
6      卡塔尔        101       40       13   0
7      阿联酋         81       40        6   2
8   乌兹别克斯坦         88       40        8   2
9       泰国        122       40       17   0
10      越南        102       50       17   0
11      阿曼         87       50       12   0
12      巴林        116       50       11   4
13      朝鲜        110       50       14   0
14      印尼        164       50       17   3
15      澳洲         40       30        1   1
16     叙利亚         76       40       17   0
17      约旦        118       50        9   4
18     科威特        160       50       15   3
19    巴勒斯坦         96       50       16   0
