## 1、什么是聚类
    聚类是无监督的学习，具体含义需要我们指定

    什么时候使用聚类：缺乏足够的先验知识、人工打标签太贵


## 2、聚类算法有哪些

聚类算法：K-Means，EM聚类，Mean-Shift，DBSCAN，层次聚类，PCA


### KMeans 

Step1, 选取K个点作为初始的类中心点，这些点一般都是从数据集中随机抽取的；

Step2, 将每个点分配到最近的类中心点，这样就形成了K个类，然后重新计算每个类的中心点；

重复Step2，直到类不发生变化，或者你也可以设置最大迭代次数，这样即使类中心点发生变化，但是只要达到最大迭代次数就会结束。

#### K-Means工具：

from sklearn.cluster import KMeans

KMeans(n_clusters=8, max_iter=300)

n_clusters：聚类个数，缺省值为8 

max_iter：执行一次k-means算法所进行的最大迭代数，缺省值为300 


In [1]:
# project1 给18支亚洲球队进行聚类

import pandas as pd
from sklearn.cluster import KMeans
from sklearn import preprocessing

# 1、数据加载
data = pd.read_csv('data/team_cluster_data.csv', encoding='gbk')
train_x = data[["2019国际排名","2018世界杯排名","2015亚洲杯排名"]]

# 2、特征规范化到 [0,1] 空间
max_min_scaler = preprocessing.MinMaxScaler()
train_x = max_min_scaler.fit_transform(train_x)

# 3、kmeans 算法
kmeans = KMeans(n_clusters=3)
kmeans.fit(train_x)
predict_y = kmeans.predict(train_x)

# 4、合并聚类结果，插入到原数据中

result = pd.concat((data,pd.DataFrame(predict_y,columns=["类别"])),axis=1)
result.rename({0:u'聚类结果'},axis=1,inplace=True)
result.head(10)

Unnamed: 0,国家,2019国际排名,2018世界杯排名,2015亚洲杯排名,类别
0,中国,73,40,7,2
1,日本,60,15,5,1
2,韩国,61,19,2,1
3,伊朗,34,18,6,1
4,沙特,67,26,10,1
5,伊拉克,91,40,4,2
6,卡塔尔,101,40,13,0
7,阿联酋,81,40,6,2
8,乌兹别克斯坦,88,40,8,2
9,泰国,122,40,17,0


In [18]:
pd.DataFrame

pandas.core.frame.DataFrame

In [19]:
# project2


In [20]:
# project3

### EM算法

一种求解最大似然估计的方法，通过观测样本，来找出样本的模型参数

通过EM算法中的E步来进行观察，然后通过M步来进行调整A和B的参数，最后让碟子A和碟子B的参数不再发生变化为止

![Image of Yaktocat](img/1.png)

#### GMM (EM算法)

高斯混合模型，简称GMM，就是用高斯概率密度函数（二维时也称为：正态分布曲线）

模型思想：任何一个曲线，无论多么复杂，都可以用若干个高斯曲线来无限逼近它

混合高斯就是通过求解多个单高斯模型，并通过一定的权重将多个单高斯模型融合成一个模型，即最终的混合高斯模型

GMM的目的就是找到一个合适的高斯分布（也就是确定高斯分布的参数μ,Σ），使得这个高斯分布能产生这组样本的可能性尽可能大

高斯混合模型是聚类，是机器学习中对“无标签数据”进行训练得到的分类结果（分类结果由概率表示，概率大者，则认为属于这一类）


#### GMM工具：
from sklearn.mixture import GaussianMixture

GaussianMixture(n_components=1, covariance_type="full")

n_components：聚类个数，缺省值为1 

covariance_type：协方差类型，一共4种，默认为full

covariance_type="full",完全协方差矩阵（元素都不为零）

covariance_type="tied",相同的完全协方差矩阵（HMM会用到）

covariance_type="diag",对角协方差矩阵（非对角为零，对角不为零）

covariance_type="spherical",球面协方差矩阵（非对角为零，对角完全相同，球面特性）


In [26]:
# project1 给18支亚洲球队进行聚类

from sklearn.mixture import GaussianMixture

# 3、GMM 算法
model = GaussianMixture(n_components=3, covariance_type="full")
model.fit(train_x)
predict_y = kmeans.predict(train_x)

# 4、合并聚类结果，插入到原数据中
result = pd.concat((data,pd.DataFrame(predict_y,columns=["类别"])),axis=1)
result.rename({0:u'聚类结果'},axis=1,inplace=True)
result.head(10)

Unnamed: 0,国家,2019国际排名,2018世界杯排名,2015亚洲杯排名,类别
0,中国,73,40,7,1
1,日本,60,15,5,0
2,韩国,61,19,2,0
3,伊朗,34,18,6,0
4,沙特,67,26,10,0
5,伊拉克,91,40,4,1
6,卡塔尔,101,40,13,2
7,阿联酋,81,40,6,1
8,乌兹别克斯坦,88,40,8,1
9,泰国,122,40,17,2
