# 聚类

将数据集中相似的样本进行分组，组成为cluster（无监督学习）  
- 相同cluster的样本之间距离较近
- 不同cluster的样本之间距离较远

## K-Means(高斯混合模型的特例)
目标：将n个样本划分到K个cluster中，每个样本归属于距离自己最近的cluster
1. 随机选择K个样本做质心
2. 指派每个样本到最近的cluster
3. 重新计算质心
4. 迭代

参数：K值，质心的选择

优点：
    - 简单，直观
缺点：
    - 容易陷入局部最优解
    - 易受到离群值影响
    - 时间复杂度较高

In [None]:
from sklearn.cluster import KMeans
KMeans(n_clusters=8,                     # cluster个数
       init='k-means++',                 # 初始化质心的方法'k-means++'or'random'
       n_init=10, 
       max_iter=300,                     # 最大迭代次数
       tol=0.0001,                       # 迭代停止的精度
       precompute_distances='auto', 
       verbose=0, 
       random_state=None,                # 随机种子
       copy_x=True, 
       n_jobs=None, 
       algorithm='auto')

In [None]:
# # KMeans类方法

fit(X)

fit_predict(X)                  # 直接输出类标签

fit_transform(X)

predict(X)                      # 预测X中每个样本所属的最近cluster（已经fit过的Kmeans类）

transform(X)                    # 将X转变成cluster-distance

In [None]:
# KMeans类属性

cluster_centers_    # 聚类中心

labels_             #  类标签

inertia_            # 样本到其最近的聚类中心的平方距离之和

n_iter_             # 迭代次数

## 层次聚类
1. 自下而上聚合（类似哈夫曼树构造）
2. 自上而下分拆

如何计算两个cluster的距离，然后连接起来？
1. 单连接（min）       违背紧密性
2. 完整连接（max）
3. 平均连接（mean）

In [None]:
from sklearn.cluster import AgglomerativeClustering
AgglomerativeClustering(n_clusters=2, 
                        affinity='euclidean',              #样本距离
                        memory=None,                       # 是否缓存树
                        connectivity=None, 
                        compute_full_tree='auto', 
                        linkage='ward',                     # 连接方法{“ward”, “complete”, “average”, “single”}
                        distance_threshold=None)

In [None]:
# 属性
cluster_centers_    # 聚类中心

labels_             #  类标签

n_leaves_           # 叶子

In [None]:
# 方法

fit(X)

fit_predict(X)     # 直接输出类标签

## 谱聚类

图解（适合处理半月形或者圆环形数据）

In [None]:
from sklearn.cluster import SpectralClustering
SpectralClustering(n_clusters=8, 
                   eigen_solver=None, 
                   n_components=None, 
                   random_state=None, 
                   n_init=10, 
                   gamma=1.0, 
                   affinity='rbf', 
                   n_neighbors=10, 
                   eigen_tol=0.0, 
                   assign_labels='kmeans', 
                   degree=3, 
                   coef0=1, 
                   kernel_params=None, 
                   n_jobs=None) 

## DBSCAN聚类

找朋友，朋友多的变成核心对象

优点缺点：
- 自己判断是否离群，自己确定K的个数

In [None]:
from sklearn.cluster import DBSCAN
DBSCAN(eps=0.5,                 # 领域半径
       min_samples=5,           # 核心对象领域内的最小样本数
       metric='euclidean',      # 距离
       metric_params=None, 
       algorithm='auto', 
       leaf_size=30, 
       p=None, 
       n_jobs=None)

## 均值漂移聚类

In [None]:
from sklearn.cluster import MeanShift

# 评价指标

## 轮廓系数

1. 对于每一个样本计算a(平均簇内距离)，b(平均近聚类距离),b-a/max(a,b)
2. 轮廓系数取值（-1，1）,1表示聚类效果最好

In [None]:
from sklearn import metrics
metrics.silhouette_score(X,                     # 特征数组
                         labels,                # 预测标签 
                         metric='euclidean',    # 距离指标
                         sample_size=None, 
                         random_state=None)

## rand index
### 聚类中正确决策的比例
- TP:类似的样本处于相同的cluster
- TN:不同的样本处于不同的cluster
- FP:不同的样本处于相同的cluster
- FN:类似的样本处于不同的cluster
类似的对于真实值而言，相同是对于预测值而言



AR = (TP+TN)/(TP+FP+FN+TN)

任取两个类，正确聚类的决策比例，取值[0,1]，越大聚类效果越好

## adjuested rand index
ARI = (RI - Expected_RI) / (max(RI) - Expected_RI)

In [None]:
from sklearn.metrics import adjusted_rand_score
adjusted_rand_score(labels_true,          # cluster数组
                    labels_pred)