## 安装依赖并保存

In [None]:
%pip install scikit-learn
%pip install numpy
%pip install pandas
%pip freeze > requirements.txt

## K-Means 聚类（K-Means Clustering）

In [2]:
"""
无监督聚类实验 - K-Means
原理简述：
K-Means 是基于距离的聚类算法，通过迭代更新簇中心，使得类内平方误差最小。
参数 k 需要人为指定，即聚类数量。
"""

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, calinski_harabasz_score

# 1. 加载数据
data = load_iris()
X = data.data

# 2. 数据标准化
X = StandardScaler().fit_transform(X)

# 3. K-Means聚类
kmeans = KMeans(n_clusters=3, random_state=42)
labels = kmeans.fit_predict(X)

# 4. 评估
print("=== K-Means 聚类结果 ===")
print("簇中心：\n", kmeans.cluster_centers_)
print("聚类标签前10个：", labels[:10])
print("轮廓系数：", silhouette_score(X, labels))
print("Calinski-Harabasz 指数：", calinski_harabasz_score(X, labels))

=== K-Means 聚类结果 ===
簇中心：
 [[ 0.57100359 -0.37176778  0.69111943  0.66315198]
 [-0.81623084  1.31895771 -1.28683379 -1.2197118 ]
 [-1.32765367 -0.373138   -1.13723572 -1.11486192]]
聚类标签前10个： [1 2 2 2 1 1 1 1 2 2]
轮廓系数： 0.4798814508199817
Calinski-Harabasz 指数： 157.36015312192248


## DBSCAN 聚类（基于密度）

In [4]:
"""
无监督聚类实验 - DBSCAN
原理简述：
DBSCAN 基于密度聚类，可以识别噪声点，不需要指定簇数量。适用于簇形复杂场景。
"""

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
from sklearn.metrics import silhouette_score

# 1. 加载数据
data = load_iris()
X = data.data

# 2. 数据标准化
X = StandardScaler().fit_transform(X)

# 3. DBSCAN聚类
dbscan = DBSCAN(eps=0.6, min_samples=5)
labels = dbscan.fit_predict(X)

# 4. 输出结果
print("=== DBSCAN 聚类结果 ===")
print("聚类标签前10个：", labels[:10])
print("噪声点数量：", sum(labels == -1))
print("有效聚类个数：", len(set(labels)) - (1 if -1 in labels else 0))
print(
    "轮廓系数（排除噪声后）：",
    (
        silhouette_score(X[labels != -1], labels[labels != -1])
        if len(set(labels)) > 1
        else "N/A"
    ),
)

=== DBSCAN 聚类结果 ===
聚类标签前10个： [0 0 0 0 0 0 0 0 0 0]
噪声点数量： 26
有效聚类个数： 2
轮廓系数（排除噪声后）： 0.6418946941661956


## GMM 高斯混合聚类（Gaussian Mixture）

In [5]:
"""
无监督聚类实验 - GMM（高斯混合模型）
原理简述：
GMM 假设数据由多个高斯分布混合生成，属于软聚类方法，可输出概率。
"""

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score

# 1. 加载数据
data = load_iris()
X = data.data

# 2. 数据标准化
X = StandardScaler().fit_transform(X)

# 3. GMM聚类
gmm = GaussianMixture(n_components=3, random_state=42)
labels = gmm.fit_predict(X)

# 4. 输出结果
print("=== GMM 聚类结果 ===")
print("聚类标签前10个：", labels[:10])
print("每类权重：", gmm.weights_)
print("轮廓系数：", silhouette_score(X, labels))

=== GMM 聚类结果 ===
聚类标签前10个： [1 1 1 1 1 1 1 1 2 1]
每类权重： [0.65376794 0.30201321 0.04421885]
轮廓系数： 0.4751434694267145


## 层次聚类（Agglomerative Clustering）

In [6]:
"""
无监督聚类实验 - 层次聚类（Agglomerative Clustering）
原理简述：
层次聚类通过“逐步合并”数据形成树状聚类结构，不需要迭代过程。
"""

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import silhouette_score

# 1. 加载数据
data = load_iris()
X = data.data

# 2. 数据标准化
X = StandardScaler().fit_transform(X)

# 3. 层次聚类
agg = AgglomerativeClustering(n_clusters=3, linkage="ward")
labels = agg.fit_predict(X)

# 4. 输出结果
print("=== 层次聚类结果 ===")
print("聚类标签前10个：", labels[:10])
print("轮廓系数：", silhouette_score(X, labels))

=== 层次聚类结果 ===
聚类标签前10个： [1 1 1 1 1 1 1 1 1 1]
轮廓系数： 0.4466890410285909


## PCA 降维

In [7]:
from sklearn.decomposition import PCA
from sklearn.datasets import load_digits

# 加载数据
digits = load_digits()
X = digits.data  # shape = (1797, 64)

# 使用 PCA 将 64 维降到 2 维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print("原始维度：", X.shape)
print("降维后维度(PCA)：", X_pca.shape)

原始维度： (1797, 64)
降维后维度(PCA)： (1797, 2)


## t-SNE 降维

In [8]:
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits

# 加载数据
digits = load_digits()
X = digits.data  # shape = (1797, 64)

# 使用 t-SNE 降维为 2 维
tsne = TSNE(n_components=2, learning_rate="auto", init="random")
X_tsne = tsne.fit_transform(X)

print("原始维度：", X.shape)
print("降维后维度(t-SNE)：", X_tsne.shape)

原始维度： (1797, 64)
降维后维度(t-SNE)： (1797, 2)


## ICA 降维

In [9]:
from sklearn.decomposition import FastICA
from sklearn.datasets import load_digits

# 加载数据
digits = load_digits()
X = digits.data  # shape = (1797, 64)

# 使用 ICA 降维为 2 维
ica = FastICA(n_components=2, random_state=42)
X_ica = ica.fit_transform(X)

print("原始维度：", X.shape)
print("降维后维度(ICA)：", X_ica.shape)

原始维度： (1797, 64)
降维后维度(ICA)： (1797, 2)


## LLE（局部线性嵌入）

In [10]:
from sklearn.manifold import LocallyLinearEmbedding
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data

lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10)
X_lle = lle.fit_transform(X)

print("原始维度：", X.shape)
print("降维后维度(LLE)：", X_lle.shape)

原始维度： (1797, 64)
降维后维度(LLE)： (1797, 2)
