`.tra` is train dataset

`.tes` is test dataset

In [None]:
# Import `datasets` from `sklearn`
from sklearn import datasets
# 导入 `pandas` 库
import pandas as pd

# 加载 `digits` 数据集
digits = datasets.load_digits()
# 使用 `read_csv()` 加载数据集
digits = pd.read_csv(
    "http://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tra", header=None)

# 打印 `digits` 数据
print(digits)


In [None]:
# 查看数据集中包含哪些主要内容
digits.keys()
# 访问各个属性
digits.images
digits.target
digits.DESCR


In [None]:
import numpy as np
# 进一步了解数据集中的数据

digits.data.shape
digits.data.dtype
len(np.unique(digits.target))  # 打印 target 数组中包含的唯一值数量
# numpy 方法 all() 可以检测所有数组元素的值是否为 True。
np.all(digits.images.reshape((1797, 64)) == digits.data)


In [None]:
# 可视化
from sklearn import datasets
import matplotlib.pyplot as plt

# 设置图形大小(宽、高)以英寸为单位
fig = plt.figure(figsize=(6, 6))
# 设置子图形布局，如间隔之类...
fig.subplots_adjust(left=0, right=1, bottom=0, top=1, hspace=0.05, wspace=0.05)

# 把图像和目标标签组合成一个列表
images_and_labels = list(zip(digits.images, digits.target))

# 对于列表(前8项)中的每个元素
for index, (image, label) in enumerate(images_and_labels[:8]):
    # 在第i+1个位置初始化一个2X4的子图
    plt.subplot(2, 4, index + 1)
    # 不要画坐标轴
    plt.axis('off')
    # 在所有子图中显示图像
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    # 为每个子图添加一个标题(目标标签)
    plt.title('Training: ' + str(label))

# 显示图形
plt.show()


In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
# 创建一个随机的PCA模型，该模型包含两个组件
randomized_pca = PCA(n_components=2, svd_solver='randomized')

# 拟合数据并将其转换为模型
reduced_data_rpca = randomized_pca.fit_transform(digits.data)

# 创建一个常规的PCA模型
pca = PCA(n_components=2)

# 拟合数据并将其转换为模型
reduced_data_pca = pca.fit_transform(digits.data)

# 检查形状
reduced_data_pca.shape

# 打印数据
print(reduced_data_rpca)
print(reduced_data_pca)

# 绘制一个散点图来可视化数据:
colors = ['black', 'blue', 'purple', 'yellow',
          'white', 'red', 'lime', 'cyan', 'orange', 'gray']

# 根据主成分分析结果绘制散点图
for i in range(len(colors)):
    x = reduced_data_rpca[:, 0][digits.target == i]
    y = reduced_data_rpca[:, 1][digits.target == i]
    plt.scatter(x, y, c=colors[i])

# 设置图例，0-9用不同颜色表示
plt.legend(digits.target_names, bbox_to_anchor=(
    1.05, 1), loc=2, borderaxespad=0.)
# 设置坐标标签
plt.xlabel('First Principal Component')
plt.ylabel('Second Principal Component')
# 设置标题
plt.title("PCA Scatter Plot")

# 显示图形
plt.show()


In [None]:
# 数据预处理
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import scale

# 1. 数据标准化
data = scale(digits.data)  # 默认Z-score 标准化/标准差标准化/零均值标准化

# 2 数据拆分
# 数据分成训练集和测试集
# `test_size`：如果是浮点数，在0-1之间，表示测试子集占比；如果是整数的话就是测试子集的样本数量，`random_state`：是随机数的种子
X_train, X_test, y_train, y_test, images_train, images_test = train_test_split(
    data, digits.target, digits.images, test_size=0.33, random_state=42)

# 训练集样本数量和特征值数量
n_samples, n_features = X_train.shape
# 训练集标签数量
n_digits = len(np.unique(y_train))

# 打印`y_train`
print(len(y_train))


In [None]:
# Sklearn K均值聚类
from sklearn.metrics import homogeneity_score, completeness_score, v_measure_score, adjusted_rand_score, adjusted_mutual_info_score, silhouette_score # 更多的评估指标
import numpy as np
from sklearn import datasets
from sklearn.preprocessing import scale
from sklearn.model_selection import train_test_split
from sklearn import cluster
import matplotlib.pyplot as plt
from sklearn import metrics  # 引入混淆矩阵

# 对`digits.data`数据进行标准化处理
data = scale(digits.data)
# 数据分成训练集和测试集
X_train, X_test, y_train, y_test, images_train, images_test = train_test_split(
    data, digits.target, digits.images, test_size=0.33, random_state=42)
# 创建KMeans模型
clf = cluster.KMeans(init='k-means++', n_clusters=10, random_state=42)
# 将训练数据' X_train '拟合到模型中，此处没有用到标签数据y_train，K均值聚类一种无监督学习。
clf.fit(X_train)

# 查看显示聚类效果
# 图形尺寸(英寸)
fig = plt.figure(figsize=(8, 3))

# 添加标题
fig.suptitle('Cluster Center Images', fontsize=14, fontweight='bold')

# 对于所有标签(0-9)
for i in range(10):
    # 在一个2X5的网格中，在第i+1个位置初始化子图
    ax = fig.add_subplot(2, 5, 1 + i)
    # 显示图像
    ax.imshow(clf.cluster_centers_[i].reshape((8, 8)), cmap=plt.cm.binary)
    # 不要显示坐标轴
    plt.axis('off')

# 显示图形
plt.show()

# 测试模型
# 预测“X_test”的标签
y_pred = clf.predict(X_test)
# 打印出' y_pred '的前100个实例
print(y_pred[:100])
# 打印出' y_test '的前100个实例
print(y_test[:100])

# 评估模型
## 混淆矩阵
print(metrics.confusion_matrix(y_test, y_pred))

print('% 9s' % 'inertia    homo   compl  v-meas     ARI AMI  silhouette')
print('%i   %.3f   %.3f   %.3f   %.3f   %.3f    %.3f'%(clf.inertia_,
    homogeneity_score(y_test, y_pred), #  同质性指标，每个群集只包含单个类的成员
    completeness_score(y_test, y_pred),  # 完整性指标
    v_measure_score(y_test, y_pred),  # 同质性指标与完整性指标的调和平均
    adjusted_rand_score(y_test, y_pred),  # 调整兰德指数
    adjusted_mutual_info_score(y_test, y_pred),  # 调整互信息
    silhouette_score(X_test, y_pred, metric='euclidean')))  # 轮廓系数


In [None]:
from sklearn import svm
from sklearn import metrics
from sklearn.manifold import Isomap  # 散点图
from sklearn.grid_search import GridSearchCV # 网格搜索
# 创建SVC/Support Vector Classification/支持向量机分类器模型
# gamma的值，通过使用网格搜索和交叉验证等工具，可以自动找到合适的参数值。
svc_model = svm.SVC(gamma=0.001, C=100., kernel='linear')

# 将数据拟合到SVC模型中，此处用到了标签值y_train，是有监督学习
svc_model.fit(X_train, y_train)

# 测试模型
# 预测“X_test”标签
print(svc_model.predict(X_test))

# 打印' y_test '检查结果
print(y_test)

# 可视化测试数据
# 将预测值赋给 `predicted`
predicted = svc_model.predict(X_test)

# 将images_test和images_prediction中的预测值压缩在一起
images_and_predictions = list(zip(images_test, predicted))

# 对于images_and_prediction中的前四个元素
for index, (image, prediction) in enumerate(images_and_predictions[:4]):
    # 在坐标i+1处初始化一个1×4的网格中的子图
    plt.subplot(1, 4, index + 1)
    # 不显示坐标轴
    plt.axis('off')
    # 在网格中的所有子图中显示图像
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    # 添加标题
    plt.title('Predicted: ' + str(prediction))

# 显示图形
plt.show()

# 评估模型
# 打印的分类报告 `y_test` 与 `predicted`
print(metrics.classification_report(y_test, predicted))
# 打印“y_test”和“predicted”的混淆矩阵
print(metrics.confusion_matrix(y_test, predicted))

# 预测标签与实际标签的散点图。
# 创建一个isomap，并将“digits”数据放入其中
X_iso = Isomap(n_neighbors=10).fit_transform(X_train)

# 计算聚类中心并预测每个样本的聚类指数
predicted = svc_model.predict(X_train)

# 在1X2的网格中创建带有子图的图
fig, ax = plt.subplots(1, 2, figsize=(8, 4))

# 调整布局
fig.subplots_adjust(top=0.85)

# 将散点图添加到子图中
ax[0].scatter(X_iso[:, 0], X_iso[:, 1], c=predicted)
ax[0].set_title('Predicted labels')
ax[1].scatter(X_iso[:, 0], X_iso[:, 1], c=y_train)
ax[1].set_title('Actual Labels')


# 加标题
fig.suptitle('Predicted versus actual labels', fontsize=14, fontweight='bold')

# 显示图形
plt.show()

# 网格搜索
# 设置参数候选项
parameter_candidates = [
    {'C': [1, 10, 100, 1000], 'kernel': ['linear']},
    {'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001], 'kernel': ['rbf']},
]
# 使用参数候选项创建分类器
clf = GridSearchCV(estimator=svm.SVC(),
                   param_grid=parameter_candidates, n_jobs=-1)

# 根据训练数据训练分类器
clf.fit(X_train, y_train)

# 打印结果
print('训练数据的最佳得分:', clf.best_score_)
print('最佳惩罚参数C:', clf.best_estimator_.C)
print('最佳内核类型:', clf.best_estimator_.kernel)
print('最佳gamma值:', clf.best_estimator_.gamma)

# 将分类器应用到测试数据上，查看准确率得分
clf.score(X_test, y_test)

# 用网格搜索参数训练一个新的分类器，评估得分
score = svm.SVC(C=10, kernel='rbf', gamma=0.001).fit(
    X_train, y_train).score(X_test, y_test)
print(score)
