# 分类与聚类

### 0.导入忽略warning的方法

In [None]:
# 去除warning警报
import warnings 
warnings.filterwarnings("ignore")
# 导入numpy
import numpy as np
# 导入数据集
from sklearn.datasets import load_breast_cancer
# 导入数据集切割方法
from sklearn.model_selection import train_test_split
# 加载数据
bc = load_breast_cancer()
# 查看数据描述
print(bc.DESCR)
# 获取数据特征矩阵和响应变量
X = bc.data
y = bc.target
# 查看数据集特征和响应变量形状
print("特征矩阵的形状为：",X.shape)
print("响应变量的形状为：",y.shape)
# 查看响应变量类别数
print("响应变量类别为：",np.unique(y))
# 切割数据集为测试集和训练集(8:2)
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8)
# 查看训练集和测试集特征和响应变量形状
print("训练集特征矩阵的形状为：",X_train.shape)
print("训练集响应变量的形状为：",y_train.shape)
print("测试集特征矩阵的形状为：",X_test.shape)
print("测试集响应变量的形状为：",y_test.shape)

### 2.聚类模型建模

In [None]:
# 导入K均值算法
from sklearn.cluster import KMeans
# 创建K均值模型
kmean = KMeans(n_clusters=2)
# 使用训练集数据拟合模型
kmean.fit(X_train)
# 查看聚类中心形状
kmean.cluster_centers_.shape
# 使用模型预测测试集和训练集数据
yhat1 = kmean.predict(X_train)
yhat2 = kmean.predict(X_test)
# 查看训练集预测效果
error1 = np.sum(np.abs(yhat1 - y_train))
correct1 = len(y_train) - error1
print("训练集预测正确的比例为：", correct1/len(y_train))
# 查看测试集预测效果
error2 = np.sum(np.abs(yhat2 - y_test))
correct2 = len(y_test) - error2
print("测试集预测正确的比例为：", correct2/len(y_test))

### 3.分类模型建模

#### 3.1K近邻模型

In [None]:
# 导入K近邻算法
from sklearn.neighbors import KNeighborsClassifier
# 创建K近邻模型
knn = KNeighborsClassifier()
# 使用训练集数据拟合模型
knn.fit(X_train, y_train)
# 使用模型预测测试集和训练集数据
yhat1 = knn.predict(X_train)
yhat2 = knn.predict(X_test)
# 查看训练集预测效果
error1 = np.sum(np.abs(yhat1 - y_train))
correct1 = len(y_train) - error1
print("训练集预测正确的比例为：", correct1/len(y_train))
# 查看测试集预测效果
error2 = np.sum(np.abs(yhat2 - y_test))
correct2 = len(y_test) - error2
print("测试集预测正确的比例为：", correct2/len(y_test))

#### 3.2逻辑回归模型

In [None]:
# 导入逻辑回归模型(在linear_model下)
from sklearn.linear_model import LogisticRegression
# 创建逻辑回归模型logit
logit = LogisticRegression()
# 使用训练集数据拟合模型
logit.fit(X_train, y_train)
# 使用模型预测测试集和训练集数据
yhat1_logit = logit.predict(X_train)
yhat2_logit = logit.predict(X_test)
# 查看训练集预测效果
correct1_logit = np.sum(yhat1_logit == y_train)
accuracy1_logit = correct1_logit / len(y_train)
print("训练集预测正确的比例为：", accuracy1_logit)
# 查看测试集预测效果
correct2_logit = np.sum(yhat2_logit == y_test)
accuracy2_logit = correct2_logit / len(y_test)
print("测试集预测正确的比例为：", accuracy2_logit)
# 查看测试集各样本的预测概率predict_proba方法
yhat2_proba_logit = logit.predict_proba(X_test)
print("测试集各样本的预测概率为：", yhat2_proba_logit)

## 总结

#### 根据聚类结果可判断出模型的最佳K值不是2，根据分类模型可见模型效果较佳。