In [1]:
import numpy as np   #导入常用包
import pandas as pd

In [2]:
data = pd.read_csv("../data/breast-cancer-wisconsin-data.csv")  #读取本地数据
#中文列名
ch_name=["样本编码","团块厚度","细胞大小的均匀性","细胞形状的均匀性","边缘附着力",
         "单层上皮细胞大小","裸核","乏味染色质","正常和仁","线粒体","类别"]
data.columns = [x for x in ch_name]  #列名中文化

In [3]:
(data[ch_name]=="?").sum()   #发现裸核中有异常数据

样本编码         0
团块厚度         0
细胞大小的均匀性     0
细胞形状的均匀性     0
边缘附着力        0
单层上皮细胞大小     0
裸核          16
乏味染色质        0
正常和仁         0
线粒体          0
类别           0
dtype: int64

In [4]:
#数据清洗（删除异常数据）
delindex = data[data["裸核"]=="?"].index  #得到异常值所在行索引
data.drop(delindex,inplace=True)   #删除，覆盖原数据
(data[ch_name]=="?").sum()   #异常数据被删除

样本编码        0
团块厚度        0
细胞大小的均匀性    0
细胞形状的均匀性    0
边缘附着力       0
单层上皮细胞大小    0
裸核          0
乏味染色质       0
正常和仁        0
线粒体         0
类别          0
dtype: int64

In [8]:
X = np.array(data[ch_name[1:10]])   #提取特征
y = np.array(data[ch_name[10]])    #提取标签

In [9]:
from sklearn.model_selection import train_test_split  #拆分训练集与测试集
Xtrain,Xtest,ytrain,ytest = train_test_split(X,y,test_size=0.2)  #2：8原则

In [10]:
from sklearn import tree
clf = tree.DecisionTreeClassifier(criterion="entropy",
                                    random_state=66,     # 设置随机数种子
                                    #splitter="random"   #就不更随机了
                                    ) # 控制决策树中的随机选项
clf=clf.fit(Xtrain,ytrain)

In [11]:
from sklearn.model_selection import cross_val_score  #交叉验证
score=cross_val_score(clf,X,y   #交叉验证评分
                ,cv=5     #分成五组(K=5)
                ,scoring="accuracy"     #判断准确度
               ).mean()   #取平均值
score

0.9370545298411337

In [13]:
'''测试集分类结果的整理与打印'''
predict,test=[],[]
class_names={2:"良性",4:"恶性"}

for i in range(len(clf.predict(Xtest))):  #预测结果转文字
    predict.append(class_names[clf.predict(Xtest)[i]])
    
for i in range(len(ytest)):     #实际结果转文字
    test.append(class_names[ytest[i]])
    
pd.concat([pd.DataFrame(Xtest,columns=ch_name[1:10]),
           pd.DataFrame(predict,columns=["预测分类"]),
           pd.DataFrame(test,columns=["实际分类"])],
           axis=1)

Unnamed: 0,团块厚度,细胞大小的均匀性,细胞形状的均匀性,边缘附着力,单层上皮细胞大小,裸核,乏味染色质,正常和仁,线粒体,预测分类,实际分类
0,1,1,3,1,2,1,1,1,1,良性,良性
1,5,3,6,1,2,1,1,1,1,良性,良性
2,1,1,1,1,2,1,3,1,1,良性,良性
3,1,1,1,1,2,1,3,1,1,良性,良性
4,4,1,2,1,2,1,2,1,1,良性,良性
...,...,...,...,...,...,...,...,...,...,...,...
132,9,5,5,2,2,2,5,1,1,恶性,恶性
133,4,1,1,1,3,1,2,2,1,良性,良性
134,1,1,1,1,2,1,1,1,1,良性,良性
135,4,1,1,1,2,1,2,1,1,良性,良性
