# 《Python 机器学习及实践》

# #代码13 良/恶性乳腺肿瘤数据预处理

In [99]:
#导入pandas与numpy工具包
import pandas as pd
import numpy as np

#创建特征列表
column_names = ['Sample code number','Clump Thickness','Uniformity of Cell size',
                 'Uniformity of Cell Shape','Marginal Adhesion',
                 'Single Epithelial Cell Size','Bare Nuclei',
                 'Bland Chromatin','Normal Nucleoli','Mitoses','Class']

In [100]:
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', names = column_names )

In [101]:
data #查看原始数据集

Unnamed: 0,Sample code number,Clump Thickness,Uniformity of Cell size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses,Class
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2
5,1017122,8,10,10,8,7,10,9,7,1,4
6,1018099,1,1,1,1,2,10,3,1,1,2
7,1018561,2,1,2,1,2,1,3,1,1,2
8,1033078,2,1,1,1,2,1,1,1,5,2
9,1033078,4,2,1,1,2,1,2,1,1,2


In [102]:
data = data.replace(to_replace='?',value=np.nan)#将？替代为标准缺失值
data = data.dropna(how='any')#丢弃带有缺失值的数据

In [103]:
data.shape#输出data的数据量和维度

(683, 11)

# #代码14：准备良/恶性乳腺癌肿瘤训练、测试数据

In [104]:
from sklearn.model_selection import train_test_split
#导入sklearn.model_selection里的train_test_split模块，用于分割数据

知识点：
书本源代码为 
from sklearn.cross_validation import train_test_split
但是由于库已更新会找不到工具包，代码改为
from sklearn.model_selection import train_test_split

In [105]:
X_train,X_test,y_train,y_test = train_test_split(data[column_names[1:10]],
    data[column_names[10]],test_size=0.25,random_state = 33)
#随机采样25%的数据用于测试，剩下的75%用于构建训练集合

知识点：
train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train data和test data。
语法：
    X_train,X_test, y_train, y_test =cross_validation.train_test_split   (train_data,train_target,test_size=0.4,random_state=0)
参数：
    train_data：所要划分的样本特征集合
    train_target：所要划分的样本结果(标签)
    test_size：样本占比，如果是整数就是样本的数量
    random_state：随机数的种子
随机数种子：    
    随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：
    种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数

In [106]:
y_train.value_counts()
#查验训练样本的数量和类别分布

2    344
4    168
Name: Class, dtype: int64

In [107]:
y_test.value_counts()
#查验测试样本的数量和类别分布

2    100
4     71
Name: Class, dtype: int64

In [108]:
X_train#查看x-train 训练数据集

Unnamed: 0,Clump Thickness,Uniformity of Cell size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses
662,1,1,3,1,2,1,2,1,1
282,1,4,3,10,4,10,5,6,1
542,5,3,1,1,2,1,1,1,1
301,1,1,1,1,2,1,3,1,1
95,1,1,1,1,2,1,3,1,1
591,2,5,7,6,4,10,7,6,1
356,5,3,3,1,3,3,3,3,3
17,4,1,1,1,2,1,3,1,1
582,6,10,5,5,4,10,6,10,1
460,5,1,1,3,2,1,1,1,1


# 代码15：使用线性分类模型从事良/恶性肿瘤预测任务

In [109]:
#从sklearn.preprocessing里导入StandardScaler
from sklearn.preprocessing import StandardScaler
#从sklearn.preprocessing里导入LogisticRegression,SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier

In [110]:
#标准化数据，保证每个维度的特征数据方差为1，均值为0.
#使得预测结果不会被某些维度过大的特征值而主导
ss=StandardScaler()
X_train = ss.fit_transform(X_train)
#X_train = StandardScaler().fit_transform(X_train)
X_test = ss.transform(X_test)
#X_test = StandardScaler().fit_transform(X_test)

In [111]:
#初始化LogisticRegression与SGDClassifier
lr = LogisticRegression(solver= 'liblinear')
sgdc = SGDClassifier()

In [112]:
#调用LogisticRegression中的fit函数/模块用来训练模型参数
lr.fit(X_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='liblinear', tol=0.0001, verbose=0,
                   warm_start=False)

In [113]:
#使用训练好的模型lr对X_test进行预测，结果储存在变量lr_y_predict中
lr_y_predict=lr.predict(X_test)

In [114]:
#调用SGDClassifier中的fit函数/模块用来寻来模型参数
sgdc.fit(X_train,y_train)

SGDClassifier(alpha=0.0001, average=False, class_weight=None,
              early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True,
              l1_ratio=0.15, learning_rate='optimal', loss='hinge',
              max_iter=1000, n_iter_no_change=5, n_jobs=None, penalty='l2',
              power_t=0.5, random_state=None, shuffle=True, tol=0.001,
              validation_fraction=0.1, verbose=0, warm_start=False)

In [115]:
#使用训练好的模型sgdc对X_test进行预测，结果储存在变量sgdc_y_predict中
sgdc_y_predict = sgdc.predict(X_test)

# #代码16：使用线性分类模型从事良/恶性肿瘤预测任务的性能分析

In [116]:
#从sklearn.metrics里导入classification_report模块
from sklearn.metrics import classification_report
import warnings
warnings.filterwarnings("ignore")

In [117]:
#使用逻辑斯蒂回归模型自带的评分函数score获得模型在测试集上的准确性结果
print ("Accuracy of LR Classifier:{}".format(lr.score(X_test,y_test)))
#lr.score(X_test,y_test)
#利用classification_report模块获得LogisticRegression其他三个指标结果
print(classification_report(y_test,lr_y_predict,target_names=['Benign','Malignant']))

Accuracy of LR Classifier:0.9883040935672515
              precision    recall  f1-score   support

      Benign       0.99      0.99      0.99       100
   Malignant       0.99      0.99      0.99        71

    accuracy                           0.99       171
   macro avg       0.99      0.99      0.99       171
weighted avg       0.99      0.99      0.99       171



In [118]:
#使用随机梯度下降模型自带的评分函数score获得模型在测试计上大的准确性结果
print("Accuarcy of SGD Classifier:{}".format(sgdc.score(X_test,y_test)))
#利用classification_report模块获得SGDClassifier其他三个指标的结果
print(classification_report(y_test,sgdc_y_predict,target_names=['Benign','Malignant']))

Accuarcy of SGD Classifier:0.9883040935672515
              precision    recall  f1-score   support

      Benign       1.00      0.98      0.99       100
   Malignant       0.97      1.00      0.99        71

    accuracy                           0.99       171
   macro avg       0.99      0.99      0.99       171
weighted avg       0.99      0.99      0.99       171

