# 基础篇

In [1]:
import pandas as pd
import numpy as np

In [2]:
column_names = ['Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']

In [54]:
data = pd.read_csv('./wisconsin.dat', names=column_names)

In [10]:
data.shape

(699, 10)

In [89]:
# 将原始数据中<null>替换为标准缺失值
data = data.replace(to_replace=11, value=np.nan)

In [57]:
data = data.dropna(how='any')

In [59]:
data.shape

(683, 10)

In [61]:
# 对整个的数据集进行分割，25%的数据作为测试集，75%的数据作为训练集
from sklearn.cross_validation import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data[column_names[:9]], data[column_names[9]], test_size=0.25, random_state=33)

In [62]:
# 查验训练样本的数量和类别分布
y_train.value_counts()

2    329
4    183
Name: Class, dtype: int64

In [63]:
# 查验测试样本的数量和类别分布
y_test.value_counts()

2    115
4     56
Name: Class, dtype: int64

In [64]:
# 接下来使用线性分类模型从事良/恶性肿瘤预测任务
from sklearn.linear_model import LogisticRegression, SGDClassifier # Logistic回归模型，随机梯度下降
from sklearn.preprocessing import StandardScaler # 数据预处理中的标准化数据

In [65]:
ss = StandardScaler()
# 标准化数据，保证每个维度的特征数据方差为1，均值为0.使得预测结果不会被某些维度过大的特征值而主导

In [74]:
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)

(512L, 9L)

In [69]:
lr = LogisticRegression()
sgd = SGDClassifier()

In [70]:
lr.fit(x_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [75]:
lr_y_predicted = lr.predict(x_test)

In [87]:
sgd.fit(x_train, y_train)
sgd_y_predicted = sgd.predict(x_test)

In [79]:
# 使用Logistic回归模型自带的评分函数score获得模块在测试集合上的准确性结果
from sklearn.metrics import classification_report
print 'Accuracy of LR Classifier:', lr.score(x_test, y_test)
print classification_report(y_test, lr_y_predicted, target_names=['Benign', 'Malignant'])

Accuracy of LR Classifier: 0.976608187135
             precision    recall  f1-score   support

     Benign       0.99      0.97      0.98       115
  Malignant       0.95      0.98      0.96        56

avg / total       0.98      0.98      0.98       171



In [88]:
print 'Accuracy of SGD Classifi:', sgd.score(x_test, y_test)
print classification_report(y_test, sgd_y_predicted, target_names=['Benign', 'Malignant'])

Accuracy of SGD Classifi: 0.970760233918
             precision    recall  f1-score   support

     Benign       0.99      0.97      0.98       115
  Malignant       0.93      0.98      0.96        56

avg / total       0.97      0.97      0.97       171



## 线性分类器特点分析

这里所使用的模型包括LogisticRegression与SGDClassifier。

相比之下，前者对参数的计算采用精确解析的方式，计算时间长但是模型性能略高；后者采用随机梯度上升算法估计模型参数，计算时间短但是产出的模型性能略低。

一般而言，对于训练数据规模在10万数量级以上的数据，考虑到时间的耗用，更加推荐使用随机梯度算法(SGD)对模型进行估计。