In [31]:
# 利用Perceptron判断假钞，假钞由4个维度的特征决定

# 钞票数据集（Banknote Dataset）涉及根据给定钞票的数个度量的照片预测是真钞还是假钞。
# 它是一个二元分类问题。每个类的观测值数量不均等。一共有 1372 个观察值，4个输入变量和1个输出变量。变量名如下：

# 特征说明
# 小波变换图像（连续）
# 小波偏斜变换图像（连续）
# 小波峰度变换图像（连续）
# 图像熵（连续）。
# 类（0 为真钞，1 为假钞）

In [44]:
import pandas as pd
import numpy as np                                            
from sklearn.linear_model import Perceptron                   # 加载感知机
from sklearn.externals import joblib                          # 保存模型

In [5]:
data = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/00267/data_banknote_authentication.txt")

In [9]:
data = np.array(data)
print(data)

[[  4.5459    8.1674   -2.4586   -1.4621    0.     ]
 [  3.866    -2.6383    1.9242    0.10645   0.     ]
 [  3.4566    9.5228   -4.0112   -3.5944    0.     ]
 ..., 
 [ -3.7503  -13.4586   17.5932   -2.7771    1.     ]
 [ -3.5637   -8.3827   12.393    -1.2823    1.     ]
 [ -2.5419   -0.65804   2.6842    1.1952    1.     ]]


In [19]:
x = data[:,0:4]
y = data[:,4]
x,y

(array([[  4.5459 ,   8.1674 ,  -2.4586 ,  -1.4621 ],
        [  3.866  ,  -2.6383 ,   1.9242 ,   0.10645],
        [  3.4566 ,   9.5228 ,  -4.0112 ,  -3.5944 ],
        ..., 
        [ -3.7503 , -13.4586 ,  17.5932 ,  -2.7771 ],
        [ -3.5637 ,  -8.3827 ,  12.393  ,  -1.2823 ],
        [ -2.5419 ,  -0.65804,   2.6842 ,   1.1952 ]]),
 array([ 0.,  0.,  0., ...,  1.,  1.,  1.]))

In [26]:
train_x = x[:1050,:]
test_x = x[1050:,:]
train_y = y[:1050]
test_y = y[1050:]

In [35]:
perceptron = Perceptron(n_iter = 300000)
perceptron.fit(train_x, train_y)

Perceptron(alpha=0.0001, class_weight=None, eta0=1.0, fit_intercept=True,
      n_iter=300000, n_jobs=1, penalty=None, random_state=0, shuffle=True,
      verbose=0, warm_start=False)

In [36]:
print(perceptron.coef_) # 打印的就是w1,w2,w3,...

[[-209.89228999 -105.27741999 -136.45368299  -13.7800048 ]]


In [38]:
perceptron.score(test_x, test_y)  # 预测的准确率在99.065%

0.99065420560747663

In [40]:
# 保存模型
joblib.dump(perceptron, 'perceptron.pkl')

['perceptron.pkl',
 'perceptron.pkl_01.npy',
 'perceptron.pkl_02.npy',
 'perceptron.pkl_03.npy',
 'perceptron.pkl_04.npy']

In [43]:
# 加载模型进行预测
load_perceptron = joblib.load('perceptron.pkl')

# 准确率与原来的一致，说明模型已被保存
load_perceptron.score(test_x, test_y) 

0.99065420560747663