# Perceptron (mạng Neural một tầng)

Tác giả: Phạm Quang Nhật Minh (FPT Technology Research Institute)

## Giới thiệu

Tài liệu này sẽ hướng dẫn cách cài đặt thuật toán Perceptron - một mạng Neural một tầng đơn giản. Sau đó tôi sẽ thử nghiệm thuật toán vừa cài đặt trên dữ liệu phân lớp. Cài đặt trong tài liệu được áp dụng cho phân lớp nhị phân, nhưng chúng ta hoàn toàn có thể mở rộng cho bài toán phân lớp đa lớp.

## Dữ liệu

Trong cài đặt, chúng tôi dùng lại dữ liệu điểm thi trong cài đặt thuật toán **stochastic gradient descent**.

Bài tập sẽ sử dụng dữ liệu trong file ```ex2data1.txt```. Bài toán đặt ra như sau. Giả sử bạn là một người quản lý đầu vào tại một trường đại học. Bạn muốn xác định khả năng một thí sinh được nhận vào học dựa trên kết quả của 2 kỳ thi. 

### Đọc dữ liệu

Tôi sẽ đọc dữ liệu với thư viện ```pandas```.

In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv('./ex2data1.txt', dtype=np.float64, header=None)

df.head()

Unnamed: 0,0,1,2
0,34.62366,78.024693,0.0
1,30.286711,43.894998,0.0
2,35.847409,72.902198,0.0
3,60.182599,86.308552,1.0
4,79.032736,75.344376,1.0


Lấy ma trận $X$ và vector $y$ từ dữ liệu.

In [4]:
X = df.iloc[:,0:2]
y = df.iloc[:,2]

Bổ sung incercept vào dữ liệu.

In [5]:
X = np.concatenate( ( np.ones( (X.shape[0], 1) ), X ), axis=1 )

## Mô hình hoá phương pháp Perceptron

Thuật toán Perceptron là một thuật toán học máy đơn giản để học tham số trong mô hình tuyến tính.

### Đầu vào

Đầu vào là một tập dữ liệu huấn luyện bao gồm dãy các cặp (example, label):

$$D = \{(x^{(1)}, y^{(1)}),\cdots,(x^{(m)}, y^{(m)})\}$$

Dữ liệu huấn luyện được lưu trong ma trận $X$ trong đó các hàng của $X$ tương ứng với các example, các cột tương ứng với các đặc trưng. Mỗi example trong dữ liệu huấn luyện có một nhãn (label) và dữ liệu nhãn được lưu trong vector $y$.

### Mô hình

Mô hình Perceptron là một vector tham số $\theta$. Trong mô hình Perceptron cơ bản, chúng ta sử dụng hàm hypothesis $h_\theta(x)=g(\theta^Tx)$. Trong đó $g$ được định nghĩa là threshold function (step function).

$$
    g(z)= 
\begin{cases}
    1,& \text{if } z\geq 0\\
    0,              & \text{if } z \lt 0
\end{cases}
$$

### Học mô hình từ dữ liệu huấn luyện

Thuật toán Perceptron cũng dựa trên tư tưởng của thuật toán Stochastic Gradient Descent. Khi duyệt qua một phần tử, vector trọng số sẽ được cập nhật.

$\theta_j=\theta_j - \alpha(h_\theta(x^{(i)})-y^{(i)}))x_j^{(i)}$

## Cài đặt thuật toán Perceptron

### Hàm predict

Hàm predict sẽ sử dụng step function ở trên. Đầu vào của hàm predict là một vector hoặc ma trận $X$, vector trọng số $\theta$, đầu ra là giá trị dự đoán cho mỗi row vector.

In [25]:
def predict(theta, X):
    hx = np.dot(X, theta)    
    return np.where(hx >= 0, 1, 0)

### Hàm fit

Hàm fit sẽ học vector trọng số $\theta$ từ dữ liệu.

In [34]:
def fit(X, y, alpha, num_iters):
    m = X.shape[0] # number of training examples
    n = X.shape[1] # number of features
    theta = np.zeros(n)
    
    for iter in range(num_iters):
        for i in range(m):
            error = predict(theta, X[i,:]) - y[i]
            update = alpha * ( X[i,:] * error )
            theta -= update
            
    return theta    

Học trọng số $\theta$ từ dữ liệu.

In [47]:
alpha = 0.0001
num_iters = 5000

theta = fit(X, y, alpha, num_iters)
print('Theta = %s' % theta)

Theta = [-1.8507      0.01903494  0.01960232]


### Tính training accuracy

Chúng ta sẽ áp dụng mô hình vừa học trên dữ liệu training và tính training accuracy.

In [48]:
p = predict(theta, X)
print('Train accuracy: %s' % ( 100 * (p == y).mean() ))

Train accuracy: 68.0


## Sử dụng lớp Perceptron trong scikit-learn

Trong phần này, tôi sẽ sử dụng lớp Perceptron trong scikit-learn để học mô hình từ dữ liệu.

In [46]:
from sklearn.linear_model import Perceptron

clf = Perceptron(n_iter=5000, shuffle=False)
clf.fit(X,y)
train_acc = clf.score(X,y)
print('Train accuracy: %0.2f' % train_acc)

Train accuracy: 0.70


Nếu chúng ta shuffle dữ liệu sau mỗi vòng lặp, mô hình thu được sẽ fit dữ liệu tốt hơn nhiều.

In [49]:
from sklearn.linear_model import Perceptron

clf = Perceptron(n_iter=5000, shuffle=True)
clf.fit(X,y)
train_acc = clf.score(X,y)
print('Train accuracy: %0.2f' % train_acc)

Train accuracy: 0.89


## Kết luận

Trong tài liệu này, tôi đã giới thiệu cài đặt thuật toán Perceptron đơn giản cho bài toán phân lớp nhị phân và so sánh kết quả thu được với lớp Perceptron trong thư viện scikit-learn.