Ta xây dựng Neural network bằng package ``torch.nn``. Mỗi ``nn.Module`` gồm nhiều lớp (layers).

Quá trình train một neural network thường diễn ra như sau: 

- định nghĩa một neural network chứa các tham số để học (parameter hay còn gọi là weights)

- lặp trên tập dữ liệu

- đưa dữ liệu vào network

- tính loss, propagate các gradients trở lại vào các tham số trong neural network (đối với back propagation mà ta sẽ bàn sau).

- cập nhật tham số:
    
    ``tham số = tham số - tốc độ học * gradient``
- Define the neural network that has some learnable parameters (or
  weights)
- Iterate over a dataset of inputs
- Process input through the network
- Compute the loss (how far is the output from being correct)
- Propagate gradients back into the network’s parameters
- Update the weights of the network, typically using a simple update rule:
  ``weight = weight - learning_rate * gradient``

## định nghĩa network 

qúa trình của chúng ta dựa trên việc viết hàm

Ta ôn lại các activation function phổ biến 

- hàm sigmoid: $f(x)=\frac{1}{1+e^{-x}}$

- hàm tanh: $f(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

- hàm RELU (rectified linear unit): $f(x)= max(x,0)$

# Ví dụ về neural network trên dữ liệu IRIS

### Dữ liệu

Iris là bộ dữ liệu về hoa lan. Nhiệm vụ của chúng ta là phân loại hoa dựa trên các đặc trưng của cái ta quan sát được 


| sepal_length_cm | sepal_width_cm | petal_length_cm | petal_width_cm | class           |
|-----------------|----------------|-----------------|----------------|-----------------|
| 5.1             | 3.5            | 1.4             | 0.2            | Iris-setosa     |
| 7.0             | 3.2            | 4.7             | 1.4            | Iris-versicolor |
| 6.3             | 3.3            | 6.0             | 2.5            | Iris-virginica  |


* Có tất cả 150 quan sát, ta dùng 20% làm validation test, còn lại làm train set. 
* Download dữ liệu ở: [Data Source](https://archive.ics.uci.edu/ml/datasets/iris)

In [1]:
import torch
import torch.nn as nn
import matplotlib.pyplot as plt

from torch.autograd import Variable

from data import iris

In [2]:
!head data/iris.data.txt

sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa


### Tạo Fully Connected Feed Forward Neural Network

Training neural nets trong pytorch cũng ở dạng graph, khá giống trong Tensorflow. Tất cả các network trong Pytorch được thực hiện dưới dạng class, kế thừa từ nn.Module. Trong đó, ta phải tạo 2 phương pháp: init và forward

Trong ``init``, ta tạo các hàm và rồi trong ``forward`` thì lồng chúng lại với nhau giống như mô hình cây 

Mặc định là dữ liệu được train trong mini-batch bằng cách sử dụng ``DataLoader``

In [3]:
class IrisNet(nn.Module):
    
    # input_size: số đặc trưng
    # hidden1_size, hidden2_size: số node cho hai hidden layer
    # num_classes là số lớp có trong output
    def __init__(self, input_size, hidden1_size, hidden2_size,
                 num_classes):
        
        # init: constructor trong python
        # super: để truyền tham số (arguments) của child class 
        # vào parent class
        super(IrisNet, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden1_size)
        self.relu1 = nn.ReLU()
        self.fc2 = nn.Linear(hidden1_size, hidden2_size)
        self.relu2 = nn.ReLU()
        self.fc3 = nn.Linear(hidden2_size, num_classes)  
    
    def forward(self, x):
        out = self.fc1(x)
        out = self.relu1(out)
        out = self.fc2(out)
        out = self.relu2(out)
        out = self.fc3(out)
        return out

Trong    

``def __init__(self, input_size, hidden1_size, hidden2_size, num_classes):``

thì 

- input_size = 4

- num_classes = 3 (output có 3 loại)

ta chọn 

- hidden1_size = 100

- hidden2_size = 50

Do đó:

In [4]:
our_model = IrisNet(4, 100, 50, 3)
print(our_model)

IrisNet(
  (fc1): Linear(in_features=4, out_features=100, bias=True)
  (relu1): ReLU()
  (fc2): Linear(in_features=100, out_features=50, bias=True)
  (relu2): ReLU()
  (fc3): Linear(in_features=50, out_features=3, bias=True)
)


### Load dữ liệu và train:

Thông thường ta nên chọn batch_size là lũy thừa của 2 để train nhanh hơn. Ở đây, ta chọn batch_size = 64 $= 2^6$

In [5]:
batch_size = 64
iris_data_file = 'data/iris.data.txt'

Dùng hàm ``get_datasets`` để lấy dữ liệu

In [6]:
train, test = iris.get_datasets(iris_data_file)

Ta xem xem train, test có bao nhiêu quan sát:

In [7]:
len(train), len(test)

(120, 30)

Mặc định là train trong mini-batch. Ta tạo loader với ``shuffle = True`` để dữ liệu được đảo ngẫu nhiên trong mỗi mini-batch ở mỗi epoch:

In [8]:
train_loader = torch.utils.data.DataLoader(dataset=train, batch_size=batch_size, shuffle=True)
test_loader  = torch.utils.data.DataLoader(dataset=test, batch_size=batch_size, shuffle=True)

###  Train:

Ta sử dụng tiêu chuẩn CrossEntropyLoss, chọn learning_rate (tốc độ học) là 0.01, và Stochastic Gradient Descient để tối ưu hóa

In [9]:
criterion = nn.CrossEntropyLoss()

learning_rate = 0.01
optimizer = torch.optim.SGD(our_model.parameters(), 
                            lr=learning_rate, nesterov=True, momentum=0.9, dampening=0)  

In [12]:
num_epochs = 100 # số lần chạy qua bộ dữ liệu

train_loss = []
test_loss = []
train_accuracy = []
test_accuracy = []

for epoch in range(num_epochs):
    
    train_correct = 0
    train_total = 0
    
    for i, (items, classes) in enumerate(train_loader):
        
        # Convert torch tensor sang Variable
        items = Variable(items)
        classes = Variable(classes)
        
        our_model.train()         
        
        optimizer.zero_grad() # làm sạch gradient từ past training 
        outputs = our_model(items)  # thực hiện forward pass
        loss = criterion(outputs, classes) 
        loss.backward()       # tính gradients 
        optimizer.step()      # update tham số dựa trên gradients
        
        # Lưu các dự đoán đúng cho training data
        train_total += classes.size(0)    
        _, predicted = torch.max(outputs.data, 1)
        train_correct += (predicted == classes.data).sum()

        print ('Epoch %d/%d, Iteration %d/%d, Loss: %.4f' 
               %(epoch+1, num_epochs, i+1, len(train)//batch_size, loss.data[0]))

    our_model.eval()          # đánh giá mô hình 
    
    train_loss.append(loss.data[0])

    train_accuracy.append((100 * train_correct / train_total))
    
    # How did we do on the test set (the unseen set)
    # Record the correct predictions for test data
    test_items = torch.FloatTensor(test.data.values[:, 0:4])
    test_classes = torch.LongTensor(test.data.values[:, 4])

    outputs = our_model(Variable(test_items))
    loss = criterion(outputs, Variable(test_classes))
    test_loss.append(loss.data[0])
    _, predicted = torch.max(outputs.data, 1)
    total = test_classes.size(0)
    correct = (predicted == test_classes).sum()
    test_accuracy.append((100 * correct / total))



Epoch 1/100, Iteration 1/1, Loss: 0.0731
Epoch 1/100, Iteration 2/1, Loss: 0.0436
Epoch 2/100, Iteration 1/1, Loss: 0.0210
Epoch 2/100, Iteration 2/1, Loss: 0.1114
Epoch 3/100, Iteration 1/1, Loss: 0.1079
Epoch 3/100, Iteration 2/1, Loss: 0.0274
Epoch 4/100, Iteration 1/1, Loss: 0.0784
Epoch 4/100, Iteration 2/1, Loss: 0.0333
Epoch 5/100, Iteration 1/1, Loss: 0.0696
Epoch 5/100, Iteration 2/1, Loss: 0.0455
Epoch 6/100, Iteration 1/1, Loss: 0.0467
Epoch 6/100, Iteration 2/1, Loss: 0.0905
Epoch 7/100, Iteration 1/1, Loss: 0.0705
Epoch 7/100, Iteration 2/1, Loss: 0.0454
Epoch 8/100, Iteration 1/1, Loss: 0.0700
Epoch 8/100, Iteration 2/1, Loss: 0.0484
Epoch 9/100, Iteration 1/1, Loss: 0.0876
Epoch 9/100, Iteration 2/1, Loss: 0.0241
Epoch 10/100, Iteration 1/1, Loss: 0.0362
Epoch 10/100, Iteration 2/1, Loss: 0.0834
Epoch 11/100, Iteration 1/1, Loss: 0.0613
Epoch 11/100, Iteration 2/1, Loss: 0.0746
Epoch 12/100, Iteration 1/1, Loss: 0.0517
Epoch 12/100, Iteration 2/1, Loss: 0.0779
Epoch 13/1

Vẽ loss theo vòng lặp:

In [None]:
fig = plt.figure(figsize=(12, 8))
plt.plot(train_loss, label='train loss')
plt.plot(test_loss, label='test loss')
plt.title("Train and Test Loss")
plt.legend()
plt.show()

In [None]:
fig = plt.figure(figsize=(12, 8))
plt.plot(train_accuracy, label='train accuracy')
plt.plot(test_accuracy, label='test accuracy')
plt.title("Train and Test Accuracy")
plt.legend()
plt.show()

### Lưu và load lại mô hình 

In [None]:
torch.save(our_model.state_dict(), "./2.model.pth")

In [None]:
net2 = IrisNet(4, 100, 50, 3)
net2.load_state_dict(torch.load("./2.model.pth"))

In [None]:
output = net2(Variable(torch.FloatTensor([[5.1, 3.5, 1.4, 0.2]])))

In [None]:
_, predicted_class = torch.max(output.data, 1)
print('Predicted class: ', predicted_class.numpy()[0])
print('Expected class: ', 0 )