In [2]:
import torch
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader
import torchvision.datasets as dataset
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
torch.manual_seed(2)

<torch._C.Generator at 0x7fe01cffd8d0>

In [3]:
# Create Dataset
train_dataset = dataset.MNIST(root='./data', train=True, download=True, transform=transforms.ToTensor())
valid_dataset = dataset.MNIST(root='./data', download=True, transform=transforms.ToTensor())

In [4]:
# Xavier Uniform Method
class Net_Tanh_Xavier(nn.Module):
    def __init__(self, Layers):
        super(Net_Tanh_Xavier, self).__init__()
        self.hidden = nn.ModuleList()     # ModuleList có chức năng chứa các Linear Object
        for input_dim, output_dim in zip(Layers, Layers[1:]):
            linear = nn.Linear(input_dim, output_dim)
            nn.init.xavier_uniform(linear.weight)
            self.hidden.append(linear)
    
    def forward(self, x):
        L = len(self.hidden)
        for i,linear in zip(range(L), self.hidden):
            if l < L - 1:
                x = torch.tanh(linear(x))
            else:
                x = linear(x)
        return x        

In [5]:
# Defaul Method
class Net_Tanh_Defaul(nn.Module):   
    def __init__(self, Layers):
        super(Net_Tanh_Defaul, self).__init__()
        self.hidden = nn.ModuleList()
        for input_dim,output_dim in zip(Layers, Layers[1:]):
            linear = nn.Linear(input_dim, output_dim)
            self.hidden.append(linear)
    
    def forward(self, x):
        L = len(self.hidden)
        for i,linear in zip(range(L), self.hidden):
            if l < L-1:
                x = torch.tanh(linear(x))
            else:
                x = linear(x)
        return x

sử dụng hàm linear.weight.data.uniform_ tạo ngẫu nhiên giá trị w trong khoảng cho trước, có thể sử dụng tham số 'state_dict()' để truyền tham số nhưng nếu làm
vậy thì sẽ phải tính đầu truyền vào đầy đủ 1 ma trận là tất cả các w của các neural. Chỉ lên dùng 'state_dict' để xem tham số hoặc với các mạng 1 tầng ẩn thôi.

In [7]:
# Tạo ngẫu nhiên bộ trọng số trong khoảng (0,1)
class Net_Tanh_Uniform(nn.Module):
    def __init__(self, Layers):
        super(Net_Tanh_Uniform, self).__init__()
        self.hidden = nn.ModuleList()
        for input_dim,output_dim in zip(Layers, Layers[1:]):
            linear = nn.Linear(input_dim, output_dim)
            linear.weight.data.uniform_(0, 1)  # Tạo ngẫu nhiên w trong khoảng (0,1).
            self.hidden.append(linear)
            
    def forward(self, x):
        L = len(self.hidden)
        for i,linear in zip(range(L), self.hidden):
            if l < L-1:
                x = torch.tanh(linear(x))
            else:
                x = linear(x)
        return x

In [8]:
trainloader = DataLoader(dataset=train_dataset, batch_size=2000, shuffle=True)
validloader = DataLoader(dataset=valid_dataset, batch_size=5000, shuffle=False)

In [9]:
criterion = nn.CrossEntropyLoss()

In [13]:
ACC = {'Xavier': [], 'Default': [], 'Uniform': []}
COST = {'Xavier': [], 'Default': [], 'Uniform': []}

def training(model, optimizer, epochs, method_name):
    for epoch in range(epochs):
        total_loss = 0
        for x,y in trainloader:
            yhat = model(x.view(-1, 28*28))
            loss = criterion(yhat, y)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
            
        COST[method_name].append(total_loss)
        
        correct = 0
        x = valid_dataset.x
        y = valid_dataset.y
        yhat = model(x.view(-1, 28*28))
        _,laber = torch.max(yhat, 1)
        correct = (label==y).sum().item()
        accuracy = 100 * correct/ len(valid_dataset)
        ACC[method_name].append(accuracy)

In [14]:
learning_rate = 0.01
epochs = 10
input_dim = 28*28
output_dim = 10
Layers = [input_dim, 100, 100, 100, output_dim]

In [None]:
model_defaul = Net_Tanh_Defaul(Layers)
optimizer_defaul = optim.SGD(model_default.parameters(), lr=learning_rate)
training(model_default, optimizer_defaul, epochs, method_name='Default')

In [None]:
model_uniform = Net_Tanh_Uniform(Layers)
optimizer_uniform = optim.SGD(model_uniform.parameters(), lr=learning_rate)
training(model_uniform, optimizer_uniform, epochs, method_name='Uniform')

In [None]:
model_xavier = Net_Tanh_Xavier(Layers)
optimizer_xavier = optim.SGD(model_xavier.parameters(), lr=learning_rate)
training(model_xavier, optimizer_xavier, epochs, method_name='Xavier')

In [None]:
# Compare result
plt.plot(COSS['Default'], label='Default')
plt.plot(COSS['Uniform'], label='Uniform')
plt.plot(COSS['Xavier'], label='Xavier')
plt.show()

plt.plot(ACC['Default'], label='Default')
plt.plot(ACC['Uniform'], label='Uniform')
plt.plot(ACC['Xavier'], label='Xavier')
plt.show()