In [1]:
from torch import FloatTensor, LongTensor, Tensor
import math

## Module Superclass

In [2]:
class Module(object):
    def forward(self, *input_):
        raise NotImplementedError
        
    def backward(self, *gradwrtoutput):
        raise NotImplementedError
        
    def param(self):
        return []

## ReLU Module

ReLU function: 
\begin{equation}
f(x) = max(0, x)
\end{equation}

the derivative of ReLU is

\begin{equation} 
f'(x)=
    \begin{cases}
      1, & \text{if}\ x>0 \\
      0, & \text{otherwise}
    \end{cases}
\end{equation}

In [3]:
# This module represents the ReLU activation function
class ReLU(Module):
    def __init__(self):
        self.z = None
    
    # input_: the tensor outputed by the current layer
    def forward(self, input_):
        self.z = input_.clone()
        input_[input_ < 0] = 0
        return input_
        
    def backward(self, gradwrtoutput):
        da = gradwrtoutput
        tensor = self.z.clone()
        # g'(z)
        tensor[tensor > 0] = 1
        tensor[tensor < 0] = 0
        # dz[l]
        return da.mul(tensor)
        
    def param(self):
        return []
    
    def zero_grad(self):
        pass

## Tanh Module

In [4]:
class Tanh(Module):   
    def __init__(self):
        self.z = None
    
    # input_: the tensor outputed by the current layer
    def forward(self, input_):
        self.z = input_
        return input_.tanh()
        
    def backward(self, gradwrtoutput):
        da = gradwrtoutput
        # g'(z)
        g_prime = (1 - self.z.tanh().pow(2))
        # dz[l]
        return da.mul(g_prime)
        
    def param(self):
        return []
    
    def zero_grad(self):
        pass

## Linear Module
fully connected layer

In [157]:
class Linear(Module):   
    def __init__(self, in_dim, out_dim):
        # keep track of the weigths, the biases and the output of the previous layer's activation function
        self.w = Tensor(out_dim,in_dim).normal_(0)
        self.b = Tensor(out_dim,1).normal_(0)
        self.x_previous_layer = None
        # init the gradient of the loss wrt w / b
        self.grad_w_sum = Tensor(self.w.size()).zero_()
        self.grad_b_sum = Tensor(self.b.size()).zero_()
    
    # input_: the output of the previous layer's activation function
    def forward(self, input_):
        self.x_previous_layer = input_
        return (self.w.mm(input_.t()) + self.b).t()
        
    def backward(self, gradwrtoutput):
        dz = gradwrtoutput.t()
        dw = dz.mm(self.x_previous_layer)
        db = dz
        # sum the gradients for the weights and biases
        self.grad_w_sum += dw
        self.grad_b_sum += db.sum(1).unsqueeze(1)
        return (self.w.t().mm(dz)).t()
        
    # returns a list of pairs, each composed of a parameter tensor and a gradient tensor
    # parameters: weights and biases
    def param(self):
        return [ (self.w, self.grad_w_sum), (self.b, self.grad_b_sum) ]
    
    def zero_grad(self):
        self.grad_w_sum.zero_()
        self.grad_b_sum.zero_()

## Sequential Module
to combine several modules in basic sequential structure

In [158]:
# This module allows to combine several modules (layers, activation functions) in a basic sequential structure
class Sequential(Module):    
    def __init__(self, *layers_):
        self.modules = layers_
        
    # input_: the input data is a minibatch whose columns are features and lines are samples
    def forward(self, input_):
        x = input_
        for module in self.modules:
            x = module.forward(x)
        return x
        
    def backward(self, gradwrtoutput):
        x = gradwrtoutput
        for module in reversed(self.modules):
            x = module.backward(x)
        return x
        
    # returns a flatened list of each module's parameters
    # each parameter in the list is represented as a tuple containing the parameter tensor (e.g. w)
    # and the gradient tensor (e.g. dl/dw)
    def param(self):
        return [ p for module in self.modules for p in module.param() ]
    
    # s,
    def zero_grad(self):
        for module in self.modules:
            module.zero_grad()

## MSE Loss Function

In [159]:
class LossMSE(Module): 
    def __init__(self):
        self.error = None
        
    def forward(self, preds, labels):
        self.error = preds - labels
        return self.error.pow(2).sum()
        
    def backward(self):
        return 2 * self.error
        
    def param(self):
        return []

## Cross-entropy Loss Function

In [366]:
class LossCrossEntropy(Module): 
    def __init__(self):
        self.p = None
        self.c = None
        
    # stabilized version of softmax
    def softmax(self, t):
        stable_exp = (t - t.max(0)[0]).exp()
        return stable_exp / (stable_exp.sum(0))
    
    def convert_to_one_hot(self, target):
        tmp = FloatTensor(target.size(0), 2).fill_(0)
        for k in range(0, target.size(0)):
            tmp[k, train_target[k]] = 1
        return tmp
        
    def forward(self, preds, labels):
        self.p = self.softmax(preds)
        self.c = self.convert_to_one_hot(labels)
        '''
        if (self.p == 0).any():
            print('p==0')
            print(preds)
            print(self.softmax(preds))
        if (1-self.p <= 0).any():
            print('1-p < 0')
        '''
        #print(self.c)
        #print(-(self.c * self.p.log()))
        print(self.p)
        #return -(self.c * self.p.log() + (1 - self.c) * (1 - self.p).log()).sum()
        return -(self.c * self.p.log()).sum()
        
    def backward(self):
        return self.p - self.c
        
    def param(self):
        return []

In [272]:
t = Tensor(2, 2).fill_(0.5)
-(t.exp() / t.exp().sum()).log()

c = Tensor(2, 2).fill_(0.5)
p = Tensor(2, 2).fill_(0.5)

(c * p.log() + (1 - c) * (1 - p).log()).sum()

-2.7725887298583984

In [298]:
t2 = Tensor([[87.2280, 5.0081], 
 [87.2212, 5.0043],
 [87.2355, 5.0180],
 [87.2333, 5.0175],
 [87.2464, 5.0163]]).float()

In [299]:
def softmax(t):
    return t.exp() / (t.exp().sum())
t2.exp()/t2.exp().sum()


 0  0
 0  0
 0  0
 0  0
 0  0
[torch.FloatTensor of size 5x2]

In [340]:
t2


 87.2280   5.0081
 87.2212   5.0043
 87.2355   5.0180
 87.2333   5.0175
 87.2464   5.0163
[torch.FloatTensor of size 5x2]

In [347]:
t2 - t2.max(0)[0]


1.00000e-02 *
 -1.8402 -0.9900
 -2.5200 -1.3700
 -1.0902  0.0000
 -1.3100 -0.0500
  0.0000 -0.1700
[torch.FloatTensor of size 5x2]

## SGD optimization

In [160]:
class optim_SGD(Module):
    # parameters: the parameters of the Sequential module
    def __init__(self, parameters, learning_rate):
        self.param = parameters #[ p.shallow() for tup in parameters for p in tup ]
        self.lr = learning_rate
        
    # performs a gradient step (SGD) for all parameters
    def step(self):
        for (p, grad_p) in self.param:
            p.sub_(self.lr*grad_p)

## TODO

zero_grad() method: should we put it in the Module class, so that we can remove it from ReLU and Tanh?

## Helpers

In [161]:
def generate_disc_set(nb):
    a = Tensor(nb, 2).uniform_(0, 1)
    target = ((a.pow(2).sum(1)).sqrt() < math.sqrt(1/(2*math.pi))).long()
    return a, target

In [163]:
# converts 'target' Tensor to one hot labels
def convert_to_one_hot(target):
    tmp = FloatTensor(target.size(0), 2).fill_(0)
    for k in range(0, target.size(0)):
        tmp[k, train_target[k]] = 1
    return tmp

In [164]:
def compute_accuracy(model, input_, target):
    nb_data_errors = 0
    output = model.forward(input_)

    _, predicted_classes = output.max(1)
    for k in range(input_.size(0)):
        if target[k] != predicted_classes[k]:
            nb_data_errors = nb_data_errors + 1
    return 100 - (100*(nb_data_errors / input_.size(0)))

In [273]:
def train_model(model, criterion, optimizer, nb_epochs=100, mini_batch_size=5, verbose=False):
    for e in range(0, nb_epochs):
        loss = 0
        for b in range(0, train_input.size(0), mini_batch_size):
            output = model.forward(train_input.narrow(0, b, mini_batch_size))
            # sum the loss for each batch to get the current epoch's loss
            loss += criterion.forward(output, train_one_hot_target.narrow(0, b, mini_batch_size))
            # set the gradients of all layers to zero before the next batch can go through the network
            model.zero_grad()
            model.backward(criterion.backward())
            optimizer.step() # performs a gradient step to optimize the parameters
        if verbose:
            print("Epoch", e+1, ":", loss)

## Test file

In [251]:
# generate training and testing data
train_input, train_target = generate_disc_set(1000)
test_input, test_target = generate_disc_set(1000)

# convert targets to one hot labels
train_one_hot_target = convert_to_one_hot(train_target)
test_one_hot_target = convert_to_one_hot(test_target)

In [367]:
nb_epochs = 100
mini_batch_size = 5
model = Sequential(Linear(2,25), Tanh(), Linear(25,25), Tanh(), Linear(25, 25), Tanh(), Linear(25,2))
#criterion = LossMSE()
criterion = LossCrossEntropy()
optimizer = optim_SGD(model.param(), 1e-3)

train_model(model, criterion, optimizer, nb_epochs, mini_batch_size, verbose=True)

print("Train accuracy :", compute_accuracy(model, train_input, train_target), "%")
print("Test accuracy :", compute_accuracy(model, test_input, test_target), "%")


 0.2569  0.0029
 0.0249  0.0523
 0.0146  0.0376
 0.3598  0.8373
 0.3438  0.0700
[torch.FloatTensor of size 5x2]


 0.0332  0.0278
 0.3227  0.0003
 0.4363  0.3282
 0.0866  0.6419
 0.1212  0.0018
[torch.FloatTensor of size 5x2]


 0.0544  0.3116
 0.1989  0.2202
 0.0039  0.0176
 0.4397  0.0270
 0.3032  0.4236
[torch.FloatTensor of size 5x2]


 0.3258  0.3041
 0.1255  0.1927
 0.0208  0.0537
 0.1297  0.3513
 0.3983  0.0982
[torch.FloatTensor of size 5x2]


 0.1601  0.0301
 0.2799  0.1602
 0.1114  0.2125
 0.0969  0.0034
 0.3517  0.5939
[torch.FloatTensor of size 5x2]


 0.0703  0.1099
 0.2107  0.2356
 0.4982  0.4019
 0.0800  0.2363
 0.1408  0.0163
[torch.FloatTensor of size 5x2]


 0.3606  0.3240
 0.2542  0.1190
 0.0031  0.0029
 0.2915  0.4690
 0.0907  0.0851
[torch.FloatTensor of size 5x2]


 0.3125  0.2415
 0.0897  0.0161
 0.1122  0.3384
 0.3093  0.2676
 0.1763  0.1365
[torch.FloatTensor of size 5x2]


 0.1338  0.0816
 0.2259  0.3208
 0.0497  0.3137
 0.5303  0.2024
 0.0603  0.0814
[torch.


 0.2215  0.2246
 0.1919  0.1746
 0.1715  0.1883
 0.1883  0.1950
 0.2268  0.2175
[torch.FloatTensor of size 5x2]


 0.1848  0.1862
 0.2043  0.2109
 0.2184  0.2177
 0.2204  0.2054
 0.1721  0.1797
[torch.FloatTensor of size 5x2]


 0.2124  0.2123
 0.1993  0.2083
 0.1686  0.1810
 0.2183  0.2126
 0.2014  0.1858
[torch.FloatTensor of size 5x2]


 0.2049  0.2193
 0.1846  0.1887
 0.1836  0.1877
 0.2091  0.1983
 0.2178  0.2060
[torch.FloatTensor of size 5x2]


 0.1976  0.2061
 0.2080  0.2028
 0.1822  0.1849
 0.2082  0.2008
 0.2040  0.2054
[torch.FloatTensor of size 5x2]


 0.2024  0.2099
 0.1921  0.1684
 0.1715  0.2192
 0.2162  0.2031
 0.2178  0.1995
[torch.FloatTensor of size 5x2]


 0.1902  0.2035
 0.2055  0.2006
 0.2091  0.1963
 0.1970  0.2028
 0.1983  0.1968
[torch.FloatTensor of size 5x2]


 0.1912  0.2307
 0.2087  0.1859
 0.2147  0.1878
 0.2005  0.2010
 0.1849  0.1947
[torch.FloatTensor of size 5x2]


 0.2050  0.2029
 0.2153  0.2031
 0.1873  0.1813
 0.1738  0.2095
 0.2185  0.2032
[torch.


 0.2067  0.1994
 0.1849  0.1980
 0.2041  0.2013
 0.2051  0.2019
 0.1991  0.1994
[torch.FloatTensor of size 5x2]


 0.2011  0.1978
 0.1980  0.2004
 0.1922  0.1994
 0.2000  0.2023
 0.2087  0.2001
[torch.FloatTensor of size 5x2]


 0.2025  0.2021
 0.2009  0.1993
 0.2051  0.2011
 0.1887  0.1976
 0.2028  0.1999
[torch.FloatTensor of size 5x2]


 0.1956  0.2043
 0.2089  0.2019
 0.2073  0.2023
 0.1987  0.1929
 0.1896  0.1987
[torch.FloatTensor of size 5x2]


 0.1781  0.2051
 0.2065  0.1971
 0.2072  0.1976
 0.2053  0.2001
 0.2029  0.2000
[torch.FloatTensor of size 5x2]


 0.1880  0.1978
 0.2042  0.2005
 0.2025  0.2032
 0.2005  0.1997
 0.2047  0.1989
[torch.FloatTensor of size 5x2]


 0.1987  0.1985
 0.2064  0.1986
 0.1891  0.1968
 0.1936  0.2045
 0.2122  0.2016
[torch.FloatTensor of size 5x2]


 0.2036  0.2021
 0.1989  0.1943
 0.1814  0.1980
 0.2089  0.2029
 0.2072  0.2026
[torch.FloatTensor of size 5x2]


 0.2027  0.1998
 0.1999  0.2026
 0.1918  0.2000
 0.2013  0.1971
 0.2042  0.2005
[torch.


 0.1934  0.1998
 0.1917  0.1999
 0.2048  0.2002
 0.2080  0.1998
 0.2022  0.2002
[torch.FloatTensor of size 5x2]


 0.1962  0.1999
 0.2023  0.2011
 0.2094  0.1996
 0.1969  0.1999
 0.1952  0.1995
[torch.FloatTensor of size 5x2]


 0.1993  0.1999
 0.2017  0.2004
 0.2000  0.2003
 0.1980  0.2004
 0.2010  0.1990
[torch.FloatTensor of size 5x2]


 0.2050  0.1989
 0.1918  0.1997
 0.1986  0.2015
 0.2005  0.1994
 0.2041  0.2005
[torch.FloatTensor of size 5x2]


 0.2011  0.2002
 0.1982  0.1984
 0.1969  0.2002
 0.2021  0.2006
 0.2017  0.2006
[torch.FloatTensor of size 5x2]


 0.1986  0.1990
 0.1964  0.2006
 0.2076  0.2004
 0.2055  0.1994
 0.1918  0.2007
[torch.FloatTensor of size 5x2]


 0.1998  0.2006
 0.1978  0.1988
 0.2026  0.2002
 0.2001  0.1995
 0.1997  0.2008
[torch.FloatTensor of size 5x2]


 0.1992  0.2005
 0.2034  0.1995
 0.2004  0.1995
 0.2005  0.2007
 0.1965  0.1998
[torch.FloatTensor of size 5x2]


 0.1971  0.2005
 0.1929  0.1983
 0.2058  0.2005
 0.2000  0.2008
 0.2043  0.2000
[torch.


 0.2020  0.1998
 0.1980  0.1991
 0.2012  0.2002
 0.1959  0.2006
 0.2030  0.2003
[torch.FloatTensor of size 5x2]


 0.1936  0.2021
 0.2062  0.1995
 0.1968  0.1997
 0.2046  0.1998
 0.1989  0.1989
[torch.FloatTensor of size 5x2]


 0.2033  0.2000
 0.2035  0.1993
 0.1921  0.2007
 0.2002  0.2003
 0.2010  0.1997
[torch.FloatTensor of size 5x2]


 0.2026  0.1999
 0.2054  0.1995
 0.2001  0.1995
 0.1951  0.2006
 0.1968  0.2004
[torch.FloatTensor of size 5x2]


 0.1994  0.1996
 0.1925  0.2008
 0.2036  0.2001
 0.1972  0.2003
 0.2073  0.1992
[torch.FloatTensor of size 5x2]


 0.1998  0.1999
 0.1981  0.2002
 0.1942  0.2006
 0.2042  0.1993
 0.2036  0.1999
[torch.FloatTensor of size 5x2]


 0.2010  0.1996
 0.1922  0.2006
 0.2007  0.2007
 0.2016  0.1995
 0.2045  0.1996
[torch.FloatTensor of size 5x2]


 0.2008  0.1998
 0.2003  0.2004
 0.1999  0.1999
 0.1987  0.1995
 0.2003  0.2004
[torch.FloatTensor of size 5x2]


 0.1932  0.2005
 0.2037  0.2001
 0.2048  0.1996
 0.1976  0.2002
 0.2008  0.1997
[torch.


 0.1891  0.2027
 0.2023  0.1992
 0.2031  0.1992
 0.2028  0.1995
 0.2027  0.1994
[torch.FloatTensor of size 5x2]


 0.1941  0.2007
 0.2010  0.1999
 0.2013  0.2003
 0.2002  0.1999
 0.2034  0.1993
[torch.FloatTensor of size 5x2]


 0.1995  0.1998
 0.2034  0.1992
 0.1951  0.2004
 0.1965  0.2012
 0.2056  0.1993
[torch.FloatTensor of size 5x2]


 0.2021  0.1999
 0.1990  0.1995
 0.1910  0.2013
 0.2047  0.1995
 0.2032  0.1998
[torch.FloatTensor of size 5x2]


 0.1996  0.2001
 0.2001  0.2003
 0.1970  0.2005
 0.2004  0.1996
 0.2029  0.1996
[torch.FloatTensor of size 5x2]


 0.2028  0.2000
 0.1984  0.1996
 0.2016  0.2001
 0.2023  0.1994
 0.1949  0.2009
[torch.FloatTensor of size 5x2]


 0.1967  0.2004
 0.2022  0.1995
 0.2041  0.1996
 0.1935  0.2009
 0.2035  0.1997
[torch.FloatTensor of size 5x2]


 0.1997  0.1999
 0.1950  0.2007
 0.2004  0.1998
 0.2024  0.1998
 0.2025  0.1997
[torch.FloatTensor of size 5x2]


 0.2010  0.1997
 0.1971  0.1999
 0.1988  0.2006
 0.2025  0.1995
 0.2005  0.2002
[torch.


 0.1987  0.2002
 0.2012  0.1999
 0.2000  0.2001
 0.1992  0.2002
 0.2009  0.1997
[torch.FloatTensor of size 5x2]


 0.2029  0.1993
 0.1945  0.2008
 0.1996  0.2004
 0.2005  0.1998
 0.2025  0.1998
[torch.FloatTensor of size 5x2]


 0.2009  0.1999
 0.1982  0.1999
 0.1982  0.2003
 0.2015  0.1999
 0.2012  0.2000
[torch.FloatTensor of size 5x2]


 0.2005  0.1997
 0.1981  0.2004
 0.2047  0.1994
 0.2020  0.1996
 0.1947  0.2010
[torch.FloatTensor of size 5x2]


 0.1997  0.2001
 0.1996  0.1999
 0.2009  0.1999
 0.2003  0.1999
 0.1996  0.2002
[torch.FloatTensor of size 5x2]


 0.1997  0.2002
 0.2015  0.1997
 0.1998  0.1999
 0.2007  0.2000
 0.1984  0.2002
[torch.FloatTensor of size 5x2]


 0.1982  0.2003
 0.1969  0.2001
 0.2030  0.1997
 0.1997  0.2002
 0.2022  0.1997
[torch.FloatTensor of size 5x2]


 0.2063  0.1991
 0.1992  0.2001
 0.1959  0.2006
 0.2025  0.1996
 0.1962  0.2006
[torch.FloatTensor of size 5x2]


 0.2003  0.1998
 0.1966  0.2009
 0.2011  0.1998
 0.2009  0.1997
 0.2012  0.1997
[torch.


 0.2002  0.1998
 0.1945  0.2010
 0.2024  0.1997
 0.1988  0.2002
 0.2042  0.1992
[torch.FloatTensor of size 5x2]


 0.2004  0.1999
 0.1993  0.2001
 0.1958  0.2008
 0.2018  0.1996
 0.2026  0.1996
[torch.FloatTensor of size 5x2]


 0.2011  0.1997
 0.1943  0.2010
 0.2007  0.2001
 0.2012  0.1997
 0.2027  0.1995
[torch.FloatTensor of size 5x2]


 0.2002  0.1999
 0.2004  0.2000
 0.1992  0.2001
 0.1998  0.1999
 0.2004  0.2001
[torch.FloatTensor of size 5x2]


 0.1948  0.2009
 0.2023  0.1997
 0.2027  0.1995
 0.1989  0.2001
 0.2012  0.1997
[torch.FloatTensor of size 5x2]


 0.2008  0.2000
 0.2014  0.1999
 0.1978  0.2003
 0.1992  0.2000
 0.2009  0.1998
[torch.FloatTensor of size 5x2]


 0.1967  0.2006
 0.1962  0.2007
 0.2015  0.1997
 0.2031  0.1994
 0.2025  0.1995
[torch.FloatTensor of size 5x2]


 0.2015  0.1997
 0.1999  0.2001
 0.1981  0.2002
 0.2011  0.1998
 0.1995  0.2001
[torch.FloatTensor of size 5x2]


 0.2025  0.1994
 0.2021  0.1996
 0.1981  0.2007
 0.2008  0.1998
 0.1965  0.2005
[torch.


 0.2005  0.1999
 0.1995  0.2001
 0.1961  0.2007
 0.2015  0.1997
 0.2024  0.1996
[torch.FloatTensor of size 5x2]


 0.2011  0.1997
 0.1946  0.2010
 0.2007  0.2001
 0.2012  0.1997
 0.2024  0.1996
[torch.FloatTensor of size 5x2]


 0.2001  0.1999
 0.2004  0.2000
 0.1992  0.2001
 0.1999  0.1999
 0.2004  0.2000
[torch.FloatTensor of size 5x2]


 0.1950  0.2009
 0.2021  0.1997
 0.2025  0.1996
 0.1992  0.2001
 0.2012  0.1997
[torch.FloatTensor of size 5x2]


 0.2008  0.2000
 0.2013  0.1999
 0.1981  0.2003
 0.1991  0.2000
 0.2007  0.1998
[torch.FloatTensor of size 5x2]


 0.1970  0.2006
 0.1966  0.2007
 0.2012  0.1998
 0.2028  0.1995
 0.2024  0.1995
[torch.FloatTensor of size 5x2]


 0.2013  0.1998
 0.2000  0.2000
 0.1983  0.2002
 0.2010  0.1998
 0.1995  0.2001
[torch.FloatTensor of size 5x2]


 0.2023  0.1995
 0.2019  0.1996
 0.1984  0.2006
 0.2007  0.1998
 0.1967  0.2005
[torch.FloatTensor of size 5x2]


 0.2001  0.2001
 0.1995  0.2002
 0.2010  0.1998
 0.1991  0.2002
 0.2004  0.1998
[torch.


 0.2036  0.1992
 0.2023  0.1996
 0.1994  0.2001
 0.1973  0.2006
 0.1974  0.2005
[torch.FloatTensor of size 5x2]


 0.1994  0.2000
 0.1988  0.2002
 0.2002  0.2000
 0.2001  0.2000
 0.2015  0.1998
[torch.FloatTensor of size 5x2]


 0.2010  0.1998
 0.2011  0.1998
 0.1998  0.2000
 0.2015  0.1997
 0.1966  0.2006
[torch.FloatTensor of size 5x2]


 0.2002  0.2001
 0.1956  0.2008
 0.2010  0.1998
 0.2026  0.1995
 0.2005  0.1997
[torch.FloatTensor of size 5x2]


 0.2015  0.1996
 0.2003  0.1998
 0.1973  0.2007
 0.2004  0.2000
 0.2006  0.1999
[torch.FloatTensor of size 5x2]


 0.1955  0.2009
 0.2031  0.1995
 0.2029  0.1994
 0.1982  0.2003
 0.2003  0.1999
[torch.FloatTensor of size 5x2]


 0.2017  0.1996
 0.2014  0.1997
 0.1989  0.2001
 0.2014  0.1997
 0.1966  0.2009
[torch.FloatTensor of size 5x2]


 0.2000  0.1999
 0.2002  0.2000
 0.1965  0.2007
 0.2025  0.1996
 0.2007  0.1997
[torch.FloatTensor of size 5x2]


 0.2001  0.2000
 0.2011  0.1998
 0.2018  0.1997
 0.2022  0.1996
 0.1948  0.2010
[torch.


 0.1987  0.2002
 0.2012  0.1999
 0.2007  0.1998
 0.2004  0.2000
 0.1990  0.2002
[torch.FloatTensor of size 5x2]


 0.2013  0.1997
 0.2015  0.1998
 0.1944  0.2012
 0.2024  0.1994
 0.2004  0.1999
[torch.FloatTensor of size 5x2]


 0.2032  0.1992
 0.2042  0.1991
 0.1933  0.2018
 0.1974  0.2005
 0.2020  0.1995
[torch.FloatTensor of size 5x2]


 0.2008  0.1999
 0.1983  0.2004
 0.2003  0.2000
 0.1996  0.2000
 0.2010  0.1998
[torch.FloatTensor of size 5x2]


 0.1996  0.1999
 0.2021  0.1997
 0.2019  0.1997
 0.1957  0.2009
 0.2007  0.1998
[torch.FloatTensor of size 5x2]


 0.2024  0.1995
 0.2006  0.1998
 0.1958  0.2008
 0.2016  0.1996
 0.1996  0.2003
[torch.FloatTensor of size 5x2]


 0.1987  0.2002
 0.2012  0.1997
 0.2012  0.1998
 0.1998  0.2000
 0.1992  0.2002
[torch.FloatTensor of size 5x2]


 0.2004  0.1999
 0.2005  0.2000
 0.1992  0.2002
 0.2005  0.1999
 0.1994  0.2001
[torch.FloatTensor of size 5x2]


 0.1995  0.2000
 0.1998  0.2000
 0.2013  0.1998
 0.1996  0.2001
 0.1998  0.2000
[torch.


 0.2003  0.2000
 0.1992  0.2002
 0.2003  0.1999
 0.2010  0.1998
 0.1991  0.2001
[torch.FloatTensor of size 5x2]


 0.2000  0.2000
 0.2004  0.1999
 0.2005  0.2000
 0.1993  0.2001
 0.1998  0.2000
[torch.FloatTensor of size 5x2]


 0.1990  0.2002
 0.1984  0.2002
 0.2011  0.1998
 0.2008  0.1999
 0.2006  0.1999
[torch.FloatTensor of size 5x2]


 0.2002  0.2000
 0.2006  0.1999
 0.1992  0.2002
 0.2004  0.1999
 0.1996  0.2001
[torch.FloatTensor of size 5x2]


 0.2003  0.2000
 0.1988  0.2002
 0.2010  0.1998
 0.1995  0.2001
 0.2003  0.2000
[torch.FloatTensor of size 5x2]


 0.1986  0.2002
 0.2003  0.1999
 0.2003  0.2000
 0.2011  0.1998
 0.1997  0.2001
[torch.FloatTensor of size 5x2]


 0.1958  0.2009
 0.2014  0.1998
 0.2014  0.1997
 0.2013  0.1997
 0.2000  0.1999
[torch.FloatTensor of size 5x2]


 0.2002  0.2000
 0.1988  0.2002
 0.2005  0.1999
 0.1992  0.2002
 0.2013  0.1998
[torch.FloatTensor of size 5x2]


 0.1976  0.2007
 0.2019  0.1996
 0.1995  0.2000
 0.2013  0.1998
 0.1998  0.1999
[torch.

KeyboardInterrupt: 

In [241]:
n_iters = 50
test_acc=[]
train_acc=[]
for i in range(n_iters):
    print('iter', i+1)
    model = Sequential(Linear(2,25), Tanh(), Linear(25,25), Tanh(), Linear(25, 25), Tanh(), Linear(25,2))
    #criterion = LossMSE()
    criterion = LossCrossEntropy()
    optimizer = optim_SGD(model.param(), 1e-3)
    
    train_model(model, criterion, optimizer, nb_epochs, mini_batch_size)

    train_a = compute_accuracy(model, train_input, train_target)
    test_a = compute_accuracy(model, test_input, test_target)
    print("Train accuracy :", train_a, "%")
    print("Test accuracy :", test_a, "%")
    train_acc.append(train_a)
    test_acc.append(test_a)

iter 1
Train accuracy : 87.0 %
Test accuracy : 86.1 %
iter 2
Train accuracy : 87.0 %
Test accuracy : 86.1 %
iter 3
Train accuracy : 87.0 %
Test accuracy : 86.1 %
iter 4


KeyboardInterrupt: 

In [202]:
print('train accuracy', sum(train_acc)/len(train_acc))
print('test accuracy', sum(test_acc)/len(test_acc))

train accuracy 99.456
test accuracy 99.17
