# MNIST手写数字分类
二分类问题只需要确定一个值，多分类问题要确定每一个分支的可能概率，使用交叉熵函数确定误差（二分类中的loss），交叉熵的含义是用于度量两个分布之间的差异性，衡量模型能否识别的难度。
交叉熵学习链接，[link](https://blog.csdn.net/rtygbwwwerr/article/details/50778098)

In [14]:
import torch
import numpy as np
from torch import nn,optim
from torch.autograd import Variable
from torch.utils.data import DataLoader
from torchvision import datasets,transforms
from __future__ import division

In [16]:
#定义简单三层全连接三层网络
class simpleNet(nn.Module):
    def __init__(self,in_dim,hidden1,hidden2,out_dim):
        super(simpleNet,self).__init__()
        self.layer1=nn.Sequential(
            nn.Linear(in_dim,hidden1),nn.ReLU(True))
        self.layer2=nn.Sequential(
            nn.Linear(hidden1,hidden2),nn.ReLU(True))
        self.layer3=nn.Sequential(
            nn.Linear(hidden2,out_dim),nn.ReLU(True))
        
    def forward(self,x):
        x=self.layer1(x)
        x=self.layer2(x)
        x=self.layer3(x)
        return x    

In [17]:
#预处理,Normalize是减均值然后除以方差,0.5为均值，0.5为方差，方框内的为均值方差
#将图片转化为[-1,1]之间，如果是彩色图，有三通道，[a,b,c],[d,e,f]来表示每个通道的均值和方差
data_tf=transforms.Compose(
    [transforms.ToTensor(),
    transforms.Normalize([0.5],[0.5])]
)

In [18]:
train_data=datasets.MNIST(root='./data',train=True,transform=data_tf,download=True)
test_data=datasets.MNIST(root='./data',train=False,transform=data_tf,download=True)

In [19]:
train_loader=DataLoader(train_data,batch_size=64,shuffle=True)
test_loader=DataLoader(test_data,batch_size=64,shuffle=False)

In [20]:
model=simpleNet(784,300,100,10)

In [21]:
criterion=nn.CrossEntropyLoss()#交叉熵
optimizer=optim.SGD(model.parameters(),lr=1e-2)

In [22]:
for epoch in range(20):
    for im,label in train_loader:
#         if torch.cuda.is_available():
#             im=Variable(im).cuda()
#             label=Variable(label).cuda()
#         else:
        
        im=im.view(im.size(0),-1)
        im=Variable(im)
        label=Variable(label)
        out=model(im)#出现错误
        #size mismatch at /opt/conda/conda-bld/pytorch_1518238409320/work/torch/lib/THC/generic/THCTensorMathBlas.cu:247

        loss=criterion(out,label)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

In [23]:
#开始测试
model.eval()
eval_loss=0
eval_acc=0
for data in test_loader:
    img,label=data
    img=img.view(img.size(0),-1)
    img=Variable(img,volatile=True)#前向传播不缓存，因为测试不需要反向传播
    label=Variable(label,volatile=True)
    out=model(img)
    loss=criterion(out,label)
    eval_loss+=loss.data[0]*label.size(0)
    _,pred=torch.max(out,1)
    num_correct=(pred==label).sum()
    eval_acc+=num_correct.data[0]
print('Test loss:{:.6f},Acc:{:.6f}'.format(
    eval_loss/(len(test_data)),
    eval_acc/(len(test_data))))

Test loss:0.107665,Acc:0.968100


使用简单三层全连接神经网络结果：

Test loss:0.272429,Acc:0.921900

用到nn.Sequential()添加激活函数后的结果：

Test loss:0.107665,Acc:0.968100