In [1]:
%matplotlib inline

In [None]:
import torch
from torch.nn import Linear, Module, MSELoss
from torch.optim import SGD
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
torch.__version__

In [None]:
x = np.linspace(0,20,50)
y = 5*x + 7
plt.plot(x,y)

In [None]:
x = np.random.rand(256)
noise = np.random.randn(256)/4
y = x * 5 + 7 + noise
df = pd.DataFrame()
df['x'] = x
df['y'] = y

In [None]:
sns.lmplot(x='x', y='y', data=df)

In [None]:
model = Linear(1,1)

其中参数(1, 1)代表输入输出的特征(feature)数量都是1. Linear 模型的表达式是 $y=w \cdot x+b$，其中 $w$ 代表权重， $b$ 代表偏置

In [None]:
criterion = MSELoss()

In [None]:
optim = SGD(model.parameters(),lr = 0.01)

In [None]:
epochs = 3000

In [None]:
x_train = x.reshape(-1,1).astype('float32')
y_train = y.reshape(-1,1).astype('float32')

In [None]:
for i in range(epochs):
    inputs = torch.from_numpy(x_train)
    labels = torch.from_numpy(y_train)
    outputs = model(inputs)
    optim.zero_grad()
    loss = criterion(outputs,labels)
    loss.backward()
    optim.step()
    if(i%100 == 0):
        print('epoch{},loss{:1.4f}'.format(i,loss.data.item()))
# 整理输入和输出的数据，这里输入和输出一定要是torch的Tensor类型

In [None]:
[w, b] = model.parameters()
print(w.item(),b.item())

In [None]:
predicted = model.forward(torch.from_numpy(x_train)).data.numpy()
plt.plot(x_train,y_train,'go',label = 'data',alpha = 0.3)
plt.plot(x_train,predicted,label = 'predicted',alpha = 1)
plt.legend()
plt.show()

In [None]:
optimizer = torch.optim.SGD(model.parameters(),lr=0.1,momentum=0.9)

In [None]:
optimizer = torch.optim.RMSprop(model.parameters(),lr=0.01,alpha=0.99)

In [None]:
optimizer = torch.optim.Adam(model.parameters(),lr=0.001,betas=(0.9,0.999),eps=1e-08)

高偏差（high bias）的情况，一般称为欠拟合（underfitting），即我们的模型并没有很好的去适配现有的数据，拟合度不够。

高方差（high variance）的情况一般称作过拟合（overfitting），即模型对于训练数据拟合度太高了，失去了泛化的能力。

欠拟合：

    增加网络结构，如增加隐藏层数目；

    训练更长时间；

    寻找合适的网络架构，使用更大的NN结构；

过拟合 ：

    使用更多的数据；

    正则化（regularization）；

    寻找合适的网络结构；

In [None]:
print(5-w.data.item(),7-b.data.item())

L1正则化

损失函数基础上加上权重参数的绝对值

$ L=E_{in}+\lambda{\sum_j} \left|w_j\right|$

L2正则化

损失函数基础上加上权重参数的平方和

$ L=E_{in}+\lambda{\sum_j} w^2_j$

需要说明的是：l1 相比于 l2 会更容易获得稀疏解