### 获取和读取数据集

#### 比赛数据分为训练数据集和测试数据集。两个数据集都包括 每栋房子的特征，如街道类型，建造年份，房顶类型，地下室状况等特征值，这些特征值有连续的数字，离散的标签甚至是缺失值na，只有训练数据集包括了每栋房子的价格，也就是标签。我们可以访问比赛网页，下载Data数据集。

#### 我们将通过pandas库读入并处理数据。在导入本节需要的包前 确保已安装pandas库

In [1]:
import torch
import torch.nn as nn
import numpy as np
import pandas as pd
import d2lzh_pytorch as d2l
print(torch.__version__)
torch.set_default_tensor_type(torch.FloatTensor)

1.7.0


In [3]:
train_data = pd.read_csv('data/kaggle_house/train.csv')
test_data = pd.read_csv('data/kaggle_house/test.csv')

#### 训练数据集包括1460个样本，80个特征和1个标签

In [4]:
train_data.shape

(1460, 81)

#### 测试数据集包括1459个样本和80个特征。我们需要将测试数据集中的每个样本的标签预测出来

In [5]:
test_data.shape

(1459, 80)

#### 让我们来查看前4个样本的前4个特征，后两个特征和标签（SalePrice)

In [6]:
train_data.iloc[0:4,[0,1,2,3,-3,-2,-1]]

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,WD,Normal,208500
1,2,20,RL,80.0,WD,Normal,181500
2,3,60,RL,68.0,WD,Normal,223500
3,4,70,RL,60.0,WD,Abnorml,140000


#### 可以看到第一个特征是id,它能帮助模型记住每个训练样本，但难以推广到测试样本，所以我们不能使用它来训练，我们将所有的训练数据和测试数据的79个特征按样本连接

In [8]:
all_features =pd.concat((train_data.iloc[:,1:-1],test_data.iloc[:,1:]))

### 预处理数据

#### 我们对连续数值的特征做标准化（standardization）：设该特征在整个数据集上的均值为μ标准差为σ。那么，我们可以将该特征的每个值先减去μ再除以σ得到标准化后的每个特征值。对于缺失的特征值，我们将其替换成该特征的均值。

In [10]:
numeric_features = all_features.dtypes[all_features.dtypes != 'object'].index
all_features[numeric_features] = all_features[numeric_features].apply(
    lambda x:(x - x.mean()) / (x.std())
)
# 标准化后，将每个数值特征的均值变为0，所以可以直接使用0来替换缺失值
all_features[numeric_features] = all_features[numeric_features].fillna(0)

#### 接下来将离散数值转成指示特征。举个例子，假设特征MSZoning里面有两个不同的离散值RL和RM 那么这一步转换将去掉MSZoning特征，并新加两个特征MSZoing_RL和MSZoing_RM 其值为0和1，如果一个样本原来在MSZoning里的值为RL 那么有MSZoing_RL = 1且MSZoing_RM  = 0

In [11]:
#dummy_na = True 将缺失值也当做合法的特征值并为其创建指示特征
all_features = pd.get_dummies(all_features,dummy_na = True)
all_features.shape

(2919, 331)

#### 可以看到这步将特征数从79 增加到了331

#### 最后，通过values属性得到NumPy格式的数据，并转成tensor方便后面的训练

In [16]:
n_train = train_data.shape[0]
train_featrues = torch.tensor(all_features[:n_train].values,dtype = torch.float)
test_featrues = torch.tensor(all_features[n_train:].values,dtype = torch.float)
train_labels = torch.tensor(train_data.SalePrice.values,dtype = torch.float).view(-1,1)

### 训练模型 

#### 我们使用一个基本的线性回归模型和平方损失函数来训练模型

In [None]:
loss = torch.nn.MSELoss()

def get_net(feature_num):
    net = nn.Linear(feature_num,1)
    for param in net.parameters():
        nn.init.normal_(param,mean = 0,std = 0.01)
    return net

In [17]:
#对数均方根误差的实现如下
def log_rmse(net,featrues,labels):
    with torch.no_grad():
        #将小于1的值设成1，使得取对数时数值更稳定
        clipped_preds = torch.max(net(featrues),torch.tensor(1.0))
        rmse = torch.sqrt(loss(clipped_preds.log(),labels.log()))
    return rmse.item()

#### 下面的训练函数跟本章中前几节的不同在于使用了Adam优化算法，相对于之前使用的小批量随机梯度下降，它对学习率相对不那么敏感。我们将在之后的优化算法中介绍他

In [19]:
def train(net,train_features,train_labels,test_features,test_labels,
         num_epochs,learning_rate,weight_dacay,batch_size):
    train_ls,test_ls = [],[]
    dataset = torch.utils.data.TensorDataset(train_features,train_labels)
    train_iter = torch.utils.data.DataLoader(dataset,batch_size,shuffle = True)
    # 这里使用了Adam优化算法
    optimizer = torch.optim.Adam(params = net.parameters(),lr = learning_rate,weight_decay = weight_decay)
    net = net.float()
    for epoch in range(num_epochs):
        for X,y in train_iter:
            l = loss(net(X.float()),y.float())
            optimizer.zero_grad()
            l.backward()
            optimizer.step()
        trian_ls.append(log_rmse(net,train_features,train_labels))
        if test_labels is not None:
            test_ls.append(log_rmse(net,test_features,test_labels))
    return train_ls,test_ls

### K折交叉验证
#### 下面实现了一个函数，它返回第i折交叉验证时所需要的训练和验证数据

In [None]:
def get_k_fold_data(k,i,X,y):
    # 返回第i折交叉验证时所需要的训练和验证数据
    assert k>1
    fold_size = X.shape[0] //k
    X_train,y_train = None,None
    for j in range(k):
        idx = slice(j* fold_size ,(j+1)*fold_size)
        X_part,y_part = X[idx,:],y[idx]
        if j==i:
            X_valid,y_valid = X_part,y_part
        elif X_trian is None:
            X_train,y_train = X_part,y_part
        else:
            X_train = torch.cat((X_train,X_part),dim = 0)
            y_train = torch.cat((y_train,y_part),dim = 0)
    return X_train,y_train,x_valid,y_valid
            