# 数据操作
首先介绍n维数组，也称为张量（tensor），pytorch中的张量类与Numpy中的ndarray类似。但是在深度学习框架中应用Pytorch的张量类，会比ndarray多一些重要功能：

1.tensor很好的支持GPU加速计算，Numpy只支持CPU计算

2.tensor支持自动微分

In [14]:
# 使用arange创建一个行向量x
import torch
x = torch.arange(12)
print(x)

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])


可以通过shape属性访问张量的形状（沿每个轴的长度）

In [21]:
x.shape

torch.Size([12])

只想知道张量中的元素总数，即形状的所有元素乘积，可以使用numel（）

In [20]:
x.numel()

12

改变张量形状但不改变元素数量和元素值，使用reshape()

In [24]:
X = x.reshape(3,4)
print(X)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


也可以只指定n-1个维度的大小，最后一个维度会被自动计算出来

In [30]:
Y = x.reshape(-1,4)
print(Y)
Z = x.reshape(2,-1)
print(Z)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])


创建全0、全1张量

In [32]:
torch.zeros(2,2,3,4)

tensor([[[[0., 0., 0., 0.],
          [0., 0., 0., 0.],
          [0., 0., 0., 0.]],

         [[0., 0., 0., 0.],
          [0., 0., 0., 0.],
          [0., 0., 0., 0.]]],


        [[[0., 0., 0., 0.],
          [0., 0., 0., 0.],
          [0., 0., 0., 0.]],

         [[0., 0., 0., 0.],
          [0., 0., 0., 0.],
          [0., 0., 0., 0.]]]])

In [33]:
torch.ones(3,4)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

随机采样张量中每个元素的值,其中的每个元素都从均值为0、标准差为1的标准正态分布中随机采样。

In [34]:
torch.randn(5,4)

tensor([[-0.3555,  0.8388, -0.2639, -1.2548],
        [ 0.0168, -0.2870,  0.3326,  0.5456],
        [ 0.7035,  2.0139,  0.1002, -1.8368],
        [ 0.0039, -1.2594,  1.6589, -0.5712],
        [-0.8302, -2.4053, -0.6109, -0.4444]])

把多个张量连结在一起，只需要提供张量列表，并给出沿哪个轴连结即可。

下面展示一下沿行和按列连结的情况

In [40]:
x = torch.arange(12, dtype=torch.float32).reshape(3,4)
y = torch.tensor([[1,2,3,4],[2,3,4,5],[3,4,5,6]])
# 沿x轴连结
print("沿x轴连结")
print(torch.cat((x,y),dim=0))

# 按y轴连结
print("按y轴连结")
torch.cat((x,y),dim=1)

沿x轴连结
tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [ 1.,  2.,  3.,  4.],
        [ 2.,  3.,  4.,  5.],
        [ 3.,  4.,  5.,  6.]])
按y轴连结


tensor([[ 0.,  1.,  2.,  3.,  1.,  2.,  3.,  4.],
        [ 4.,  5.,  6.,  7.,  2.,  3.,  4.,  5.],
        [ 8.,  9., 10., 11.,  3.,  4.,  5.,  6.]])

可以看到，按x轴连结的时候，是3+3=6，按y轴连结的时候，是4+4=8

将两个三维张量连结

In [45]:
x = torch.arange(12,dtype=torch.float32).reshape(3,2,2)
y = torch.tensor([[[1,2],[2,3]],[[3,4],[4,5]],[[5,6],[6,7]]])
# 沿x轴连结
print("沿x轴连结")
print(torch.cat((x,y),dim=0))

# 按y轴连结
print("按y轴连结")
print(torch.cat((x,y),dim=1))

# 沿z轴连结
print("沿z轴连结")
torch.cat((x,y),dim=2)

沿x轴连结
tensor([[[ 0.,  1.],
         [ 2.,  3.]],

        [[ 4.,  5.],
         [ 6.,  7.]],

        [[ 8.,  9.],
         [10., 11.]],

        [[ 1.,  2.],
         [ 2.,  3.]],

        [[ 3.,  4.],
         [ 4.,  5.]],

        [[ 5.,  6.],
         [ 6.,  7.]]])
按y轴连结
tensor([[[ 0.,  1.],
         [ 2.,  3.],
         [ 1.,  2.],
         [ 2.,  3.]],

        [[ 4.,  5.],
         [ 6.,  7.],
         [ 3.,  4.],
         [ 4.,  5.]],

        [[ 8.,  9.],
         [10., 11.],
         [ 5.,  6.],
         [ 6.,  7.]]])
沿z轴连结


tensor([[[ 0.,  1.,  1.,  2.],
         [ 2.,  3.,  2.,  3.]],

        [[ 4.,  5.,  3.,  4.],
         [ 6.,  7.,  4.,  5.]],

        [[ 8.,  9.,  5.,  6.],
         [10., 11.,  6.,  7.]]])

In [48]:
# 通过逻辑运算符构建张量，对于每个位置，如果x和y在该位置的元素值相等，则为True，否则为False
x==y

tensor([[[False, False],
         [ True,  True]],

        [[False, False],
         [False, False]],

        [[False, False],
         [False, False]]])

对张量中的所有元素求和，会产生一个单元素张量

In [49]:
x.sum()

tensor(66.)

# 数据预处理

举一个例子，我们首先(**创建一个人工数据集，并存储在CSV（逗号分隔值）文件**)`../data/house_tiny.csv`中。以其他格式存储的数据也可以通过类似的方式进行处理。下面我们将数据集按行写入CSV文件中。

In [79]:
import os
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

要**从创建的CSV文件中加载原始数据集**，我们导入`pandas`包并调用`read_csv`函数。该数据集有四行三列。其中每行描述了房间数量（“NumRooms”）、巷子类型（“Alley”）和房屋价格（“Price”）。

In [81]:
import pandas as pd
data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN   21205


# 练习时间

In [87]:
x = torch.tensor(3.0)
y = torch.tensor(4.0)
print(x+y)
print(x)
print(x*y)
print(x/y)
print(x**y)

tensor(7.)
tensor(3.)
tensor(12.)
tensor(0.7500)
tensor(81.)


In [90]:
z = torch.arange(12).reshape(2,6)

In [92]:
print(z)
z=z.T
print(z)

tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])
tensor([[ 0,  6],
        [ 1,  7],
        [ 2,  8],
        [ 3,  9],
        [ 4, 10],
        [ 5, 11]])


In [93]:
z.reshape(3,4)

tensor([[ 0,  6,  1,  7],
        [ 2,  8,  3,  9],
        [ 4, 10,  5, 11]])