In [9]:
import torch

张量表示一个数值组成的数组，这个数组可能有多个维度。

In [10]:
x = torch.arange(12)
print(x)

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])


可以通过shape访问张量的shape和张量中元素的总数

In [12]:
print(x.shape)
print(x.numel())  # tensor的方法，里面元素的总数

torch.Size([12])
12


如果要改变一个张量的形状，而不改变元素数量和元素值，我们可以调用reshape函数

In [14]:
x = x.reshape(3, 4)
print(x)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


使用全0，全1,，其他常量的张量，也可以从特定分布中随机采样的数字创建张量

In [16]:
x = torch.ones((2,3,4))
print(x)

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])


In [18]:
x = torch.zeros((2, 3, 4))
print(x)

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])


可以通过列表来创建一个张量

In [21]:
x = torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]])
print(x)
print(x.shape)

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])
torch.Size([3, 4])


张量的标准算数运算，+，-，\*，和\*\* 都是按照元素运算

In [26]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2,2,2,2])
x+y, x-y, x*y, x/y, x**y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

可以将多个装量连结在一起

In [31]:
x = torch.arange(12, dtype=torch.float32).reshape((3,4))
y = torch.tensor([[2.0, 1, 4, 3],[1, 2, 3, 4], [4, 3,2,1]])
print(torch.cat((x, y),dim=0))  # 一维合并（在行合并）
print(torch.cat((x, y), dim=1))  # 二维合并（在列合并）

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [ 2.,  1.,  4.,  3.],
        [ 1.,  2.,  3.,  4.],
        [ 4.,  3.,  2.,  1.]])
tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
        [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
        [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]])


通过逻辑运算符，构造二元张量

In [33]:
print(x)
print(y)
x == y

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])
tensor([[2., 1., 4., 3.],
        [1., 2., 3., 4.],
        [4., 3., 2., 1.]])


tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

对张量的所有元素进行求和，只会产生一个元素的张量

In [36]:
x.sum()

tensor(66.)

形状不同的装量，可以通过广播机制来执行按元素操作。

In [40]:
x = torch.arange(3).reshape((3, 1))
y = torch.arange(2).reshape((1, 2))
print(x, y)
print(x.shape)
print(y.shape)

print(x+y)
print((x+y).shape)

tensor([[0],
        [1],
        [2]]) tensor([[0, 1]])
torch.Size([3, 1])
torch.Size([1, 2])
tensor([[0, 1],
        [1, 2],
        [2, 3]])
torch.Size([3, 2])


## 元素访问

可以通过[-1]来访问最后一个元素，可以用[1:3]选择第二个和第三个元素

In [50]:
x = torch.arange(12, dtype=torch.float32).reshape((3,4))
y = torch.tensor([[2.0, 1, 4, 3],[1, 2, 3, 4], [4, 3,2,1]])

In [51]:
x[-1], x[1:3]

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

可以通过制定索引来修改矩阵

In [52]:
# x[1:2] = 9  # 第1行的所有列，都修改为9
x[1,2] = 9  # 将第1行第2列元素，值改为9

In [53]:
print(x)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])


可以给张量中多个元素赋相同的值

In [54]:
x[0:2, :] = 12  # 第0， 1行，所有列赋值为12
print(x)

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])


防止为创建新的变量，节省内存。这里可执行原地操作。

In [59]:
before = id(y)
y = y + x
print(before)
print(id(y))
print(id(y) == before)

2157881703808
2157881705536
False


In [60]:
z = torch.zeros_like(y)  # 根据y的shape创建都为0的z
print(id(z))
z[:] = x + y  # 法一：x[:] = x+ y
print(id(z))

2157885019328
2157885019328


In [63]:
print(id(x))
x += y   # 法二：x += y 也是原地操作，节省内存
print(id(x))

2157872227200
2157872227200


可以将张量，转为numpy的ndarray类型。

In [65]:
print(x.numpy())
print(type(x.numpy()))

[[136. 134. 140. 138.]
 [134. 136. 138. 140.]
 [ 96. 105. 114. 123.]]
<class 'numpy.ndarray'>


可以将size大小(元素个数)为1的张量转换为Python的标量

In [66]:
a = torch.tensor([3.5])
print(a)
print(a.item())  # 只有一个元素的张量，才能转为python的标量
print(float(a))
print(int(a))

tensor([3.5000])
3.5
3.5
3


In [67]:
x.item()

ValueError: only one element tensors can be converted to Python scalars

## 数据预处理

创建一个人工数据集，不存储在csv中，逗号分割。

In [117]:
import os 

os.makedirs(os.path.join('..', 'data'), exist_ok=True)  # r如果存在，不抛异常。
data_file = os.path.join('..', 'data', 'house_tiny.csv')

with open(data_file, 'w') as f:
    f.write('Numrooms,Alley,Price\n')  # 列名
    f.write('nan,Pave,127500\n')
    f.write('2,nan,10600\n')
    f.write('4,nan,178100\n')
    f.write('nan,nan,14000\n')

In [118]:
import pandas as pd 

data = pd.read_csv(data_file)
print(data)

   Numrooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN   10600
2       4.0   NaN  178100
3       NaN   NaN   14000


In [119]:
import numpy as np

### 处理缺失数据

典型方法：插值和删除。 这里使用差值的方法。

In [123]:
inputs,outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs)
print(outputs)
print("mean....:", inputs.mean())

inputs = inputs.fillna(inputs.mean())
print(inputs)
print(outputs)

   Numrooms Alley
0       NaN  Pave
1       2.0   NaN
2       4.0   NaN
3       NaN   NaN
0    127500
1     10600
2    178100
3     14000
Name: Price, dtype: int64
mean....: Numrooms    3.0
dtype: float64
   Numrooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
0    127500
1     10600
2    178100
3     14000
Name: Price, dtype: int64


  print("mean....:", inputs.mean())
  inputs = inputs.fillna(inputs.mean())


但是有个问题，只将dtype类型为数值字段的nan填充，如何处理其他列的nan。

In [126]:
# 我们将allay的所有取值，变为一个特征，数据离散化。然后allay_pave, allay_nan
# dummy_na=False则会忽略na。
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   Numrooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


In [139]:
X,y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(X, y)  # python浮点数默认float64, 但计算慢，对于深度学习来说，一般float32

tensor([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]], dtype=torch.float64) tensor([127500,  10600, 178100,  14000])


Q & A

In [146]:
a = torch.arange(12)
print(id(a))
b = a.reshape((3, 4))  # reshape返回的变量的地址
b[1] = 11
print(a)

2157948509568
tensor([ 0,  1,  2,  3, 11, 11, 11, 11,  8,  9, 10, 11])


tensor 数学上的定义，其实和数组一样。

## 拓展 numpy和 pandas