## 数据操作

In [1]:
import torch
torch.cuda.is_available()

True

##### 张量表示一个数值组成的数组，这个数组可能有多个维度

In [42]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

##### 我们可以通过张量的shape属性来访问张量的形状和张量中元素的总数

In [43]:
x.shape

torch.Size([12])

In [44]:
x.numel()

12

##### 要改变一个张量的形状而不改变元素数量和元素值，我们可以调用reshape函数

In [45]:
X = x.reshape(3, 4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

##### 使用全0，全1，其他常量或者特定分布中随机采样的数字
##### zeros((H,W,L)) ,L表示长度（行数），W表示宽度（深度），H表示高度（列数）

In [46]:
torch.zeros((2,3,4)) ## 表示2行3纵4列

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [47]:
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [48]:
torch.randn(3,4)

tensor([[-0.4702, -0.7481, -0.5994,  0.3374],
        [ 1.0276, -0.1551, -0.9852, -0.1793],
        [-1.3049, -0.0147,  0.1721,  0.6641]])

##### 也可以通过提供包含数值的Python列表（或嵌套列表）来为所需张量中的每个元素赋予确定值

In [49]:
torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

##### 常见的标准算术运算符（+，-，*，/和**）都可以被升级为按元素运算

In [50]:
x = torch.tensor([1,2,3,4])
y = torch.tensor([4,3,2,1])
x+y, x-y, x*y, x/y, x**y # **运算符是求幂运算

(tensor([5, 5, 5, 5]),
 tensor([-3, -1,  1,  3]),
 tensor([4, 6, 6, 4]),
 tensor([0.2500, 0.6667, 1.5000, 4.0000]),
 tensor([1, 8, 9, 4]))

In [51]:
torch.exp(x)

tensor([ 2.7183,  7.3891, 20.0855, 54.5981])

##### 我们也可以把多个张量连结在一起
##### dim=0时，是按行进行连接的，dim=1时是按列进行连接的，默认是按行进行连接的

In [52]:
X = torch.arange(12, dtype = torch.float32).reshape((3,1,4))
Y = torch.tensor([[[2.0, 1, 4, 3]], [[1, 2, 3, 4]], [[4, 3, 2, 1]]])
Z = torch.randn((3,1,4))
X, Y, Z
# torch.cat((X,Y,Z),dim=0), torch.cat((X,Y,Z),dim=1) ,torch.cat((X,Y,Z),dim=2)## dim=0时，是按行进行连接的，dim=1时是按列进行连接的，默认是按行进行连接的

(tensor([[[ 0.,  1.,  2.,  3.]],
 
         [[ 4.,  5.,  6.,  7.]],
 
         [[ 8.,  9., 10., 11.]]]),
 tensor([[[2., 1., 4., 3.]],
 
         [[1., 2., 3., 4.]],
 
         [[4., 3., 2., 1.]]]),
 tensor([[[-1.1868,  1.8158, -1.1139,  0.4395]],
 
         [[ 1.6352,  0.8161,  0.8873, -1.3573]],
 
         [[ 3.4009, -1.2380, -0.5669, -1.7974]]]))

In [53]:
torch.cat((X,Y,Z),dim=0).shape, torch.cat((X,Y,Z),dim=1).shape,torch.cat((X,Y,Z),dim=2).shape,torch.cat((X,Y)).shape

(torch.Size([9, 1, 4]),
 torch.Size([3, 3, 4]),
 torch.Size([3, 1, 12]),
 torch.Size([6, 1, 4]))

##### 可以通过逻辑运算符构建二元张量
##### 对张量中的所有元素求和会产生一个只有一个元素的张量

In [54]:
X == Y, X.sum(),X.mul(2)

(tensor([[[False,  True, False,  True]],
 
         [[False, False, False, False]],
 
         [[False, False, False, False]]]),
 tensor(66.),
 tensor([[[ 0.,  2.,  4.,  6.]],
 
         [[ 8., 10., 12., 14.]],
 
         [[16., 18., 20., 22.]]]))

##### 即使形状不同，仍然可以通过调用广播机制（broadcasting mechanism）来执行按元素操作
##### 以下示例中的两个张量分别是$（3*1）$和$（1*2）$，原则上不可以进行相加的操作的，但是广播机制会将a和b都扩充成（3*2）的格式，其中a相当于将列数复制一份给第2列，b相当于将行数复制一份给第2行
## <font color='red'>广播机制的连个参数中必须要有一个行数或者列数为1才可以，因为它无法进行超过一行或者一列的复制 </font>

In [55]:
a = torch.arange(3).reshape((3,1))
b = torch.arange(2).reshape((1,2))
a,b,a+b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]),
 tensor([[0, 1],
         [1, 2],
         [2, 3]]))

##### 可以使用[-1]来获取最后一个的元素，可以使用[1:3]来获取第二个和第三个元素

In [56]:
X[-1],X[1:3] ## 这里显示的是X的倒数第一行，以及X的第2行和第3行的元素

(tensor([[ 8.,  9., 10., 11.]]),
 tensor([[[ 4.,  5.,  6.,  7.]],
 
         [[ 8.,  9., 10., 11.]]]))

##### 除了读取以外，还可以通过指定索引将元素写入张量或者矩阵中,可以指定某一行或某一列进行批量操作

In [57]:
X[1,0,1] = 9
X[2] = 8
X

tensor([[[0., 1., 2., 3.]],

        [[4., 9., 6., 7.]],

        [[8., 8., 8., 8.]]])

##### 运行一些操作时可能会导致会为新的结果分配新的内存
##### 以下示例在执行Y = Y+X后为Y分配了新的内存空间，所以前后两次的内存空间id不一致

In [58]:
before = id(Y)
Y = X + Y
id(Y) == before

False

##### 上述的重新分配空间的问题，为节省空间可以执行一些原地操作，原地操作不会为参数分配新的内存空间
##### 原地操作有两种:
> * X[ : ] = X + Y
> * X += Y

In [59]:
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))
before = id(Y)
Y += X
print(id(Y) == before)

id(Z): 3112597298528
id(Z): 3112597298528
True


##### 可以通过一些操作实现张量和Numpy之间的转换

In [60]:
A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

##### 大小为1的张量可以转换为python的标量
> * 这其中就可使用x.item()进行转换
> * 也可以使用float(x),int(x)这种方式进行强制转换

In [61]:
a = torch.tensor([3.5])
a, a.item(),type(a.item()),float(a),int(a)

(tensor([3.5000]), 3.5, float, 3.5, 3)

##### m, n = (x[:, 2:] > numbwe).nonzore(as_tuple = False) ,number为某个数值
##### 这行代码输出的m是从第3列后所有大于number的行数下标，n代表所有的列数下标，但是列将会从第3列进行重新从0开始计数

In [62]:
x = torch.arange(20, dtype = torch.float32).reshape((4,5))
m , n = (x[:, 2:] > 2).nonzero(as_tuple=False).T
m , n

(tensor([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3]),
 tensor([1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]))

In [63]:
x[m, n+2, None]

tensor([[ 3.],
        [ 4.],
        [ 7.],
        [ 8.],
        [ 9.],
        [12.],
        [13.],
        [14.],
        [17.],
        [18.],
        [19.]])

##### o,p = X[:,2:].max(1,keepdim=True)中o输出从第3列开始之后的最大值，p表示存储该最大值的列数下标，但是存储的列是从第3三列重新开始从0进行计数的

In [64]:
o,p = x[:,2:].max(1,keepdim=True)
o,p

(tensor([[ 4.],
         [ 9.],
         [14.],
         [19.]]),
 tensor([[2],
         [2],
         [2],
         [2]]))

In [65]:
M = torch.arange(72, dtype=torch.float32).reshape((3,4,6))

In [66]:
M[..., ::2, ::2], M[..., 1::2, ::2], M[..., ::2, 1::2], M[..., 1::2, 1::2]

(tensor([[[ 0.,  2.,  4.],
          [12., 14., 16.]],
 
         [[24., 26., 28.],
          [36., 38., 40.]],
 
         [[48., 50., 52.],
          [60., 62., 64.]]]),
 tensor([[[ 6.,  8., 10.],
          [18., 20., 22.]],
 
         [[30., 32., 34.],
          [42., 44., 46.]],
 
         [[54., 56., 58.],
          [66., 68., 70.]]]),
 tensor([[[ 1.,  3.,  5.],
          [13., 15., 17.]],
 
         [[25., 27., 29.],
          [37., 39., 41.]],
 
         [[49., 51., 53.],
          [61., 63., 65.]]]),
 tensor([[[ 7.,  9., 11.],
          [19., 21., 23.]],
 
         [[31., 33., 35.],
          [43., 45., 47.]],
 
         [[55., 57., 59.],
          [67., 69., 71.]]]))

In [67]:
torch.cat([M[..., ::2, ::2], M[..., 1::2, ::2], M[..., ::2, 1::2], M[..., 1::2, 1::2]],1)

tensor([[[ 0.,  2.,  4.],
         [12., 14., 16.],
         [ 6.,  8., 10.],
         [18., 20., 22.],
         [ 1.,  3.,  5.],
         [13., 15., 17.],
         [ 7.,  9., 11.],
         [19., 21., 23.]],

        [[24., 26., 28.],
         [36., 38., 40.],
         [30., 32., 34.],
         [42., 44., 46.],
         [25., 27., 29.],
         [37., 39., 41.],
         [31., 33., 35.],
         [43., 45., 47.]],

        [[48., 50., 52.],
         [60., 62., 64.],
         [54., 56., 58.],
         [66., 68., 70.],
         [49., 51., 53.],
         [61., 63., 65.],
         [55., 57., 59.],
         [67., 69., 71.]]])

In [68]:
import numpy as np
IouTh = np.linspace(
            0.5, 0.95, int(np.round((0.95 - 0.5) / 0.05)) + 1, endpoint=True
        )
IouTh

array([0.5 , 0.55, 0.6 , 0.65, 0.7 , 0.75, 0.8 , 0.85, 0.9 , 0.95])

In [69]:
import os
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
print(data_file)
with open(data_file, 'w')as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

..\data\house_tiny.csv


In [70]:
import pandas as pd
data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


为了处理缺失的数据，典型的方法包括<font color='red'>插值</font>和<font color='red'>删除</font>，以下，考虑插值

In [71]:
inputs, outputs = data.iloc[:,0:2], data.iloc[:,2]## 取值操作
inputs = inputs.fillna(inputs.mean(numeric_only=True)) ## numeric_only表示仅选择对函数有效的列，fillna表示使用某个值填充所有的空值
inputs

Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,


对于inputs中的类别值和离散值，将‘NaN’视为一个类别

In [72]:
inputs =pd.get_dummies(inputs,dummy_na=True)
inputs

Unnamed: 0,NumRooms,Alley_Pave,Alley_nan
0,3.0,1,0
1,2.0,0,1
2,4.0,0,1
3,3.0,0,1


In [73]:
X,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
X,y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

In [74]:
a = torch.arange(12)
b =  a.reshape((3,4))
b[:] = 2
a

tensor([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [75]:
c = a.view(3,4)
c[:] = 1
a

tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])