# 张量  
张量表示一个由数值组成的数组，这个数组可以由多个维度，具有一个轴的张量对应向量，两个轴的张量对应矩阵  

In [23]:
import torch
# 使用arange创建一个行向量
x = torch.arange(10)
print(x, type(x))
print(x[1], type(x[1]))
# 通过shape属性访问张量的形状
print(f"x的形状为： {x.shape}")

# 获得张量中元素的总数，即形状的所有元素乘积，可以检查它的大小(size)
print(f"x的size为：{x.size()}")
#  获得张量的元素总数
print(f"x的元素个数为：{x.numel()}")

# 通过reshape改变元素形状
x = x.reshape(2, 5)
print(f"通过reshape改变元素形状：{x}")

# 不需要通过手动指定每个维度来改变形状，得知宽度或者高度后可以自动计算得出
x = x.reshape(5, -1)
print(f"不自己具体计算另一维度：{x}")

# 创建全0和1的张量
xx0 = torch.zeros((3, 2))
print(f"全0的张量{xx0}")

# 创建全1的张量
xx1 = torch.ones((2, 3))
print(f"全1的张量{xx1}")

# 通过随机取样创建张量
xx_random = torch.randn(2, 2)
print(f"随机取样获得的张量为{xx_random}")

# 创建指定值的张量
xx_d = torch.tensor([[1, 3, 2], [23, 4, 1]])
print(f"指定张量{xx_d}")

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) <class 'torch.Tensor'>
tensor(1) <class 'torch.Tensor'>
x的形状为： torch.Size([10])
x的size为：torch.Size([10])
x的元素个数为：10
通过reshape改变元素形状：tensor([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])
不自己具体计算另一维度：tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])
全0的张量tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])
全1的张量tensor([[1., 1., 1.],
        [1., 1., 1.]])
随机取样获得的张量为tensor([[-0.9826, -0.9436],
        [-0.7990, -0.5505]])
指定张量tensor([[ 1,  3,  2],
        [23,  4,  1]])


# 运算符

In [33]:
x = torch.tensor([1, 3, 4, 6])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x/y, x**y

(tensor([3, 5, 6, 8]),
 tensor([-1,  1,  2,  4]),
 tensor([ 2,  6,  8, 12]),
 tensor([0.5000, 1.5000, 2.0000, 3.0000]),
 tensor([ 1,  9, 16, 36]))

In [34]:
xx = torch.arange(12, dtype=torch.float32).reshape((3, 4))
yy = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((xx, yy), dim=0), torch.cat((xx, yy), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [35]:
x == y

tensor([False, False, False, False])

In [36]:
x.sum()

tensor(14)

# 广播机制  
通过复制元素来扩展一个或两个数组，以便在转换后，两个向量具有相同的形状

In [37]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b, a+b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]),
 tensor([[0, 1],
         [1, 2],
         [2, 3]]))

# 索引和切片  
张量中的元素可以像数组一样通过索引访问  
**第一个元素的索引是0，最后一个元素的索引是-1**

In [46]:
xx[1, 2] = 111
xx

tensor([[  0.,   1.,   2.,   3.],
        [  4.,   5., 111.,   7.],
        [  8.,   9.,  10.,  11.]])

# 节省内存
执行一些操作可能会导致为结果新分配内存，例如：X = X + Y，我们将取消引用x指向的张量，而是指向新分配的内存处的张量  
**python中的id函数提供了内存中引用对象确切地址**

In [48]:
before = id(x)
x = y + x
id(x)==before

False

**执行原地操作**  
使用切片表示法将操作的结果分配给先前分配的数组

In [51]:
z = torch.zeros_like(xx)
print("id(z):", id(z))
z[:]=xx+y
print("id(z):", id(z))

id(z): 1801803230208
id(z): 1801803230208


**如果后续计算中没有重复使用x，可以使用x[:] = x + y 或者 x += y减少内存开销**

In [55]:
# numpy数组和pytorch的tensor张量的相互转换
A = xx.numpy()
B = torch.tensor(A)
print(type(A), type(B))

<class 'numpy.ndarray'> <class 'torch.Tensor'>


In [58]:
# 要将大小为1的张量转换为python标量，可以调用item函数或python的内置函数
a_1 = torch.tensor([1.6])
a_1, a_1.item(), float(a_1), int(a_1)

(tensor([1.6000]), 1.600000023841858, 1.600000023841858, 1)

# 数据预处理
## 读取数据集

In [62]:
import os

# 创建文件目录
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') # 列名
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [81]:
import pandas as pd

data = pd.read_csv(data_file)
print(data)
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# 将不是数字的对应位置的值替换成平均值，即用同一列的均值替换NaN项
inputs = inputs.fillna(inputs.mean(axis = 0, numeric_only=True))
print(inputs)

# 对于inputs中类别值或者离散值，将NaN视为一个类
inputs = pd.get_dummies(inputs, dummy_na = True)
print(inputs)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000
   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


## 转换为张量格式  

In [83]:
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

## 向量点积 

In [84]:
x = torch.tensor([1, 2, 3])
print(torch.dot(x, x))

tensor(14)


## 矩阵向量积

In [86]:
A = torch.tensor([[1, 3, 5], [2, 4, 6]])
print(torch.mv(A, x.T))

tensor([22, 28])


## 矩阵乘法  

In [96]:
x = torch.randint(0, 5, (2, 3))
print(x)
print(torch.mm(x, x.T))

tensor([[3, 1, 3],
        [2, 4, 2]])
tensor([[19, 16],
        [16, 24]])


## 范式  

In [100]:
u = torch.tensor([1, 2, 3], dtype = float)
print(torch.norm(u))

# 等价于
u_2 = torch.dot(u, u.T)
print(torch.sqrt(u_2))

tensor(3.7417, dtype=torch.float64)
tensor(3.7417, dtype=torch.float64)
