In [2]:
import torch

In [2]:
# 创建一个tensor向量
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [3]:
# tensor的形状
x.shape

torch.Size([12])

In [5]:
# 计算张量中元素的总数  num是数量的简写，el 是element的简写
x.numel()

12

In [8]:
# 改变张量的形状  注意：调整之后包含的元素的总数是不变的
x = x.reshape(3,4)
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [9]:
# reshape自动推导维度  不想计算的可以写成-1
x = x.reshape(4, -1)
x

tensor([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]])

In [10]:
### 常量初始化
x = torch.Tensor([2.0,3.0])
x

tensor([2., 3.])

In [11]:
x = torch.zeros(2,3)
x

tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [14]:
x = torch.ones(2,3)
x

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [16]:
# 正态分布
x = torch.randn(2,3)
x

tensor([[ 1.2651,  0.5375,  0.5005],
        [-0.2406,  1.0201,  0.2007]])

In [17]:
# 创建一个三维矩阵  (2,3,4)  可以理解为创建一个2维的3行4列的矩阵
# 维度可以数最开始的[的数量
x = torch.randn(2,3,4)
x

tensor([[[-0.0786, -0.9928, -1.6374, -0.2695],
         [ 1.4423,  3.4908, -0.5053,  0.2021],
         [-0.7863,  0.7694, -0.6712,  0.3231]],

        [[ 0.9712, -0.7460,  0.2226, -0.5333],
         [-1.3778, -0.9509, -0.6298, -0.2372],
         [-0.9376, -0.3913, -1.5066, -0.1583]]])

### 按元素运算
算数运算符操作两个张量，计算方式就是按元素运算
按元素运算的意思是，张量对应位置的元素进行算数运算

In [21]:
x = torch.arange(12)
y = torch.arange(12,24)
# 按元素求和
x+y, x-y

(tensor([12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34]),
 tensor([-12, -12, -12, -12, -12, -12, -12, -12, -12, -12, -12, -12]))

In [23]:
### 指数运算
x = torch.exp(x)
x

tensor([2.7183e+00, 1.5154e+01, 1.6182e+03, 5.2849e+08, 5.1484e+23,        inf,
               inf,        inf,        inf,        inf,        inf,        inf])

In [25]:
## 拼接
x = torch.arange(12).reshape(3,4)
y = torch.arange(12,24).reshape(3,4)

# 3，4
# 3，4
# 按照0维度拼接，就是0维数相加  6，4
c1 = torch.cat((x,y), dim=0)
c1

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]])

In [26]:
## 按照1维数相加，结果 3，8
c2 = torch.cat((x,y), dim=1)
c2

tensor([[ 0,  1,  2,  3, 12, 13, 14, 15],
        [ 4,  5,  6,  7, 16, 17, 18, 19],
        [ 8,  9, 10, 11, 20, 21, 22, 23]])

### 广播机制
在按元素计算的时候，两个张量形状可能不同，但是pytorch对此做了优化，可以对形状不同的张量补充元素然后变成同样的形状，最后计算

In [30]:
x = torch.arange(3).reshape(3,1)
y = torch.arange(2).reshape(1,2)
x+y

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [33]:
### N维张量，切片/索引条件至多N个，一个条件争对一个维度

x = torch.arange(60).reshape(3,4,5)
x

tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9],
         [10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29],
         [30, 31, 32, 33, 34],
         [35, 36, 37, 38, 39]],

        [[40, 41, 42, 43, 44],
         [45, 46, 47, 48, 49],
         [50, 51, 52, 53, 54],
         [55, 56, 57, 58, 59]]])

In [34]:
x[:,1,:]  # 所有矩阵中第二行的元素

tensor([[ 5,  6,  7,  8,  9],
        [25, 26, 27, 28, 29],
        [45, 46, 47, 48, 49]])

In [35]:
x[2,:,:] # 第二个矩阵的所有元素

tensor([[40, 41, 42, 43, 44],
        [45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59]])

In [37]:
x[2,1,1] # 第三个矩阵的第二行第二列的元素

tensor(46)

In [38]:
x[2,1,1:4] # 第三个矩阵的第二行第二列的元素到第四列的元素

tensor([46, 47, 48])

In [40]:
### 内存分配问题
x = torch.arange(12).reshape(3,4)
y = torch.arange(12,24).reshape(3,4)

print(id(x))
x = x+y
print(id(x))

# 上面存在问题是张量计算后，x重新在内存中开辟了一段空间
# 这在普通计算中没有问题，但是如果在训练过程中，参数两会非常大，因此，为了内容的有效利用，新的x最好能覆盖掉老的x，方式有两种
x = torch.arange(12).reshape(3,4)
y = torch.arange(12,24).reshape(3,4)

# 方式1: 使用 +=
x += y
print(id(x))
# 方式2: 使用[:]
x[:] = x+y
print(id(x))

1215647714912
1215647727232
1215647718432
1215647718432


In [44]:
## 张量和ndarray相互转换
import numpy as np

arr = np.arange(12)
tensor = torch.arange(12)
print(type( arr), type(tensor))

tensor_to_arr = tensor.numpy()
arr_to_tensor = torch.from_numpy(arr)
print(type( tensor_to_arr), type(arr_to_tensor))

# 转换后对原来数据的修改也会对新数据产生影响
arr[0]= 500
print(arr)
print(arr_to_tensor)

<class 'numpy.ndarray'> <class 'torch.Tensor'>
<class 'numpy.ndarray'> <class 'torch.Tensor'>
[500   1   2   3   4   5   6   7   8   9  10  11]
tensor([500,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11])


In [18]:
### 使用pandas预处理数据，并转化成张量
# 1. 生成原始数据
import pandas as pd
import numpy as np
import os
if not os.path.exists('data'):
    os.mkdir('data')

data_file = os.path.join('data', 'house_tiny.csv')
if os.path.exists(data_file):
    os.remove(data_file)
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

data = pd.read_csv(data_file)

#2. 数据处理：填充缺失数据或者删除与NAN的行，本次样本较少，做填充
### 把数据拆一下：输入和标签  前两列作为输入，后一列作为标签
### iloc输入两个参数，第一个参数是行，第二个参数是列
inputs, outputs = data.iloc[:,0:2], data.iloc[:,2]

## 对数字列进行均值填充
inputs['NumRooms'] = inputs['NumRooms'].fillna(inputs['NumRooms'].mean())

### 对于离散值列，用众数填充
inputs = pd.get_dummies(inputs, dummy_na=True)
inputs

# 3. 把数据转换成张量
x = torch.tensor(inputs.to_numpy(dtype=np.float32))
y = torch.tensor(outputs.to_numpy(dtype=np.float32))
print(x, y)

tensor([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]]) tensor([127500., 106000., 178100., 140000.])
