数组与张量的区别：外形和功能几乎一模一样，
但是张量专门为深度学习加入了GPU加速，自动求导，与numpy数组内存共享的功能

数据操作：1.导入数据 2.基本数据操作

In [2]:
import torch #导入Pytorch库

张量表示一个数值组成的数组（有n个维度的）

In [9]:
x = torch.arange(12) #生成一个从0-11的一维数组，是一个向量
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [4]:
x.shape #访问形状，这里显示长度为12的向量

torch.Size([12])

In [5]:
x.numel() #显示元素的种数

12

In [15]:
X = x.reshape(3,4) #修改这个数组的形状，定义为3行4列的矩阵
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [16]:
torch.zeros((2,3,4)) #2批量，3行4列的全0，3维数组

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [17]:
torch.ones((1,5,4)) #1批量，5行4列全1,3维数组

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [7]:
#也可以通过列表生成指定的张量
x = torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]])#二维数组
print(x)
print(x.shape)

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])
torch.Size([3, 4])


In [6]:
torch.tensor([[[2,1,4,3],[1,2,3,4],[4,3,2,1]]]).shape #多套一层列表后变为三维数组

torch.Size([1, 3, 4])

In [8]:
x = torch.tensor([1.0,2,4,8]) #1.0使计算变为浮点运算
y = torch.tensor([2,2,2,2])
x + y, x - y, x * y, x / y, x ** y #在一维数组中基础运算的规则是按各个独立元素运算

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

In [14]:
x = torch.arange(12, dtype = torch.float32).reshape((3,4))
y = torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]])
torch.cat((x,y),dim=0),torch.cat((x,y),dim=1) #cat,dim=0,按行连接数组；cat，dim=1按列连接向量

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [15]:
x == y #通过逻辑运算符可以构建二元张量，快速判断元素关系

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [13]:
x = torch.arange(12, dtype = torch.float32).reshape((3,4))
x.sum() #可以对各个元素进行求和

tensor(66.)

In [16]:
a = torch.arange(3).reshape((3,1))
b = torch.arange(2).reshape((1,2))
a,b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [17]:
a + b #在维度相同的情况下，会通过行或列的复制达到运算条件
#在这个例子中：a的列复制一份，形状变为（3,2），b的行复制两份，形状变为（3,2），然后进行按各个元素的基础运算

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [34]:
x = torch.arange(12, dtype = torch.float32).reshape((3,4))
x,x[-1],x[:,1:3] #访问最后一行，访问第1-2行

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([ 8.,  9., 10., 11.]),
 tensor([[ 1.,  2.],
         [ 5.,  6.],
         [ 9., 10.]]))

In [26]:
x[1,2] = 9 #可以指定修改单个元素
x[-1] = 12 #或选中指定元素批量修改同一个值
x

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [12., 12., 12., 12.]])

In [35]:
before = id(y)
y = y + x
id(y) == before

False

In [40]:
#原地操作
z = torch.zeros_like(y)
print("id(z):",id(z))
z[:] = y + x #方法1：使用切片
#z.add_(y+x) pytorch特有方法也可以，此外 += 也是本地操作符
print(id(z))

id(z): 2608841109808
2608841109808


In [43]:
A = x.numpy()
B = torch.tensor(A)
type(A),type(B) #一个是numpy数组，一个是张量，可以互相转换

(numpy.ndarray, torch.Tensor)

In [46]:
a = torch.tensor([3.5]) #包含单个元素的张量，可以通过float，int等函数转换成python中的普通数
a,float(a),int(a),a.item() # 数值提取函数，提取出的数值类型是float

(tensor([3.5000]), 3.5, 3, 3.5)

数据预处理

In [1]:
import os

#下面创建一个csv文件
os.makedirs(os.path.join("..","data"),exist_ok = True)
data_file = os.path.join("..","data","house_tiny.csv")
with open(data_file,"w") as f:
    f.write("NumRooms,Alley,Price\n") #列名
    f.write("NA,Pave,127500\n") #每行代表一个数据样本
    f.write("2,NA,106000\n")
    f.write("4,Pave,178100\n")
    f.write("NA,Pave,140000\n")

PermissionError: [WinError 5] 拒绝访问。: '..\\data'

In [2]:
import pandas as pd

data = pd.read_csv(data_file) #通过read_csv读取文件，并加载数据集
print(data)

NameError: name 'data_file' is not defined

In [None]:
inputs,outputs = data.iloc[:,0:2],data.iloc[:,2] #input:取前两列，输出第二列
inputs = inputs.fillna(inputs.mean()) #将空值填成均值
print(inputs)

In [None]:
inputs = pd.get_dummies(inputs,dummy_na = True) #将所有NAN设为1，其它为0；这样把所有数据都转换为数值
print(inputs)

In [None]:
x,y = torch.tensor(inputs.values),torch.tensor(outputs.values) #将输入的列数据转换为张量x，输出的列数据转换为张量y
x,y