<a href="https://colab.research.google.com/github/balderman12/ML/blob/main/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 数据操作与数据预处理

## 数据操作

In [None]:
import torch # 导入pytorch
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
x.shape # x的属性,返回一个向量

torch.Size([12])

In [None]:
x.numel() # 返回x的元素个数

12

In [None]:
torch.zeros((2, 3, 4)) # 创建一个全零矩阵


tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [None]:
torch.ones((2, 3, 4))  # 创建一个全一矩阵

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [None]:
torch.tensor([[1.0, 2, 4, 8], [2.0, 5, 6, 8]])  # 手动创建一个二维数组

tensor([[1., 2., 4., 8.],
        [2., 5., 6., 8.]])

常见的标准算数运算符(+,-,\*,/和 \*\*)都可以被升级为按元素运算

In [None]:
x=torch.tensor([1.0, 2, 4, 8])
y=torch.tensor([2, 2, 2, 2])
x+y,x-y,x*y,x/y,x**y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

In [None]:
torch.exp(x) # 做指数运算

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

In [None]:
x=torch.arange(12,dtype=torch.float32).reshape((3,4))
y=torch.tensor([[2.0, 2, 5, 6],[1, 2, 3, 4], [5, 6, 7, 8]])
torch.cat((x,y),dim=0), torch.cat((x,y),dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  2.,  5.,  6.],
         [ 1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  2.,  5.,  6.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  5.,  6.,  7.,  8.]]))

通过逻辑运算符构建二元张量

In [None]:
x == y

tensor([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]])

即使两个张量形状不同，我们仍可以通过调用*广播机制（broadcasting mechanism）*来执行按元素操作。注意这个机制可能导致一些奇怪的问题。

In [None]:
a=torch.arange(3).reshape((3,1))
b=torch.arange(2).reshape((1,2))
a+b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [None]:
x

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [None]:
x[-1] # 最后一行
x[1:3] # 第二行到第三行，左开右闭

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

按元素赋值，按区域赋值

In [None]:
x[1,2]=9
x

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

In [None]:
x[0:2]=12
x

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

运行一些操作可能会导致为新结果分配内存，这不利于处理大数据

In [None]:
before = id(y)
y=y+x
id(y)==before

False

**执行原地操作**

In [None]:
z=torch.zeros_like(y) #创建一个和y大小相同的张量z
z

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

In [None]:
print('id(z):',id(z))
z[:]=x+y  # 原地操作就相当远对z元素的每个元素进行操作
print('id(z):',id(z))


id(z): 140010864292096
id(z): 140010864292096


如果后续计算没有重复使用x，我们也可以使用x[:]=x+y，或者x+=y来减少操作的内存开销。

In [None]:
before = id(x)
x+=y
id(x)==before

True

在深度学习中最常见的不是pytorch和tensorflow，而是numpy

In [None]:
A=x.numpy()  # 将x转为numpy数据类型
B=torch.tensor(A) # 将numpy类型数据转为pytorch
type(A),type(B)

(numpy.ndarray, torch.Tensor)

将大小为1的张量转为python标量

In [None]:
a=torch.tensor([3.5])
a,a.item(),float(a),int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

## 数据预处理