# PyTorch基础数据操作

In [1]:
import torch

In [2]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [3]:
x.shape

torch.Size([12])

In [4]:
x.device

device(type='cpu')

In [4]:
x.numel()  # number of elements

12

In [5]:
X = x.reshape(3,4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [8]:
torch.zeros((2,3,4))
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [9]:
torch.tensor([[1,2,3],[4,5,6]])

tensor([[1, 2, 3],
        [4, 5, 6]])

In [14]:
# 常见标准运算（+ - * / **）都是按元素运算
x = torch.tensor([1.0,2,3])  ## 在tensor中任意一个数加一个小数点，就可以把tensor类型转化为float浮点型
y = torch.tensor([10,10,10])
x + y, x * y, x / y, y ** x

(tensor([11., 12., 13.]),
 tensor([10., 20., 30.]),
 tensor([0.1000, 0.2000, 0.3000]),
 tensor([  10.,  100., 1000.]))

In [17]:
# tensor的拼接
x = torch.arange(10,dtype=torch.float32).reshape(2,5)
y = torch.zeros(10,dtype=torch.float32).reshape(2,5)
x,y

(tensor([[0., 1., 2., 3., 4.],
         [5., 6., 7., 8., 9.]]),
 tensor([[0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]]))

In [20]:
torch.cat([x,y],dim=0), torch.cat([x,y],dim=1) # dim=0按行拼接，dim=1按列拼接

(tensor([[0., 1., 2., 3., 4.],
         [5., 6., 7., 8., 9.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]]),
 tensor([[0., 1., 2., 3., 4., 0., 0., 0., 0., 0.],
         [5., 6., 7., 8., 9., 0., 0., 0., 0., 0.]]))

In [21]:
# 逻辑运算符
x == y

tensor([[ True, False, False, False, False],
        [False, False, False, False, False]])

In [24]:
# 即时形状不同（但维数得相同），也可以通过“广播机制”来进行运算（按元素）
# 具体做法是，通过复制得到各自的一个大张量，然后再逐元素运算
# 比如一个(3,1)一个(1,2)，则需要先都统一成(3,2)的矩阵，再计算
a = torch.arange(3).reshape(3,1)
b = torch.arange(2).reshape(1,2)
a,b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [25]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [82]:
a = torch.arange(6).reshape(3,2)
b = torch.arange(2)
c = b.reshape(2,1)
d = b.reshape(1,2)
a,b,c,d

(tensor([[0, 1],
         [2, 3],
         [4, 5]]),
 tensor([0, 1]),
 tensor([[0],
         [1]]),
 tensor([[0, 1]]))

In [85]:
# * torch.dot torch.matmul torch.mm这些乘法都是怎样的：

a*b
# tensor([[0, 1],
#         [0, 3],
#         [0, 5]])

torch.dot(a,b)
# RuntimeError: 1D tensors expected, but got 2D and 1D tensors
    
torch.matmul(a,b)
# tensor([1, 3, 5])

torch.mm(a,b)
# RuntimeError: mat2 must be a matrix

torch.matmul(a,c)
# tensor([[1],
#         [3],
#         [5]])

torch.mm(a,c)
# tensor([[1],
#         [3],
#         [5]])

torch.matmul(a,d)
torch.mm(a,d)
# RuntimeError: mat1 and mat2 shapes cannot be multiplied (3x2 and 1x2)

torch.matmul(a,d.T)
torch.mm(a,d.T)
# tensor([[1],
#         [3],
#         [5]])

tensor([[1],
        [3],
        [5]])

### 总结一下：
- `*`就是逐元素相乘，采用broadcast机制，还可以使用torch.mul
- `.dot`只能用于两个1D向量做内积
- `.mm`只能用于两个2D的矩阵相乘，必须符合矩阵乘法的规则
- `.matmul`用途最广泛，兼容性最强。可以对1D，2D以及更高维数据进行乘法。当其中有1D时，采用broadcast，当都是2D时使用矩阵乘法规则。还可以使用 `@`符号。

In [None]:
# 赋值，可以对一个点或者一个区域赋值
x
# tensor([[0., 1., 2., 3., 4.],
#         [5., 6., 7., 8., 9.]])
x[1,2] = 100
x
# tensor([[  0.,   1.,   2.,   3.,   4.],
#         [  5.,   6., 100.,   8.,   9.]])
x[0, :] = 100
x
# tensor([[100., 100., 100., 100., 100.],
#         [  5.,   6., 100.,   8.,   9.]])

In [33]:
p = torch.arange(5)
orig_id = id(p)  # id是python自带函数，查询变量的内存地址，相当于指针
p = p + 1  # 这样赋值，会分配新的内存地址，导致占用更多内存
new_id = id(p)
print(orig_id)
print(new_id)

4694868480
5230995712


In [34]:
p = torch.arange(5)
orig_id = id(p)
p[:] = p + 1  # 使用:符号来赋值，就可以原地进行赋值，不占用新内存
new_id = id(p)
print(orig_id)
print(new_id)

5230929408
5230929408


In [35]:
p = torch.arange(5)
orig_id = id(p)
p += 1  # 使用 += 这样的方式在运算，也可以进行原地赋值
new_id = id(p)
print(orig_id)
print(new_id)

5231238656
5231238656


In [36]:
# 转换为numpy张量，从numpy张量转化成torch的tensor
A = x.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

In [41]:
# 将大小为1的张量，转换为Python标量
# 两种方式：.item 或者 float()/int()
a = torch.tensor(3.5)
a, a.item, float(a), int(a)

(tensor(3.5000), <function Tensor.item>, 3.5, 3)

In [None]:
# 当x是一个向量或张量时，就没法使用.item了
x.item()
# ValueError: only one element tensors can be converted to Python scalars

# 数据预处理

In [56]:
import pandas as pd
columns = ['A','B','C']
data = [[1.,2.,'good'],[4,5],[10,10]]
df = pd.DataFrame(data, columns=columns)
df

Unnamed: 0,A,B,C
0,1.0,2.0,good
1,4.0,5.0,
2,10.0,10.0,


In [62]:
df.values

array([[1.0, 2.0, 'good'],
       [4.0, 5.0, None],
       [10.0, 10.0, None]], dtype=object)

In [58]:
inputs = pd.get_dummies(df,dummy_na=True)  # 通过这种方法，可以将缺失值转化成0，1特征（一般是非数值特征这样做，数值化的特征就直接fillna即可）
inputs

Unnamed: 0,A,B,C_good,C_nan
0,1.0,2.0,1,0
1,4.0,5.0,0,1
2,10.0,10.0,0,1


In [61]:
inputs.values

array([[ 1.,  2.,  1.,  0.],
       [ 4.,  5.,  0.,  1.],
       [10., 10.,  0.,  1.]])