#### torch.function和tensor.function本质上是一样的

In [1]:
import torch

#### 如果function名字后面多加了一个"_"就是修改自身的内容，否则就是返回一个副本

In [2]:
x = torch.Tensor([1,2,3])

In [3]:
x

tensor([1., 2., 3.])

In [5]:
x.add_(1)

tensor([2., 3., 4.])

In [6]:
x

tensor([2., 3., 4.])

#### torch.Tensor和torch.tensor是不一样的，Tensor是empty和tensor的结合，empty在产生随机值的时候是需要同时给出dtype的
#### Tensor是默认用FloatTensor dtype, tensor是推断最适合的dtype
#### Tensor(1)是给出一个一维的随机值，tensor(1)就是给出1值

In [7]:
torch.Tensor(1)

tensor([-15.5397])

In [8]:
torch.tensor(1)

tensor(1)

In [9]:
import numpy as np

In [11]:
np.empty((2,1))

array([[0.00000000e+000],
       [7.66167459e-312]])

#### torch.rand是均匀分布，torch.randn是标准正太分布

#### torch.size()和torch.shape是一样的
#### numel(tensor)是计算tensor里面元素的个数的 - number element
#### view 和 reshape 作用相同，只是view出来的对象是原来的对象共享内存的，也就是里面的元素如果改变的话，原来的数据也是会改变的，reshape是返回副本，view(-1)是展平
#### item是返回标量
#### dim()是查看有几个维度

In [17]:
x = torch.randn(2,2)

In [18]:
x

tensor([[ 0.8969, -0.4493],
        [-0.8164, -1.5378]])

In [19]:
y = x.view(-1)

In [20]:
y

tensor([ 0.8969, -0.4493, -0.8164, -1.5378])

In [21]:
y[0] = 1 

In [22]:
y

tensor([ 1.0000, -0.4493, -0.8164, -1.5378])

* 这里的x就已经改变了

In [23]:
x

tensor([[ 1.0000, -0.4493],
        [-0.8164, -1.5378]])

#### Mask反正就是一个Bool型数组

In [24]:
mask = x>0

In [25]:
mask

tensor([[ True, False],
        [False, False]])

#### masked_select是把true的值选取出来

In [27]:
torch.masked_select(x,mask)

tensor([1.])

In [30]:
x

tensor([[ 1.0000, -0.4493],
        [-0.8164, -1.5378]])

#### 获取非0元素的横纵坐标，下面这个就是四个元素的横纵坐标

In [29]:
torch.nonzero(x)

tensor([[0, 0],
        [0, 1],
        [1, 0],
        [1, 1]])

#### 这里大概的意思就是定义index来选取元素，index的shape就是最后输出的shape,index里面的内容，如果dim = 0就是按行取
#### 也就是取第几行的元素，而index 元素所在的位置是第几列对应的元素的位置就是取第几列
#### 比如0 1 0 就是取第一行第一个元素，第二行第二元素和第一行第三个元素

In [41]:
index = torch.LongTensor([[0,0]])
a = torch.gather(x,0,index)

#### scatter和gather刚好相反，scatter是填充回去，gather是从里面拿出来

In [38]:
z = torch.zeros(2,2)

In [39]:
z

tensor([[0., 0.],
        [0., 0.]])

In [40]:
index = torch.LongTensor([[0,0]])

In [44]:
z.scatter_(0,index,a)

tensor([[ 1.0000, -0.4493],
        [ 0.0000,  0.0000]])

In [43]:
a

tensor([[ 1.0000, -0.4493]])

#### 逐个元素的操作的英文名字叫做element-wise

In [45]:
x = torch.randn(1,3)
y = torch.randn(3,1)

#### 除法以后再乘再加

In [47]:
torch.addcdiv?

[1;31mDocstring:[0m
addcdiv(input, tensor1, tensor2, *, value=1, out=None) -> Tensor

Performs the element-wise division of :attr:`tensor1` by :attr:`tensor2`,
multiply the result by the scalar :attr:`value` and add it to :attr:`input`.

    Integer division with addcdiv is no longer supported, and in a future release
    addcdiv will perform a true division of :attr:`tensor1` and :attr:`tensor2`.
    The historic addcdiv behavior can be implemented using :func:`floor_divide`
    for integral inputs
    (:attr:`input` + :attr:`value` * :attr:`tensor1` // :attr:`tensor2`)
    and :func:`div` for float inputs
    (:attr:`input` + :attr:`value` * :attr:`tensor1` / :attr:`tensor2`).
    The future addcdiv behavior can be implemented with :func:`true_divide`
    (:attr:`input` + :attr:`value` * torch.true_divide(:attr:`tensor1`,
    :attr:`tensor2`).

.. math::
    \text{out}_i = \text{input}_i + \text{value} \times \frac{\text{tensor1}_i}{\text{tensor2}_i}


The shapes of :attr:`input`, 

In [49]:
torch.addcdiv(torch.rand(1,3),x,y,value = 1)

tensor([[-0.9684,  6.0692,  0.5202],
        [ 1.8168, -4.1906,  0.7733],
        [-6.0507, 24.7901,  0.0584]])

In [51]:
x = torch.randn(2,3)

In [52]:
x

tensor([[ 0.4862,  0.3347,  0.3786],
        [-0.5782, -0.1364,  1.2014]])

#### dim等于多少就是把那个维度归并掉的意思,keepdim = True就是保留维度

In [62]:
print(x.mean(dim = 0))
print(x.mean(dim = 0, keepdim = True))

tensor([-0.0460,  0.0992,  0.7900])
tensor([[-0.0460,  0.0992,  0.7900]])


#### 给出中位数，先排序才能给出

In [54]:
x.median(dim = 0)

torch.return_types.median(
values=tensor([-0.5782, -0.1364,  0.3786]),
indices=tensor([1, 1, 0]))

#### 累积，累加，维度不会变少

In [58]:
x

tensor([[ 0.4862,  0.3347,  0.3786],
        [-0.5782, -0.1364,  1.2014]])

In [56]:
x.cumprod(dim = 1)

tensor([[ 0.4862,  0.1627,  0.0616],
        [-0.5782,  0.0789,  0.0947]])

In [57]:
x.cumsum(dim = 0)

tensor([[ 0.4862,  0.3347,  0.3786],
        [-0.0920,  0.1983,  1.5799]])

#### 所有元素的乘和加

In [59]:
x.sum()

tensor(1.6862)

In [60]:
x.prod()

tensor(0.0058)

#### eq比较两个tensor是否相等，支持broadcast
#### equal是比较shape相不相等
#### max,min(x, axis)如果有指定axis的话就会额外返回下角标
#### topk(x,k,axis)

In [63]:
x

tensor([[ 0.4862,  0.3347,  0.3786],
        [-0.5782, -0.1364,  1.2014]])

In [64]:
x.max(axis = 0)

torch.return_types.max(
values=tensor([0.4862, 0.3347, 1.2014]),
indices=tensor([0, 0, 1]))

In [65]:
torch.max(x,axis = 0)

torch.return_types.max(
values=tensor([0.4862, 0.3347, 1.2014]),
indices=tensor([0, 0, 1]))

* 第一行是top1的值，第二行是top2的值，top几就会返回几行

In [68]:
x.topk(2,axis = 0)

torch.return_types.topk(
values=tensor([[ 0.4862,  0.3347,  1.2014],
        [-0.5782, -0.1364,  0.3786]]),
indices=tensor([[0, 0, 1],
        [1, 1, 0]]))

#### torch中的dot只能针对1-D使用，而numpy的dot则没有这个限制
#### mm是对2-D使用的，bmm则是对3-D使用的
#### View和转置都会导致数值在内存中存储不连续，所以用contiguous(邻近)来把他们弄成是连续的

#### detach 和 with torch.no_grad()都是不再计算tensor的gradient
#### grad_fn是非叶子结点是怎么通过叶子结点计算而来的那个函数

#### 如果是一个标量去调用backward()就不需要传参数了
#### 如果需要梯度累积的话，backward(retain_graph = True)
#### 如果是非标量而是tensor调用backward的话就得再传入gradient参数
#### 雅可比矩阵就是矩阵形式的偏导数，矩阵里面的每个元素都是y和x元素排列组合组成的偏导数