# 数据操作

## take函数

- take函数从Tensor取值，
    - 按照Storage的索引取值
```python
    Tensor.take(indices) -> Tensor      # 成员函数
    torch.take(indices) -> Tensor        # 全局函数 
```

In [326]:
import torch
t = torch.Tensor([
    [1, 2, 3],
    [4, 5, 6],
])
index = torch.tensor([0,2,3,4,5])    
print(t.take(index))
print(torch.take(t, index))

tensor([1., 3., 4., 5., 6.])
tensor([1., 3., 4., 5., 6.])


## put_与set_函数

- 输入与修改Tensor的值

1. set_函数
    - 替代
```python
    set_(source=None, storage_offset=0, size=None, stride=None) -> Tensor
```
- 参数
    - source (Tensor or Storage): 设置的源
    - storage_offset (int, optional): 源的偏移位置
    - size (torch.Size, optional): 返回的尺寸，
    - stride (tuple, optional):  期望的步长，缺省是C连续的步长。

In [327]:
import torch
t = torch.Storage([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

t2 = torch.Tensor(2, 3)  # 原来的被替代
t3 = t2.set_(source=t, storage_offset=2, size=(2, 2), stride=(2, 1))
print(t2, t3)

tensor([[3., 4.],
        [5., 6.]]) tensor([[3., 4.],
        [5., 6.]])


2. put_函数
    - 修改

```python
    put_(indices, tensor, accumulate=False) -> Tensor
```

- 参数：
    - indices (LongTensor): 1维索引, 不需要使用命名参数。
    - tensor (Tensor): 替换的新值
    - accumulate (bool): 是否累加

In [328]:
import torch
t2 = torch.Tensor([
    [1, 2, 3],
    [4, 5, 6],
])

index = torch.LongTensor([2, 3])  # 替代的位置  
new_values = torch.Tensor([[77], [88]])    # 必须与index一样的元素数
t3 = t2.put_(index, new_values)
print(t2)
print(t3)

tensor([[ 1.,  2., 77.],
        [88.,  5.,  6.]])
tensor([[ 1.,  2., 77.],
        [88.,  5.,  6.]])


In [329]:
import torch
t2 = torch.Tensor([
    [1, 2, 3],
    [4, 5, 6],
])

index = torch.LongTensor([2, 3])  # 替代的位置  
new_values = torch.Tensor([[77], [88]])    # 必须与index一样的元素数
t3 = t2.put_(index, new_values, accumulate=True)
print(t2)
print(t3)

tensor([[ 1.,  2., 80.],
        [92.,  5.,  6.]])
tensor([[ 1.,  2., 80.],
        [92.,  5.,  6.]])


## expand与expand_as函数

- 扩大原来张量的维数。
    - as以已有的Tensor维数为目标。
    - expand的原来的张量智能维度长为1的才能扩展，扩展原理不增加原来的数据，而是把stride修改为0，反复指向同一个数据位置。

```python
    expand(*sizes) -> Tensor
```

In [330]:
import torch
t = torch.Tensor([
    [1],
    [4],
])
print(t.shape)
print(t.expand(2, 5))    # 2可以使用-1，表示不修改第一维的长度（长度不为1的都不能扩展）
print(t.expand(-1, 5))    # 2可以使用-1，表示不修改第一维的长度

torch.Size([2, 1])
tensor([[1., 1., 1., 1., 1.],
        [4., 4., 4., 4., 4.]])
tensor([[1., 1., 1., 1., 1.],
        [4., 4., 4., 4., 4.]])


## trunc函数

- trunc函数是截断，是对原来数据集取整后放回。

```python
    Tensor.trunc_() -> Tensor
    torch.trunc() -> Tensor
```

In [331]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6],
    [4.7, 5.8, 6.2],
])

print(t.trunc())   # 取整

tensor([[1., 2., 3.],
        [4., 5., 6.]])


## permute函数

- 维度重新排列

```python
    permute(*dims) -> Tensor
```

In [332]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6],
    [4.7, 5.8, 6.2],
])

print(t.permute(1, 0))   # 行列互换，2维就只能是0，1，三维一次类推， 可以使用负数按照反方向使用
print(t.permute(-1, -2)) 

tensor([[1.5000, 4.7000],
        [2.4000, 5.8000],
        [3.6000, 6.2000]])
tensor([[1.5000, 4.7000],
        [2.4000, 5.8000],
        [3.6000, 6.2000]])


## flip函数

- flip函数与permute函数形式类似
    - 用来反转矩阵

In [333]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6],
    [4.7, 5.8, 6.2],
])

print(t.flip(1, 0))     
print(t.flip(-1, -2)) 
print(t.flip(0))   # 按照行翻转
print(t.flip(1))    # 按照列翻转

tensor([[6.2000, 5.8000, 4.7000],
        [3.6000, 2.4000, 1.5000]])
tensor([[6.2000, 5.8000, 4.7000],
        [3.6000, 2.4000, 1.5000]])
tensor([[4.7000, 5.8000, 6.2000],
        [1.5000, 2.4000, 3.6000]])
tensor([[3.6000, 2.4000, 1.5000],
        [6.2000, 5.8000, 4.7000]])


## unfold函数

- 对原有Tensor按照指定参数展开

```python
    unfold(dimension, size, step) -> Tensor
```

- 参数：
    - dimension (int): 在哪个维上展开
    - size (int): 展开的大小
    - step (int): 展开的步长

In [334]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

print(t.unfold(1, 2, 1))    # 按照列(就是每行)展开[1.5, 2.4, 3.6] 展开大小为2, 步长为1

tensor([[[1.5000, 2.4000],
         [2.4000, 3.6000],
         [3.6000, 4.7000]],

        [[4.7000, 5.8000],
         [5.8000, 6.2000],
         [6.2000, 7.8000]]])


In [335]:
print(t.unfold(0, 2, 2))    # 按照行（就是每列）展开[1.5, 2.4, 3.6] 展开大小为2, 步长为1

tensor([[[1.5000, 4.7000],
         [2.4000, 5.8000],
         [3.6000, 6.2000],
         [4.7000, 7.8000]]])


## unbind函数

- 维数收缩，或者删除一维

```python
    Tensor.unbind(dim=0) -> seq
    torch.unbind(dim=0) -> seq
```

In [336]:
import torch
t = torch.tensor(
    [
        [
            [1.5000, 4.7000],
            [2.4000, 5.8000],
            [3.6000, 6.2000],
            [4.7000, 7.8000]
        ]
    ]
)
print(t.unbind(dim=0))

(tensor([[1.5000, 4.7000],
        [2.4000, 5.8000],
        [3.6000, 6.2000],
        [4.7000, 7.8000]]),)


In [337]:
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])
print(t.unbind(dim=0))
print(t.unbind(dim=1))

(tensor([1.5000, 2.4000, 3.6000, 4.7000]), tensor([4.7000, 5.8000, 6.2000, 7.8000]))
(tensor([1.5000, 4.7000]), tensor([2.4000, 5.8000]), tensor([3.6000, 6.2000]), tensor([4.7000, 7.8000]))


## sort函数

- 排序

```python
    Tensor. sort(dim=-1, descending=False) -> (Tensor, LongTensor)
    torch. sort(dim=-1, descending=False) -> (Tensor, LongTensor)
```

In [338]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])
print(t.sort(dim=0, descending=True))
print(t.sort(dim=1, descending=False))
print(t)

torch.return_types.sort(
values=tensor([[4.7000, 5.8000, 6.2000, 7.8000],
        [1.5000, 2.4000, 3.6000, 4.7000]]),
indices=tensor([[1, 1, 1, 1],
        [0, 0, 0, 0]]))
torch.return_types.sort(
values=tensor([[1.5000, 2.4000, 3.6000, 4.7000],
        [4.7000, 5.8000, 6.2000, 7.8000]]),
indices=tensor([[0, 1, 2, 3],
        [0, 1, 2, 3]]))
tensor([[1.5000, 2.4000, 3.6000, 4.7000],
        [4.7000, 5.8000, 6.2000, 7.8000]])


## select函数

- 数据选取

```python
    select(dim, index) -> Tensor
```

- 参数：
    -  dim (int): 维数
    - index (int): 索引

In [339]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

print(t.select(dim=1, index=1))   # 等价于 t[ :, 1], 
print(t[:, 1])

tensor([2.4000, 5.8000])
tensor([2.4000, 5.8000])


In [340]:
import torch
t = torch.Tensor(2,3,4,5)
print(t.select(dim=1, index=1))   # 等价于 t[ :, 1,  :,  :]
print(t[ :, 1,  :,  :])

tensor([[[ 3.6841e-34,  1.4013e-45,  2.5684e-34,  1.4013e-45, -8.4239e+29],
         [-6.7587e+10,  3.6841e-34,  1.4013e-45,  2.5684e-34,  1.4013e-45],
         [-4.1976e+12, -3.8982e+26,  3.6841e-34,  1.4013e-45,  2.5684e-34],
         [ 1.4013e-45,  1.7442e+28,  6.4513e+10,  3.6841e-34,  1.4013e-45]],

        [[ 3.5379e-33,  1.4013e-45,  2.5913e-34,  1.4013e-45, -2.4605e-30],
         [ 1.8904e-13,  3.5379e-33,  1.4013e-45,  2.5684e-34,  1.4013e-45],
         [ 3.3660e+34,  1.9663e-25,  3.5379e-33,  1.4013e-45,  2.5684e-34],
         [ 1.4013e-45, -1.2724e+13, -5.3310e-18,  3.5409e-33,  1.4013e-45]]])
tensor([[[ 3.6841e-34,  1.4013e-45,  2.5684e-34,  1.4013e-45, -8.4239e+29],
         [-6.7587e+10,  3.6841e-34,  1.4013e-45,  2.5684e-34,  1.4013e-45],
         [-4.1976e+12, -3.8982e+26,  3.6841e-34,  1.4013e-45,  2.5684e-34],
         [ 1.4013e-45,  1.7442e+28,  6.4513e+10,  3.6841e-34,  1.4013e-45]],

        [[ 3.5379e-33,  1.4013e-45,  2.5913e-34,  1.4013e-45, -2.4605e-30],
      

In [341]:
import torch
i = torch.tensor(
    [[0, 1, 1],
     [2, 0, 2]])
v = torch.tensor([3, 4, 5], dtype=torch.float32)
sp = torch.sparse_coo_tensor(i, v)  

print(sp.coalesce().indices())

tensor([[0, 1, 1],
        [2, 0, 2]])


## index_select函数

- 使用索引选择
    - 按照索引在指定维度查找，是select的增强版本

```python
    index_select(dim, index) -> Tensor
```

- 参数：
    - dim选择的维数，
    - index选择索引，index支持多个查找

In [342]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

print(t.index_select(1,  torch.tensor([1,2])))   # 选择列（dim=1表示列），选择1与2列，等价于t[:, [1,2]]
print(t[:, [1,2]])

tensor([[2.4000, 3.6000],
        [5.8000, 6.2000]])
tensor([[2.4000, 3.6000],
        [5.8000, 6.2000]])


## index_put_与index_put函数

- 按照索引设置值。

```python
    index_put_(indices, value, accumulate=False) -> Tensor
```

- 参数：
    - indices (tuple of LongTensor): 用来索引张量的元组，元组的元素是张量
    - value (Tensor): 需要设置的值，必须与张量类型相同
    - accumulate (bool): 累加（True）还是替代（False）？
- 说明
    - `tensor.index_put_(indices, value)` 与 `tensor[indices] = value`等价。
    

In [343]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

print(
    t.index_put( 
        indices=(torch.tensor([0, 0, 0, 1]), torch.tensor([1, 2, 3, 1])),   # 前面表示与后面形成一个定位坐标
        values = torch.Tensor([0,0,0,0]),    # 匹配上面的长度
        accumulate=False
    )
)   


tensor([[1.5000, 0.0000, 0.0000, 0.0000],
        [4.7000, 0.0000, 6.2000, 7.8000]])


## index_fill与index_fill_函数

- 填充数据到张量

```python
    index_fill_(dim, index, val) -> Tensor
```

- 参数：
    - dim (int): 索引所在维度
    - index (LongTensor): 索引
    - val (float): 需要填充的值


In [344]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

print(t.index_fill(1, torch.LongTensor([1, 2]), 88))   # 按照列，填充1与2列

tensor([[ 1.5000, 88.0000, 88.0000,  4.7000],
        [ 4.7000, 88.0000, 88.0000,  7.8000]])


## index_add与index_add_函数

- 与index_fill一样，差别就是运算不同，使用的是add累加操作

```python
    index_add_(dim, index, tensor) -> Tensor
```

- 参数：
    - dim (int): 索引的维度
    - index (LongTensor)：索引
    - source：与index与dim指定的形状一样：文档中是tensor，实际上是source

In [345]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

v = torch.Tensor([[88, 99], [66, 77]])
print(
    t.index_add(dim=1, index=torch.LongTensor([1, 2]), source=v)
)   # 按照列加，对1与2列添加

tensor([[  1.5000,  90.4000, 102.6000,   4.7000],
        [  4.7000,  71.8000,  83.2000,   7.8000]])


## index_copy与index_copy_函数

- 实际是index_fill与index_put功能融合版本,使用方式类似于index_add

In [346]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

v = torch.Tensor([[88, 99], [66, 77]])
print(
    t.index_copy(dim=1, index=torch.LongTensor([1, 2]), source=v)
)   # 按照列加，对1与2列添加

tensor([[ 1.5000, 88.0000, 99.0000,  4.7000],
        [ 4.7000, 66.0000, 77.0000,  7.8000]])


## gather函数

- 

```python
     gather(dim, index) -> Tensor
```

- 参数：
    - dim：维度，应该是int
    - index：索引，应该是Tensor

In [347]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

print(
    t.gather(
        dim=1, 
        index=torch.LongTensor(
            [
                [1, 1, 1],            # 表示取得第1列，取三次, 取值智能是行的所用   ：dim=1，就需要index.shape[0] = t.shape[0]
                [0, 0, 0]           # 表述第二行的第0列。取三次
            ]
        )
    )
)   # 按照列加，对1与2列添加

tensor([[2.4000, 2.4000, 2.4000],
        [4.7000, 4.7000, 4.7000]])


In [348]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

print(
    t.gather(
        dim=0, 
        index=torch.LongTensor(
            [
                [1, 1, 0, 0],    # 这列的列对应原来的列，行可以随意，但行只能是0与1
                [1, 0, 1, 1],
                [1, 1, 0, 0] 
            ]
        )
    )
)   # 按照列加，对1与2列添加

tensor([[4.7000, 5.8000, 3.6000, 4.7000],
        [4.7000, 2.4000, 6.2000, 7.8000],
        [4.7000, 5.8000, 3.6000, 4.7000]])


## chunk函数

-  把张量按照指定的维度分多块。

```python
    chunk(chunks, dim=0) -> List of Tensors
```

- 参数
    - chunks：指定块数
    - dim：指定维度

In [349]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

print(t.chunk(chunks=2, dim=1))  # 按照列分成2块

(tensor([[1.5000, 2.4000],
        [4.7000, 5.8000]]), tensor([[3.6000, 4.7000],
        [6.2000, 7.8000]]))


## apply_函数

- 遍历每个元素，对元素进行定制处理，这是numpy与pandas中的套路。
    - 调用的是函数或者可调用对象。
    - 可调用函数接受每个元素，返回值替代原来张量中的值。

In [350]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

def deal_data(e):
    print(e, type(e))
    return e + 100


t.apply_(deal_data)

1.5 <class 'float'>
2.4000000953674316 <class 'float'>
3.5999999046325684 <class 'float'>
4.699999809265137 <class 'float'>
4.699999809265137 <class 'float'>
5.800000190734863 <class 'float'>
6.199999809265137 <class 'float'>
7.800000190734863 <class 'float'>


tensor([[101.5000, 102.4000, 103.6000, 104.7000],
        [104.7000, 105.8000, 106.2000, 107.8000]])

## where函数

- 查询函数，与numpy与pandas中的where一个套路。

```python
    where(condition, y) -> Tensor
```

- 参数：
    -  condition (BoolTensor): 逻辑张量BoolTensor；
    - y (Tensor): 备选张量值，如果条件为True，就返回被操作的张量，否则返回y指定的张量
        - 类似其他语言中的三目运算；
        - Python中就是解析表达式；
- where函数操作定义：
    - $ \text{out}_i = \begin{cases}
                                \text{input}_i & \text{if } \text{condition}_i \\
                                \text{y}_i & \text{otherwise} \\
                            \end{cases}$

- 上面的操作都是按位操作的，y的形状必须与被操作张量一致, 或者标量。

In [351]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

y = torch.Tensor([
    [8, 8, 8, 8],
    [8, 8, 8, 8],
])

r = t.where(condition=(t>3), other=torch.Tensor([9]))
print(r)

tensor([[9.0000, 9.0000, 3.6000, 4.7000],
        [4.7000, 5.8000, 6.2000, 7.8000]])


In [352]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

r = torch.where(t>3)  # 返回条件为真的元素的下标
print(r)

(tensor([0, 0, 1, 1, 1, 1]), tensor([2, 3, 0, 1, 2, 3]))


## scatter函数

- 修改数据，类似put_与index_put等函数，

```python
    scatter_(dim, index, src) -> Tensor
```

- 参数：
    - dim (int): the axis along which to index：索引的维度。
    - index (LongTensor): the indices of elements to scatter：索引
    - src (Tensor): the source element(s) to scatter：需要写入的数据
    - value (float): the source element(s) to scatter：与src选一。

- scatter函数还包含
    - scatter_add函数，使用都一样，唯一差别是累加的功能。

In [353]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])
y = torch.Tensor([
    [8, 8, 8, 8],
    [8, 8, 8, 8],
])
print(
    t.scatter_(
        dim=1, 
        index=torch.LongTensor(    # shape必须与被操作Tensor一样
            [
                [1,2],      # 因为dim=1，这里的1，2，3就是列的索引
                [3,3]
            ]),
        src=y
    )
)

tensor([[1.5000, 8.0000, 8.0000, 4.7000],
        [4.7000, 5.8000, 6.2000, 8.0000]])


In [354]:
# 在numpy中等价的操作
import numpy as np
t = np.array([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

t[0, [1, 2]] =[8, 8]
t[1, [3, 3]] = [8,8]
print(t)

[[1.5 8.  8.  4.7]
 [4.7 5.8 6.2 8. ]]


## masked_\*\*函数

- 类似逻辑下标

In [358]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

t[t>3] =100
print(t)

tensor([[  1.5000,   2.4000, 100.0000, 100.0000],
        [100.0000, 100.0000, 100.0000, 100.0000]])


- 这个系列函数包含3个函数：
    - masked_fill_
    - masked_scatter_
    - masked_select
    
- masked就是遮罩的意思，在处理数据过程中只对masked的范围的数据处理。

1. masked_select函数

```python
    masked_select(mask) -> Tensor
        - mask (BoolTensor): 逻辑Tensor
```

In [359]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

mask = t>3
print(mask)
print(t.masked_select(mask))
print(t[mask])

tensor([[False, False,  True,  True],
        [ True,  True,  True,  True]])
tensor([3.6000, 4.7000, 4.7000, 5.8000, 6.2000, 7.8000])
tensor([3.6000, 4.7000, 4.7000, 5.8000, 6.2000, 7.8000])


2. masked_scatter_函数
```python
    masked_scatter_(mask, source)
        - mask (BoolTensor): 逻辑Tensor
        - source (Tensor): 替换值的张量
```

- 说明：
    - source (Tensor)张量是flat即可。不是flat的也会转换为flat，然后替换。

In [367]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

source = torch.Tensor([
    [88, 88, 88, 88],
    [99, 99, 99, 99],
])
mask = t>3

r = t.masked_scatter(mask=mask,  source=source)
print(r)

tensor([[ 1.5000,  2.4000, 88.0000, 88.0000],
        [88.0000, 88.0000, 99.0000, 99.0000]])


In [368]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

mask = t>3

r = t.masked_scatter(mask=mask,  source=torch.Tensor([100,200,300,400,500,600,700]))
print(r)

tensor([[  1.5000,   2.4000, 100.0000, 200.0000],
        [300.0000, 400.0000, 500.0000, 600.0000]])


3. masked_fill_函数
```python
    masked_fill_(mask, value)
        - mask (BoolTensor): 逻辑Tensor
        - value (float): 需要填充的值
```

In [364]:
import torch
t = torch.Tensor([
    [1.5, 2.4, 3.6, 4.7],
    [4.7, 5.8, 6.2, 7.8],
])

source = torch.Tensor([
    [88, 88, 88, 88],
    [99, 99, 99, 99],
])
mask = t>3

r = t.masked_fill(mask=mask,  value=66)
print(r)

tensor([[ 1.5000,  2.4000, 66.0000, 66.0000],
        [66.0000, 66.0000, 66.0000, 66.0000]])


----