# Python 包的学习
- 突然感觉自己平时对 python 包的探索都散落一地 / 不成系统 / 用完就忘，想在这里记录一下
- 之所以用 Jupyter Notebook 来记录，是因为这样可以更方便地展示代码
- 不是很想系统记录，而且这些包的基本知识不想赘述，就写一写平时见到的一些新函数吧
- 一些记录来自 GPT，不一定准确，但是至少能跑（x

也可以参考 [zhr 的笔记](https://zhroyn.github.io/MyNotes/Python/%E7%AC%AC%E4%B8%89%E6%96%B9%E5%BA%93/OpenCVnote.html)

***

# Numpy

In [1]:
import numpy as np

### np.cumsum()
- 用于计算给定数组的累积和

In [2]:
"""
numpy.cumsum(a, axis=None, dtype=None, out=None)
参数说明：
- a：输入的数组。
- axis：指定计算累积和的轴的方向，默认为None，表示将数组展开并计算所有元素的累积和。
- dtype：输出的数组的数据类型，默认为None，表示保持输入数组的数据类型。
- out：将计算结果存储到此输出数组中。
"""
# 例子
arr = np.array([1, 2, 3, 4, 5])
cumulative_sum = np.cumsum(arr)
print(cumulative_sum)
print("也就是：[1, 1+2, 1+2+3, 1+2+3+4, 1+2+3+4+5]")

[ 1  3  6 10 15]
也就是：[1, 1+2, 1+2+3, 1+2+3+4, 1+2+3+4+5]


### np.clip()
- 很简单，就是剪切，限制数组的范围

In [3]:
arr = np.array([1, 2, 3, 4, 5])
clip_arr = np.clip(arr, 2, 4)
print(clip_arr)

[2 2 3 4 4]


### np.c_() 和 np.r_()
- 用于连接两个数组，c_ 是按列连接，r_ 是按行连接

In [4]:
a = np.array([[1, 2, 3], [7, 8, 9]])
b = np.array([[4, 5, 6], [1, 2, 3]])
c = np.c_[a, b] # 按 col，列合并
print("c =", c)
r = np.r_[a, b]
print("r =", r) # 按 row，行合并

c = [[1 2 3 4 5 6]
 [7 8 9 1 2 3]]
r = [[1 2 3]
 [7 8 9]
 [4 5 6]
 [1 2 3]]


In [5]:
# 创建一个 5x5 的数组
a = np.arange(25).reshape((5, 5))
print(a)
print(a[4:, :])

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
[[20 21 22 23 24]]


### np.expand_dims() 和 np.squeeze()
- 与 pytorch 中的 unsqueeze() 和 squeeze() 类似，用于扩展和压缩维度，用法也类似

***

# Matplotlib

***

# Pytorch

In [6]:
import torch

### torch.sum()
- 很简单的求和函数，不简单之处在于 axis(dim) 的理解，在此为例展开讲解坐标理解法，如图

    ![image.png](https://s2.loli.net/2024/02/06/xCYrnWzX4SotZeG.png)
  - 对哪个 axis 求和，即对哪个坐标轴进行压缩
- `keepdims=True` 能够保持维度

In [7]:
a = torch.arange(1, 31).reshape(2, 3, 5)
print(a)
b = a.sum(axis=0)
print(b)

tensor([[[ 1,  2,  3,  4,  5],
         [ 6,  7,  8,  9, 10],
         [11, 12, 13, 14, 15]],

        [[16, 17, 18, 19, 20],
         [21, 22, 23, 24, 25],
         [26, 27, 28, 29, 30]]])
tensor([[17, 19, 21, 23, 25],
        [27, 29, 31, 33, 35],
        [37, 39, 41, 43, 45]])


### torch.max() & troch.min()
- PyTorch 的 `max()` 和 `min()` 与 NumPy 有点不一样
  - 最后需要加 `[0]` 或 `.values` 返回值
  - 加 `[1]` 或 `.indices` 返回索引

In [8]:
a = torch.arange(1, 31).reshape(2, 3, 5)
print(a)
print()
print(a.max(dim=1))
print()
print(a.max(dim=1)[0])
print()
print(a.max(dim=1).values)
print()
print(a.max(dim=1)[1])
print()
print(a.max(dim=1).indices)

tensor([[[ 1,  2,  3,  4,  5],
         [ 6,  7,  8,  9, 10],
         [11, 12, 13, 14, 15]],

        [[16, 17, 18, 19, 20],
         [21, 22, 23, 24, 25],
         [26, 27, 28, 29, 30]]])

torch.return_types.max(
values=tensor([[11, 12, 13, 14, 15],
        [26, 27, 28, 29, 30]]),
indices=tensor([[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]]))

tensor([[11, 12, 13, 14, 15],
        [26, 27, 28, 29, 30]])

tensor([[11, 12, 13, 14, 15],
        [26, 27, 28, 29, 30]])

tensor([[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]])

tensor([[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]])


### torch.unsqueeze() & torch.squeeze()
- `unsqueeze()` 函数起升维的作用，参数 `dim` 表示在哪个地方加一个维度
  - 例如，shape 为 `(x,y,z)` 的张量在 `dim=0` 加一个维度就变成 `(1,x,y,z)`
  - 不过，`unsqueeze()` 也可以通过 `b = a[None, :, :]` 的方式实现 `shape (x, y)` 变为 `shape (1, x, y)`
- `squeeze()` 函数则相反，如果不指定维度，则删除所有 shape 为 $1$ 的维度，否则删除指定维度（需要能够删除，即 shape 为 $1$）

In [9]:
input=torch.arange(0,6)
print(input)
print(input.shape)
print(input.unsqueeze(0))
print(input.unsqueeze(0).shape)
print(input.squeeze())

tensor([0, 1, 2, 3, 4, 5])
torch.Size([6])
tensor([[0, 1, 2, 3, 4, 5]])
torch.Size([1, 6])
tensor([0, 1, 2, 3, 4, 5])


### torch.item() 和 torch.tolist()
- 分别是转换为标量和转换为 python 内置列表

In [10]:
x = torch.tensor([5])
num = x.item()
print(num)  # 输出: 5
x = torch.tensor([[1, 2], [3, 4]])
lst = x.tolist()
print(lst)  # 输出: [[1, 2], [3, 4]]

5
[[1, 2], [3, 4]]


### torch.gather()
- 作用：沿着由 dim 指定的轴收集数值
- 有点点复杂，看例子

In [11]:
input = torch.tensor([[0.0, 0.1, 0.2, 0.3],
                      [1.0, 1.1, 1.2, 1.3],
                      [2.0, 2.1, 2.2, 2.3]]) # shape [3,4]
length = torch.LongTensor([[2,2,2,2],
                           [1,1,1,1],
                           [0,0,0,0],
                           [0,1,2,0]]) # shape [4,4]
out = torch.gather(input, dim=0, index=length)
print(out)

input = torch.tensor([[0.0, 0.1, 0.2, 0.3],
                      [1.0, 1.1, 1.2, 1.3],
                      [2.0, 2.1, 2.2, 2.3]]) # shape [3,4]
length = torch.LongTensor([[2,2,2,2],
                           [1,1,1,1],
                           [0,1,2,0]]) # shape [3,4]
out = torch.gather(input, dim=1, index=length)
print(out)

tensor([[2.0000, 2.1000, 2.2000, 2.3000],
        [1.0000, 1.1000, 1.2000, 1.3000],
        [0.0000, 0.1000, 0.2000, 0.3000],
        [0.0000, 1.1000, 2.2000, 0.3000]])
tensor([[0.2000, 0.2000, 0.2000, 0.2000],
        [1.1000, 1.1000, 1.1000, 1.1000],
        [2.0000, 2.1000, 2.2000, 2.0000]])


### torch.expand() & torch.repeat()
- `expand()` 是扩展到指定维度，但内存上不会拷贝
- `repeat()` 是指定复制维度几次

In [12]:
x = torch.tensor([1, 2, 3])
y = x.repeat(2, 1)
x = x.expand(2, 3)
print(x, '\n', y)
x[0][0] = -1 # both x[0][0] and x[1][0] changed
y[0][0] = -1 # only y[0][0] changed
print('\n', x, '\n', y)

a = torch.randn(1, 2, 3)
print(a)
# a = a.expand(2, 3, 3) # RuntimeError: The expanded size of the tensor must match the existing size  at non-singleton dimension

tensor([[1, 2, 3],
        [1, 2, 3]]) 
 tensor([[1, 2, 3],
        [1, 2, 3]])

 tensor([[-1,  2,  3],
        [-1,  2,  3]]) 
 tensor([[-1,  2,  3],
        [ 1,  2,  3]])
tensor([[[ 1.6970, -0.1985, -0.5661],
         [-1.5805, -0.8865, -0.5352]]])


## torch.nn


### nn.InstanceNorm()
- 可以参考 [nn.InstanceNorm2d 和 nn.BatchNorm2d比较](https://blog.csdn.net/qq_36892712/article/details/132131106)
- 对每个样本（实例）的特征进行归一化。适用于每个样本的特征分布不同的情况，如图像风格转换等任务

### nn.BatchNorm2d()

### nn.LayerNorm()

***

# Pandas
- `pandas` 软件包是 Python 中常用的数据分析工具中，pandas 可以与 tensor 兼容。

### pd.loc() 和 pd.iloc()
- 用于选取行和列，前者是用标签，后者是用 index
- 如果是取单个元素，可以替换为 pd.at() 和 pd.iat()

In [13]:
import pandas as pd
import numpy as np

s1 = pd.Series(np.random.randn(6), index=list('abcdef'))
print(s1)
print(s1.loc['b'])
print(s1.loc['e':'f']) # 标签切片，注意包含末端！
print(s1.iloc[1:2]) # index 切片，同 python indice

a   -0.348153
b    0.428440
c    0.207352
d    0.719478
e    1.064853
f    0.300518
dtype: float64
0.4284403322970918
e    1.064853
f    0.300518
dtype: float64
b    0.42844
dtype: float64


### pd.get_dummies()
- 将信息转换为 one-hot 编码的数据

In [14]:
import pandas as pd
df = pd.DataFrame([
            ['green' , 'A'],
            ['red'   , 'B'],
            ['blue'  , 'A']])
df.columns = ['color',  'class']

print(df)
df = pd.get_dummies(df) # 也可以指定某一列 pd.get_dummies(df.color)
print(df)

   color class
0  green     A
1    red     B
2   blue     A
   color_blue  color_green  color_red  class_A  class_B
0       False         True      False     True    False
1       False        False       True    False     True
2        True        False      False     True    False
