# Numpy自学教程
___Remark:___ 本自学笔记参照Numpy官方文档

## Numpy中的Array Creation

### Introduction
主要有六种创建matrix的机制
1. 序列转化（list & tuple）
2. 基本的内置函数
3. 复制、连接或改变现有数组
4. 从磁盘读取数组，从标准格式或自定义格式读取
5. 通过使用字符串或缓冲区从原始字节创建数组
6. 使用特殊的库函数（e.g. random）

#### 序列转化
将数组或者元组转化为矩阵

___np.array（x,dtype）:___ x为数组or元组，dtpye是optional的


In [44]:
import numpy as np
a1D = np.array([1, 2, 3, 4])
a1d = np.array([[1,2,3,4]])
a2D = np.array([[1, 2], [3, 4]])
a3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
[a1D,a2D,a3D,a1d]

[array([1, 2, 3, 4]),
 array([[1, 2],
        [3, 4]]),
 array([[[1, 2],
         [3, 4]],
 
        [[5, 6],
         [7, 8]]]),
 array([[1, 2, 3, 4]])]

The history saving thread hit an unexpected error (OperationalError('attempt to write a readonly database')).History will not be written to the database.


**Note:** 一层中括号创建的是 1D 数组，而两层中括号创建的是 2D 数组。根据需要的形状和拼接方式，选择不同的括号嵌套结构。

#### 基本的内置函数
Numpy官方文档有40个构建函数，具体可以参考[Array creation routines](https://numpy.org/doc/stable/reference/routines.array-creation.html#routines-array-creation)，
但总的来说主要可以分为三类
1. 1D arrays
2. 2D arrays
3. nD arrays

以下举例的函数只是简要介绍，具体请参照以上文件。

##### 1D arrays
创建 1D Arrays 的functions（e.g. np.linspace(),np.arrange()）通常需要两个变量：start，stop
- ___np.arange([start,]stop[,step]）:___ 类似于python中的range函数,左开右闭，start=0、step=1(default),一般用于元素为整数的情况
- ___np.linspace(start,stop,num):___ 左闭右闭，生成以start为开始，stop为结束的均分的num个元素组成的1D Array

以下是一些例子：

In [45]:
arr1 = np.arange(5)
arr2 = np.arange(1,6)
arr3 = np.arange(2,3,0.2)
arr4 = np.linspace(0,1,5)

[arr1,arr2,arr3,arr4]

[array([0, 1, 2, 3, 4]),
 array([1, 2, 3, 4, 5]),
 array([2. , 2.2, 2.4, 2.6, 2.8]),
 array([0.  , 0.25, 0.5 , 0.75, 1.  ])]

##### 2D Arrays
2D arrary定义了几个特殊矩阵（e.g. np.eye(),np.diag(),np.vander())，且具有特殊的性质
1. ___np.eye(n[,m=n] [,k=0]):___ 输出除了对角线元素为1，其他都为0的矩阵，m默认=n，默认主对角线
2. ___np.diag(v[,k=0]):___ 若给定对角线元上的元素则输出矩阵，若输入矩阵则输出对角线上的元素，默认主对角线
3. ___np.vander(v[,N=None] [,increasing = False]):___ 输出Vandermonde矩阵，默认从左到右降幂，默认幂从小到大输出 __N=len(x)__ 列

以下为一些例子：

In [14]:
arr1 = np.eye(3)
arr2 = np.eye(2,4)
arr3 = np.diag([1,2,3])
arr4 = np.diag([1,2],1)
d1 = np.diag(arr3)
d2 = np.diag(arr4,1)
arr5 = np.vander([1,2,3,4])
arr6 = np.vander([1,2,3],increasing = True)
arr7 = np.vander([1,2,3],2,increasing = True)
print(d1,d2)
[arr1,arr2,arr3,arr4,arr5,arr6,arr7]

[1 2 3] [1 2]


[array([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]]),
 array([[1., 0., 0., 0.],
        [0., 1., 0., 0.]]),
 array([[1, 0, 0],
        [0, 2, 0],
        [0, 0, 3]]),
 array([[0, 1, 0],
        [0, 0, 2],
        [0, 0, 0]]),
 array([[ 1,  1,  1,  1],
        [ 8,  4,  2,  1],
        [27,  9,  3,  1],
        [64, 16,  4,  1]]),
 array([[1, 1, 1],
        [1, 2, 4],
        [1, 3, 9]]),
 array([[1, 1],
        [1, 2],
        [1, 3]])]

##### __nd Arrays__ 
ndarray是根据所需的形状构建矩阵。ndarray创建函数可以通过指定元组或列表中该维度的维数和长度来创建任何维度的数组。
1. ___np.ones(shape):___ 构建元素全为1的矩阵,shape是一个包含行、列的列表或者元组
2. ___np.zeros(shape)：___ 构建元素全为0的矩阵，参数形式与ones基本一致
3. ___default_rng(x).random(shape):___ 将创建一个充满0到1之间随机值的数组,x为种子
4. ___np.indices(shape):___ 将创建一组数组（堆叠为一个高维数组），每个维度一个，每个表示该维度的变化

以下是一些例子：

In [16]:
from numpy.random import default_rng
arr1 = np.ones((2,2))
arr2 = np.ones((2,2,2))
arr3 = np.zeros((2,2))
arr4 = np.zeros((2,2,2))
rng = default_rng(1)
arr5 = rng.random((2,2))
arr6 = rng.random((2,2,2))
arr7 = np.indices((3,3))

[arr1,arr2,arr3,arr4,arr5,arr6,arr7]

[array([[1., 1.],
        [1., 1.]]),
 array([[[1., 1.],
         [1., 1.]],
 
        [[1., 1.],
         [1., 1.]]]),
 array([[0., 0.],
        [0., 0.]]),
 array([[[0., 0.],
         [0., 0.]],
 
        [[0., 0.],
         [0., 0.]]]),
 array([[0.51182162, 0.9504637 ],
        [0.14415961, 0.94864945]]),
 array([[[0.31183145, 0.42332645],
         [0.82770259, 0.40919914]],
 
        [[0.54959369, 0.02755911],
         [0.75351311, 0.53814331]]]),
 array([[[0, 0, 0],
         [1, 1, 1],
         [2, 2, 2]],
 
        [[0, 1, 2],
         [0, 1, 2],
         [0, 1, 2]]])]

___Note:___ 

在 NumPy 中，数组的维度是由 shape（形状）参数决定的：

- 一维数组：如 [1, 2, 3]，形状是 (3,)。
- 二维数组（矩阵）：如 [[1, 2, 3], [4, 5, 6]]，形状是 (2,3)。
- 三维数组（张量）：是多个二维矩阵的集合，形状是 (depth, rows, cols)。

- (x,) 代表标准 1D 数组，没有明确的行/列概念。
- (1, x) 代表 行向量（二维数组）。
- (x, 1) 代表 列向量（二维数组）。

## 打印矩阵

在Numpy中打印矩阵遵循以下三条准则

- 最后一维从左向右打印
- 倒数第二维是从上向下打印
- 其他维数都是从上向下打印，每个切片之前有空行分隔

一维array被打印成列表，二维array被打印成矩阵，三维array被打印成张量


In [2]:
import numpy as np
a = np.arange(6)                    # 1d array
print(a)
b = np.arange(12).reshape(4, 3)     # 2d array
print(b)
c = np.arange(24).reshape(2, 3, 4)  # 3d array
print(c)


[0 1 2 3 4 5]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


如果一个array太大而难以被打印，则打印出来的结果会省略中间的元素，只显示角落的元素

In [4]:
a = np.arange(10000).reshape(100,100)
print(a)

[[   0    1    2 ...   97   98   99]
 [ 100  101  102 ...  197  198  199]
 [ 200  201  202 ...  297  298  299]
 ...
 [9700 9701 9702 ... 9797 9798 9799]
 [9800 9801 9802 ... 9897 9898 9899]
 [9900 9901 9902 ... 9997 9998 9999]]


如果想要完整的打印，你可以改变打印的选择使用 __set_printoptions__

In [None]:
np.set_printoptions(threshold=sys.maxsize)  # sys module should be imported

## 基本的操作

基本的数学操作是针对逐个元素的，特别的“*”表示对应元素相乘，而不是一般意义上的矩阵乘法

In [6]:
a = np.arange(10,13)
b = np.array([0,1,2])
print(a+b)
print(a-b)
print(a*b)
print(b**2)
print(10*np.sin(b))
print(b<1)

[10 12 14]
[10 10 10]
[ 0 11 24]
[0 1 4]
[0.         8.41470985 9.09297427]
[ True False False]


矩阵乘法可以使用 __@__ 或者 dot函数来实现

In [8]:
a = np.array([[1,1],[0,1]])
b = np.array([[2,0],[3,4]])
print(a*b) #元素之积
print(a@b) #矩阵乘法
print(a.dot(b)) #另一种矩阵乘法的方式


[[2 0]
 [0 4]]
[[5 4]
 [3 4]]
[[5 4]
 [3 4]]


一些数学操作例如 __+=__,__*=__,同样适用于矩阵操作

In [13]:
from numpy.random import default_rng
a = np.ones((2,3),dtype = int)
rng = default_rng(1)
b = rng.random((2,3))
a *=3
b +=a
print(a)
print(b)

[[3 3 3]
 [3 3 3]]
[[3.51182162 3.9504637  3.14415961]
 [3.94864945 3.31183145 3.42332645]]


对于元素类型的不同的矩阵进行运算，NumPy 会自动选择更“精确”或“更通用”的数据类型，以确保计算的精度不会丢失，称为 __upcasting__

常见以下类型的转换：

- bool → int → float → complex
- int8 → int16 → int32 → int64
- float16 → float32 → float64

In [14]:
arr1 = np.array([1, 2, 3], dtype=np.int32)  # int32 类型
arr2 = np.array([1.5, 2.5, 3.5], dtype=np.float64)  # float64 类型

result1 = arr1 + arr2
print(result1.dtype)  # float64

arr3 = np.array([1000, 2000, 3000], dtype=np.int32)  # int32
arr4 = np.array([10000000000], dtype=np.int64)  # int64

result2 = arr3 + arr4
print(result2.dtype)  # int64

arr5 = np.array([True, False, True], dtype=np.bool_)  # bool 类型
arr6 = np.array([1, 2, 3], dtype=np.int32)  # int32 类型

result = arr5 + arr6
print(result)  # [2 2 4]
print(result.dtype)  # int32

float64
int64
[2 2 4]
int32


有许多一元操作作为ndarray类的方法实现

In [15]:
a = rng.random((2,3))
print(a)
print(a.max(),a.min(),a.sum())

[[0.82770259 0.40919914 0.54959369]
 [0.02755911 0.75351311 0.53814331]]
0.8277025938204418 0.027559113243068367 3.1057109529998157


上述操作是作用于整个数组的，但是通过明确特定的参数 __axis__ 可以对矩阵的不同轴向进行操作

In [16]:
a = np.arange(6).reshape(2,3)
print(a)
print(a.sum(axis=0))
print(a.sum(axis=1))

[[0 1 2]
 [3 4 5]]
[3 5 7]
[ 3 12]


## 通用函数（数学函数）
NumPy提供了熟悉的数学函数，如sin， cos和exp。在NumPy中，这些被称为“通用函数”（ufunc）。在NumPy中，这些函数按元素对数组进行操作，生成一个数组作为输出

In [17]:
B = np.arange(3)
print(np.exp(B))
print(np.sqrt(B))
C = np.array([2., -1., 4.])
print(np.add(B, C))

[1.         2.71828183 7.3890561 ]
[0.         1.         1.41421356]
[2. 0. 6.]


## 索引、切片和迭代

一维array的操作类似于列表等python中其他的序列，并且任意n维度的arr可以通过切片中增加`newaxis`或者`None`来扩展arr的维度

In [17]:
a = np.arange(10)**2
print(a)
'''
print(a[1:4])
print(a[:6:2])
print(a[::-1]) #reversed a
a[::2]=0
print(a)
'''
print(a[:,None,None].shape)
print(a[None,:].shape)#equal to "a[np.newaxis,:]"
print(a[:,None]+a[None,:])

[ 0  1  4  9 16 25 36 49 64 81]
(10, 1, 1)
(1, 10)
[[  0   1   4   9  16  25  36  49  64  81]
 [  1   2   5  10  17  26  37  50  65  82]
 [  4   5   8  13  20  29  40  53  68  85]
 [  9  10  13  18  25  34  45  58  73  90]
 [ 16  17  20  25  32  41  52  65  80  97]
 [ 25  26  29  34  41  50  61  74  89 106]
 [ 36  37  40  45  52  61  72  85 100 117]
 [ 49  50  53  58  65  74  85  98 113 130]
 [ 64  65  68  73  80  89 100 113 128 145]
 [ 81  82  85  90  97 106 117 130 145 162]]


多维数组每个维度都有一个索引，这些索引会用一个 元组 来表示，其中每个维度的索引用逗号隔开

In [7]:
import numpy as np
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 访问二维数组的元素
element = arr[1, 2]  # 访问第二行第三列的元素
print(element)  # 输出 6

arr_3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(arr_3d)

# 访问三维数组的元素 以及基本的切片操作
element = arr_3d[1, 0, 1]  # 访问第二层的第一行第二列
print(element)  # 输出 6
print(arr_3d[0,:,:])
print(arr_3d[:,0,:])
print(arr_3d[:,:,0])

#切片操作的修改
arr_3d[1]=[[0,0],[0,0]]
print(arr_3d)

6
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
6
[[1 2]
 [3 4]]
[[1 2]
 [5 6]]
[[1 3]
 [5 7]]
[[[1 2]
  [3 4]]

 [[0 0]
  [0 0]]]


In [25]:
def f(x, y):
    return 10 * x + y
b = np.fromfunction(f, (5, 4), dtype=int)
print(b)
print(b[2, 3])
print(b[0:5, 1])  # each row in the second column of b
print(b[:, 1]  )  # equivalent to the previous example
print(b[1:3, :] ) # each column in the second and third row of b
print(b[-1]) # equal to b[-1,:]
print(b[:,-1])

[[ 0  1  2  3]
 [10 11 12 13]
 [20 21 22 23]
 [30 31 32 33]
 [40 41 42 43]]
23
[ 1 11 21 31 41]
[ 1 11 21 31 41]
[[10 11 12 13]
 [20 21 22 23]]
[40 41 42 43]
[ 3 13 23 33 43]


__np.fromfunction()__ 是 NumPy 中的一个函数，用于根据一个函数生成数组的内容。

`numpy.fromfunction(function, shape, **kwargs)`

- function：一个函数，接受每个维度的索引作为输入，返回对应位置的值。函数的输入参数应该是一个表示每个维度的索引数组
- shape：一个元组，表示生成数组的形状（维度大小）
- kwargs：可选的额外参数，传递给 function 函数

`np.fromfunction()`  根据给定的函数生成一个数组，函数接收每个维度的索引作为输入，返回一个值。

它适用于需要通过索引计算每个元素值的场景，可以非常方便地创建各种模式的数组。

多维数组的迭代是相对于第一个轴完成的

如果想要访问多维矩阵的每一个元素可以使用`falt`性质，一种numpy的迭代器

In [18]:
def f(x, y):
    return 10 * x + y
b = np.fromfunction(f, (2, 3), dtype=int)
print(b)
for row in b:
    print(row)
for element in b.flat:
    print(element)

[[ 0  1  2]
 [10 11 12]]
[0 1 2]
[10 11 12]
0
1
2
10
11
12


#### **Advanced slicing**

`x[obj]`当选择对象obj是一个非元组序列对象、一个ndarray（数据类型为整数或bool），或者一个至少包含一个序列对象或ndarray（数据类型为整数或bool）的元组时，会触发高级索引。

In [27]:
#创建一个 2D ndarray
x = np.arange(9).reshape(3,3)
print(x)
#使用一个整数ndarray作为索引
obj1 = np.array([0,2])
print(obj1)

print(x[obj1])

# 创建一个 1D ndarray
arr = np.array([10, 20, 30, 40, 50])

# 使用布尔数组进行索引
mask = np.array([True, False, True, False, True])
selected_values = arr[mask]
print(selected_values)

obj2 = np.array([True,False,True])
print(x[obj2])

# 使用包含多个索引的元组
rows = np.array([0, 2])  # 行索引
cols = np.array([1, 2])  # 列索引
selected_elements = x[rows, cols] #rows和cols中的元素一一对应
print(selected_elements)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 2]
[[0 1 2]
 [6 7 8]]
[10 30 50]
[[0 1 2]
 [6 7 8]]
[1 8]


## 形状操作


### 改变形状

一个矩阵的形状的改变可以通过多种方式来实现，以下列举的三种命令返回的是一个修改过的矩阵，并不直接改变操作的矩阵本身

- ```np.ravel()``` 转化为一位矩阵，顺序一般是C风格
- ```x.reshape(a,b)``` 改变矩阵的形状
- ```x.T``` 矩阵转置

In [32]:
a = np.floor(10*rng.random((3,4)))
print(a.shape)
print(a.ravel())
print(a.reshape(2,6))
print(a.T)
print(a.T.shape)
print(a)

(3, 4)
[1. 8. 6. 7. 1. 8. 1. 0. 8. 8. 8. 4.]
[[1. 8. 6. 7. 1. 8.]
 [1. 0. 8. 8. 8. 4.]]
[[1. 1. 8.]
 [8. 8. 8.]
 [6. 1. 8.]
 [7. 0. 4.]]
(4, 3)
[[1. 8. 6. 7.]
 [1. 8. 1. 0.]
 [8. 8. 8. 4.]]


```reshape```操作返回一个修改后的矩阵，但是```resize()```操作则改变矩阵本身

In [34]:
a.resize(2,6)
print(a)
print(a.shape)

[[1. 8. 6. 7. 1. 8.]
 [1. 0. 8. 8. 8. 4.]]
(2, 6)


**当在数组的重塑（reshape）操作中，某个维度被指定为 `-1` 时，NumPy 会自动根据其他已给定的维度来计算这个维度的大小**。

在 NumPy 中，`reshape()` 方法用于改变数组的形状。当你指定了某个维度为 `-1`，NumPy 会根据数组的总元素数量和其他维度的大小来自动推算出 `-1` 所对应的维度。

**规则：**
- **`-1` 只能有一个维度**，即在同一操作中，只有一个维度可以被设置为 `-1`，否则会引发错误。
- **`-1` 表示“自动推算”**，NumPy 会根据现有的维度和数组元素的总数来推算出缺失的维度大小，以确保新形状下的元素总数与原数组元素总数相同。

**总结：**
- `-1` 作为 `reshape()` 的参数时，表示“自动计算该维度的大小”。
- 其他维度的大小必须给定，NumPy 会根据这些维度和原始数组的总元素数来推算出 `-1` 对应的维度大小。
- 只能在 `reshape()` 中使用一个 `-1`，否则会导致错误。

通过这种方式，`-1` 可以让你灵活地调整数组的形状，而无需手动计算每个维度的大小，特别适用于需要动态计算形状的场景。

In [36]:
print(a.reshape(3, -1))

[[1. 8. 6. 7.]
 [1. 8. 1. 0.]
 [8. 8. 8. 4.]]


### 将不同的数组堆叠在一起
一些矩阵可以堆叠起来根据不同的轴线

#### **NumPy 中的六种拼接方法总结**

NumPy 提供了多种数组拼接方式，每种方法在处理 **1D 和 2D 数组** 时的行为有所不同。下面是 `np.hstack()`、`np.vstack()`、`np.r_`、`np.c_`、`np.concatenate()` 和 `np.column_stack()` 的对比总结。

---

##### **1. `np.hstack()`**
**作用**：
- 沿 **水平方向（axis=1）** 拼接多个数组。
- **1D 数组拼接后仍然是 1D**。
- **2D 数组会按列拼接**（行数不变）。

**适用情况**：
- **适用于拼接 2D 数组的列**。
- **适用于 1D 数组简单扩展（不转换形状）**。

**示例**：
```python
import numpy as np
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

print(np.hstack((arr1, arr2)))
```
**输出：**
```
[1 2 3 4 5 6]
```
**2D 数组示例**：
```python
arr1 = np.array([[1], [2], [3]])  # 3x1
arr2 = np.array([[4], [5], [6]])  # 3x1

print(np.hstack((arr1, arr2)))
```
**输出：**
```
[[1 4]
 [2 5]
 [3 6]]
```

**等价于**：
```python
np.concatenate((arr1, arr2), axis=1)
```

---

##### **2. `np.vstack()`**
**作用**：
- 沿 **垂直方向（axis=0）** 拼接多个数组。
- **无论 1D 还是 2D，拼接后都会变成 2D**。

**适用情况**：
- **适用于拼接 1D 数组，转换为 2D 并按行堆叠**。
- **适用于 2D 数组的行拼接**。

**示例**：
```python
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

print(np.vstack((arr1, arr2)))
```
**输出：**
```
[[1 2 3]
 [4 5 6]]
```

**等价于**：
```python
np.concatenate((arr1.reshape(1, -1), arr2.reshape(1, -1)), axis=0)
```

---

##### **3. `np.r_`**
**作用**：
- **主要用于 1D 数组的拼接**，沿 `axis=0` 方向拼接，**保持 1D 形状**。
- **如果作用于 2D 数组，等价于 `vstack()`**（按行拼接）。

**适用情况**：
- 快速拼接多个 1D 数组，而不想转换维度。
- **作用于 2D 时，效果类似于 `vstack()`（按行拼接）**。

**示例**：
```python
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

print(np.r_[arr1, arr2])
```
**输出：**
```
[1 2 3 4 5 6]
```

**如果用于 2D 数组**：
```python
arr1 = np.array([[1, 2, 3]])
arr2 = np.array([[4, 5, 6]])

print(np.r_[arr1, arr2])
```
**输出：**
```
[[1 2 3]
 [4 5 6]]
```
**等价于**：
```python
np.vstack((arr1, arr2))
```

---

##### **4. `np.c_`**
**作用**：
- 主要用于 **1D 数组转换为 2D 列向量**，然后按 **列拼接**（`axis=1`）。
- 适用于 2D 数组，等同于 `column_stack()`。

**适用情况**：
- **如果想把 1D 数组变成列向量再拼接，就用 `c_`**。
- 适用于 **快速创建列矩阵**（形状 `(n, m)`）。

**示例**：
```python
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

print(np.c_[arr1, arr2])
```
**输出：**
```
[[1 4]
 [2 5]
 [3 6]]
```

**等价于**：
```python
np.column_stack((arr1, arr2))
```

---

##### **5. `np.concatenate()`**
**作用**：
- **通用拼接函数，可用于沿任何 `axis` 进行拼接**（需要显式指定 `axis`）。
- 适用于 **1D、2D 及更高维数组的拼接**。

**适用情况**：
- **如果想要更精确地控制拼接维度，使用 `concatenate()`**。
- **适用于拼接高维数组（`hstack()` 和 `vstack()` 只能用于 2D）**。

**示例**：
```python
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

print(np.concatenate((arr1, arr2), axis=0))  # 沿行拼接
print(np.concatenate((arr1, arr2), axis=1))  # 沿列拼接
```
**输出：**
```
[[1 2]
 [3 4]
 [5 6]
 [7 8]]

[[1 2 5 6]
 [3 4 7 8]]
```

---

##### **6. `np.column_stack()`**
**作用**：
- **用于 1D 数组时**，会先把它们转换为 **2D 列向量**，然后按列拼接（`axis=1`）。
- **对于 2D 数组**，等同于 `np.hstack()`（直接按列拼接）。

**适用情况**：
- **当你想把 1D 数组转换成 2D** 并按列拼接时使用。
- 适用于创建列矩阵（形状 `(n, m)`）。

**示例**：
```python
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

print(np.column_stack((arr1, arr2)))
```
**输出：**
```
[[1 4]
 [2 5]
 [3 6]]
```
**等价于**：
```python
np.hstack((arr1.reshape(-1,1), arr2.reshape(-1,1)))
```

---

##### **总结对比**
| 方法 | 作用 | 适用对象 | `axis` 方向 | 结果形状 | 等价于 |
|------|------|------|-----------|---------|--------------|
| **`hstack()`** | 水平拼接 | 1D/2D | `axis=1` | 1D / 2D | np.concatenate((arr1, arr2), axis=1) |
| **`vstack()`** | 垂直拼接 | 1D/2D | `axis=0` | 2D | np.concatenate((arr1.reshape(1, -1), arr2.reshape(1, -1)), axis=0) |
| **`r_`** | 1D 拼接（保持 1D）或 2D 按行拼接 | 1D/2D | `axis=0` | 1D/2D | np.vstack((arr1, arr2)) |
| **`c_`** | 1D 转 2D 列向量再拼接 | 1D/2D | `axis=1` | 2D | np.column_stack((arr1, arr2)) |
| **`concatenate()`** | 任意 `axis` 拼接 | 任意维度 | `axis` 可指定 | 取决于 `axis` | |
| **`column_stack()`** | 1D 转 2D 列向量后拼接 | 1D/2D | `axis=1` | 2D | np.hstack((arr1.reshape(-1,1), arr2.reshape(-1,1))) |

这六种方法各有用途，可以根据实际需求选择合适的方法！

### **将一个数组拆分为几个较小的数组**

在 NumPy 中，**`split`** 操作用于将数组沿指定的轴分割成多个子数组。NumPy 提供了几种不同的分割方法，包括 `split()`、`hsplit()`、`vsplit()` 和 `array_split()`。这些方法允许根据不同的需求和轴来分割数组。

#### **1. `numpy.split()`**
`numpy.split()` 是最通用的分割方法，可以沿指定的轴将数组分割成多个子数组。

**函数签名：**
```python
numpy.split(ary, indices_or_sections, axis=0)
```

- **`ary`**：要分割的输入数组。
- **`indices_or_sections`**：指定分割的方式。可以是一个整数（表示将数组等分成多少块）或一个整数列表（表示具体的分割位置）。
- **`axis`**：分割的轴，默认为 0（按行分割）。可以指定为 1（按列分割）等。

**示例：**
```python
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])

# 将数组等分成 3 个部分
result = np.split(arr, 3)
print(result)
```
**输出：**
```
[array([1, 2]), array([3, 4]), array([5, 6])]
```

- **`np.split()`** 将数组分成 3 个部分。它可以用于 1D、2D 和更高维度的数组。

---

#### **2. `numpy.hsplit()`**
`numpy.hsplit()` 用于沿 **水平方向（axis=1）** 将数组分割成多个子数组。它是 `split()` 的一个简化版本，专门用于按列分割数组。

**函数签名：**
```python
numpy.hsplit(ary, indices_or_sections)
```

- **`ary`**：要分割的输入数组，必须是 2D 数组。
- **`indices_or_sections`**：指定分割的位置，通常为整数或一个整数列表，表示按列的分割位置。

**示例：**
```python
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

# 将数组按列分割成 2 部分
result = np.hsplit(arr, 2)
print(result)
```
**输出：**
```
[array([[1, 2], [5, 6]]), array([[3, 4], [7, 8]])]
```

- **`np.hsplit()`** 将二维数组按列分割成 2 个子数组。这个函数适用于 **2D 数组**。

---

#### **3. `numpy.vsplit()`**
`numpy.vsplit()` 用于沿 **垂直方向（axis=0）** 将数组分割成多个子数组。它是 `split()` 的一个简化版本，专门用于按行分割数组。

**函数签名：**
```python
numpy.vsplit(ary, indices_or_sections)
```

- **`ary`**：要分割的输入数组，必须是 2D 数组。
- **`indices_or_sections`**：指定分割的位置，通常为整数或一个整数列表，表示按行的分割位置。

**示例：**
```python
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将数组按行分割成 3 部分
result = np.vsplit(arr, 3)
print(result)
```
**输出：**
```
[array([[1, 2, 3]]), array([[4, 5, 6]]), array([[7, 8, 9]])]
```

- **`np.vsplit()`** 将二维数组按行分割成 3 个子数组。这个函数适用于 **2D 数组**。

---

#### **4. `numpy.array_split()`**
`numpy.array_split()` 是 `split()` 方法的一个扩展，**允许在无法均匀分割时**，将数组分割成 **不等长的子数组**。如果指定的分割点不能均匀分配，`array_split()` 会自动处理剩余元素。

**函数签名：**
```python
numpy.array_split(ary, indices_or_sections, axis=0)
```

- **`ary`**：要分割的输入数组。
- **`indices_or_sections`**：指定分割的方式，通常为整数或整数列表。
- **`axis`**：分割的轴，默认为 0。

**示例：**
```python
arr = np.array([1, 2, 3, 4, 5])

# 将数组分割成 3 部分，数组不能均匀分割
result = np.array_split(arr, 3)
print(result)
```
**输出：**
```
[array([1, 2]), array([3, 4]), array([5])]
```

- **`np.array_split()`** 将 1D 数组分割成 3 个部分，并且允许其中的一个部分含有一个额外的元素。

---

#### **总结**
| 方法 | 作用 | 适用情况 |
|------|------|----------|
| `np.split()` | 按指定位置或等分将数组分割 | 任意维度的数组 |
| `np.hsplit()` | 沿水平方向（按列）分割数组 | 2D 数组 |
| `np.vsplit()` | 沿垂直方向（按行）分割数组 | 2D 数组 |
| `np.array_split()` | 允许不等长的子数组分割 | 任意维度的数组，自动处理不均匀分割 |

**选择使用方法：**
- **`split()`** 适用于需要精确控制分割位置和大小的情况。
- **`hsplit()` 和 `vsplit()`** 分别是针对 **2D 数组按列或按行分割** 的便捷方法。
- **`array_split()`** 是 `split()` 的扩展，允许不均匀分割，当元素不能完全均匀分配时使用。

根据数组的维度和你对分割大小的需求，可以选择不同的函数来进行分割操作。

In [7]:
import numpy as np
a = np.arange(12).reshape(2,6)
print(a)
print(np.split(a,3,axis = 1))
print(np.split(a,(2,4),axis = 1))

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
[array([[0, 1],
       [6, 7]]), array([[2, 3],
       [8, 9]]), array([[ 4,  5],
       [10, 11]])]
[array([[0, 1],
       [6, 7]]), array([[2, 3],
       [8, 9]]), array([[ 4,  5],
       [10, 11]])]


## __Copies and Views__
主要分为三种情况：
1. 没有复制，其实只是标签
2. 浅拷贝
3. 深度复制

### 简单赋值不复制对象及其数据

In [8]:
a = np.array([[ 0,  1,  2,  3],
              [ 4,  5,  6,  7],
              [ 8,  9, 10, 11]])
b = a            # no new object is created
b is a           # a and b are two names for the same ndarray object

True

### 视图和浅拷贝


**NumPy 中的 View（视图）**
在 NumPy 中，`view`（视图）是一种 **共享数据但不同对象** 的数组副本。它允许多个数组对象共享相同的数据，但**彼此独立地修改形状或视图**，而不会影响原始数据存储。但是视图的id（储存地址）与原id不同。

---

**1. 什么是 NumPy 视图（View）？**
- **视图（View）不会复制数据**，只是创建了一个不同的数组对象来引用相同的数据。
- **修改视图的元素**，原数组的对应元素也会随之变化（因为它们共享同一块内存）。
- **适用于内存优化**，可以避免不必要的数据复制，提高效率。

---

**2. 创建 View**
在 NumPy 中，可以使用 `.view()` 方法创建数组的视图。

```python
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
view_arr = arr.view()

print("原数组:", arr)
print("视图数组:", view_arr)
```
**输出：**
```
原数组: [1 2 3 4 5]
视图数组: [1 2 3 4 5]
```
**特点：**
- `view_arr` 和 `arr` **共享相同的数据**。
- **两个对象是独立的**，但底层数据是共享的。

---

**3. 修改视图，原数组也会变**
```python
view_arr[0] = 99

print("修改视图后：")
print("原数组:", arr)
print("视图数组:", view_arr)
```
**输出：**
```
修改视图后：
原数组: [99  2  3  4  5]
视图数组: [99  2  3  4  5]
```
**说明：**
- **修改 `view_arr`，`arr` 也随之改变**，因为它们共享相同的数据。

---

**4. 视图与原数组的 `id`（内存地址）不同**
```python
print(id(arr))       # 原数组的内存地址
print(id(view_arr))  # 视图数组的内存地址
```
- `id(arr) != id(view_arr)`，说明它们是 **两个不同的数组对象**，但共享相同的数据。

---

**5. 视图不会复制数据，但切片可能创建视图**

在 NumPy 中，对数组进行 **切片（slicing）** 通常会创建视图，而不是副本。

```python
arr = np.array([10, 20, 30, 40, 50])
view_arr = arr[1:4]  # 取索引 1 到 3 的子数组

print("原数组:", arr)
print("视图数组:", view_arr)

# 修改视图
view_arr[0] = 99
print("修改视图后：")
print("原数组:", arr)
print("视图数组:", view_arr)
```
**输出：**
```
原数组: [10 20 30 40 50]
视图数组: [20 30 40]

修改视图后：
原数组: [10 99 30 40 50]
视图数组: [99 30 40]
```
**说明：**
- **切片创建的是视图，而不是副本**，所以修改 `view_arr` 会影响 `arr`。

---

**6. 什么时候 `view()` 可能变成副本？**
**如果视图的形状被改变（例如 reshape），可能会触发 NumPy 复制数据，导致 `view` 变成 `copy`。**

```python
arr = np.array([[1, 2, 3], [4, 5, 6]])
view_arr = arr.view().reshape(3, 2)

print("原数组 shape:", arr.shape)
print("视图数组 shape:", view_arr.shape)
```
**如果 reshape 不能保持连续的内存布局，NumPy 可能会创建副本，而不是视图。**

---

**7. `base` 属性判断是否是视图**
在 NumPy 中，可以使用 `.base` 来检查一个数组是否是视图：

```python
arr = np.array([1, 2, 3, 4])
view_arr = arr.view()

print(view_arr.base)  # 输出原数组
```
**输出：**
```
[1 2 3 4]
```
**说明：**
- 如果 `view_arr.base` **返回原数组，则是该数组的副本
- 如果返回`None`则说明是副本

### 深度复制

在 NumPy 中，**深度复制（Deep Copy）** 是指创建一个新数组，该数组具有与原数组相同的数据和形状，但它的内存地址是完全独立的。也就是说，修改新数组的内容不会影响原数组，反之亦然。

**深度复制的概念**
- **浅复制（Shallow Copy）**：如果你只是简单地复制一个数组（例如通过赋值），原数组和新数组会共享相同的数据内存区域，修改其中一个数组会影响另一个数组。
- **深度复制（Deep Copy）**：通过深度复制，新数组是原数组的独立副本。修改深度复制的数组不会影响原数组，反之亦然。

**如何进行深度复制**

NumPy 提供了 `copy()` 方法来执行 **深度复制**。

**`copy()` 方法**
- **`copy()`**：通过这个方法创建一个新的数组，该数组是原数组的完全副本，包括数据、形状、类型等。修改副本不会影响原数组。

**示例：**

```python
import numpy as np

# 创建原始数组
arr = np.array([1, 2, 3, 4, 5])

# 创建深度复制
arr_copy = arr.copy()

# 修改副本的内容
arr_copy[0] = 10

# 打印原数组和副本
print("Original Array:", arr)       # 输出: [1 2 3 4 5]
print("Copied Array:", arr_copy)    # 输出: [10 2 3 4 5]
```

**解释：**
- `arr_copy` 是 `arr` 的一个深度复制。虽然 `arr_copy` 中的第一个元素被修改为 `10`，但 `arr` 中的内容没有变化，这表明它们是 **独立的**。
- 这就意味着深度复制创建了一个完全独立的副本，与原数组没有内存共享。

**深度复制与浅复制的区别**

1. **浅复制：**
   - 使用切片或 `view()` 创建的数组是 **浅复制**，这意味着它们与原数组共享相同的内存。
   - 修改一个数组的内容会影响另一个数组。
   
2. **深度复制：**
   - 使用 `copy()` 创建的数组是 **深度复制**，它拥有自己的内存。
   - 修改深度复制的数组不会影响原数组。

**示例：浅复制与深度复制的区别**

```python
import numpy as np

# 创建原始数组
arr = np.array([1, 2, 3, 4, 5])

# 浅复制（使用切片）
arr_slice = arr[:]

# 深度复制
arr_copy = arr.copy()

# 修改浅复制的内容
arr_slice[0] = 10

# 修改深度复制的内容
arr_copy[1] = 20

# 打印原数组和复制数组
print("Original Array:", arr)         # 输出: [10  2  3  4  5]
print("Shallow Copy:", arr_slice)     # 输出: [10  2  3  4  5]
print("Deep Copy:", arr_copy)         # 输出: [1 20  3  4  5]
```

**`copy()` 的使用场景**
1. **防止原数组被修改**：当你想要操作数组的副本，而不想影响原始数据时，可以使用深度复制。
2. **内存隔离**：在复杂的操作中，深度复制可以避免由于共享内存而引发的错误。
3. **独立的修改**：当需要在副本上进行修改操作，并且不希望修改影响到原始数组时，使用 `copy()` 方法可以确保数据的独立性。

**总结**
- **深度复制（Deep Copy）** 使用 `copy()` 方法来创建一个数组的独立副本，修改副本不会影响原始数组。
- **浅复制（Shallow Copy）** 则不会复制数据，而是共享原数组的数据，修改一个数组会影响到另一个数组。
- 使用 `copy()` 时，可以确保原数组与复制数组的完全独立，适用于需要对数组进行独立操作的场景。