# Numpy

### Numpy ndarry对象

#### 定义：
1. 用于存放同类型元素，每个元素在内存中有相同大小区域。
2. ndarray 内部由以下内容组成：

    一个指向数据（内存或内存映射文件中的一块数据）的指针。

    数据类型或 dtype，描述在数组中的固定大小值的格子。

    一个表示数组形状（shape）的元组，表示各维度大小的元组。

    一个跨度元组（stride），其中的整数指的是为了前进到当前维度下一个元素需要"跨过"的字节数。
3. 创建ndarry的函数：numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)

##### 定义中：ndim的用法

In [2]:
# ndmin的用法：创建numpy数组时最小需要的维度
import numpy as np 
a = np.array([1, 2, 3, 4, 5], ndmin =  2)  
print (a)
b = np.array([1], ndmin =  2)  #指定最小维度，比如这个例子中，如果指定ndmin=1，则输出为[1]，如果指定ndmin=2，则输出为[[1]]
print(b)


[[1 2 3 4 5]]
[[1]]


##### 定义中跨度的含义：

In [1]:
import numpy as np

# 创建一个2x3的数组
arr = np.array([[1, 2, 3],
                [4, 5, 6]], dtype=np.int32)

# 查看跨度
print(arr.strides)  # 输出: (12, 4)
#row_stride：从第0行移动到第1行，跨过12个字节
#col_stride：从第0列移动到第2列，跨过8个字节(2 × 4字节)
base_address = arr.ctypes.data   #获得起始地址；
print(base_address)
print(f"内存地址：{hex(base_address)}") #将起始地址转化为16进制；
row_stride, col_stride = arr.strides
element_address = base_address + 1*row_stride + 2*col_stride
print(f"元素地址: {hex(element_address)}") #注意是16进制

(12, 4)
1532004497280
内存地址：0x164b2957780
元素地址: 0x164b2957794


#### numpy 属性 ：
| 属性 | 说明 |
|------|------|
| ndarray.ndim | 数组的维度数量|
| ndarray.shape | 数组在每个维度上的大小。对于二维数组（矩阵），表示其行数和列数。|
| ndarray.size | 数组中元素的总个数，等于 ndarray.shape 中各个轴上大小的乘积。|
| ndarray.dtype | 数组中元素的数据类型。|
| ndarray.itemsize | 数组中每个元素的字节大小。|
| ndarray.nbytes | 数组中所有元素的字节大小。|
| ndarray.flags | 数组内存的读写模式。|

.flags提供了关于内存布局和存储的特性
- C/F continous 是是否按行/列连续
  - C序是指数据在内存中按“行”排布，最内层（最后一个维度）索引变化最快，然后是倒数第二维。
  - “连续”就是数组的元素在内存地址上没有间隙
  - C连续就是按行优先的顺序一字排开
- OWNDATA: 值为True：数组拥有自己的数据内存，负责分配和释放; 值为False：数组引用其他数组的数据，不负责内存管理


In [7]:
import numpy as np

# 创建一个数组
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

# 查看数组的所有标志
print(arr.flags)

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False



.base
- 在 NumPy 中，.base 是一个 属性，用于查看一个 ndarray 是否是由另一个数组通过切片、视图（view）、变形（reshape）等方式派生出来的。如果是，.base 就会指向那个“原始”数组；如果不是，它的值就是 None。
- 它只会指向直接的原始数组，不会递归追溯链条。
- ndarray.base用于判断数组中的数据是否来自于别的数组

In [6]:
import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6]])

b=a[0:1]

x_stack=b[0:1]

d=a[0,0] # d是标量，不再是数组，没有base属性；

print(f"b.base: {b.base}")
print(f"c: {x_stack}")
print(f"c.base: {x_stack.base}")
print(f"d.base: {d.base}")

b.base: [[1 2 3]
 [4 5 6]]
c: [[1 2 3]]
c.base: [[1 2 3]
 [4 5 6]]
d.base: None


其它关于python is关键字的内容和关于sys.getrefcount()的内容还不太懂

#### 用dtype自定义数据类型

In [None]:
import numpy as np

# 创建一个int32数组
arr = np.array([1, 2, 3], dtype=np.int32)

# 查看内存中的存储
for i in range(len(arr)):
    print(f"值: {arr[i]}")
    print(f"内存表示: {arr[i].tobytes().hex()}")

值: 1
内存表示: 01000000
值: 2
内存表示: 02000000
值: 3
内存表示: 03000000


子数组类型
- 注意小括号与大括号的区别

In [None]:
import numpy as np

# 创建一个子数组数据类型
# 每个元素是一个2x2的int32数组
dt = np.dtype((np.int32, (2, 2)))

# 使用这个数据类型创建数组
arr = np.array([([1, 2], [3, 4])], dtype=dt) #注意这里是小括号了；
print("子数组类型数组:")
print(arr)
print(f"形状: {arr.shape}")
print(f"数据类型: {arr.dtype}")

arr1 = np.array([[1,2],[3,4]],dtype= dt)
print(f'子数组类型的数组为：\n{arr1}')
print(f"形状：{arr1.shape}")

arr2 = np.zeros(4,dtype=dt)
print(f"子数组类型的数组为：\n{arr2}")
print(f"形状：{arr2.shape}")
print(arr2.dtype)

子数组类型数组:
[[[1 2]
  [3 4]]]
形状: (1, 2, 2)
数据类型: int32
子数组类型的数组为：
[[[[1 1]
   [1 1]]

  [[2 2]
   [2 2]]]


 [[[3 3]
   [3 3]]

  [[4 4]
   [4 4]]]]
形状：(2, 2, 2, 2)
子数组类型的数组为：
[[[0 0]
  [0 0]]

 [[0 0]
  [0 0]]

 [[0 0]
  [0 0]]

 [[0 0]
  [0 0]]]
形状：(4, 2, 2)
int32


In [None]:
# 用dtype自定义数据类型
import numpy as np
dt = np.dtype([('name', np.str_, 40),('num_array', np.float32 ,(2,2))]) #这里40是字符串长度，2*2是数组维度
np = np.array([[('hello', [[1, 2],[3,4]])],[ ('world', [4, 5])]], dtype=dt) 
print(np)
print(np.shape)
print(np.dtype)

[[('hello', [[1., 2.], [3., 4.]])]
 [('world', [[4., 5.], [4., 5.]])]]
(2, 1)
[('name', '<U40'), ('num_array', '<f4', (2, 2))]


In [None]:
# 可以使用字段名存取
# 类型字段名可以用于存取实际的 age 列
import numpy as np
dt = np.dtype([('age',np.int8)]) 
a = np.array([(10,),(20,),(30,)], dtype = dt) 
print(a['age'])
print(a.shape)

[10 20 30]
(3,)


In [None]:
# 小端顺序
import numpy as np
# 字节顺序标注
dt = np.dtype('<i4')
print(dt)

int32


#### 赋值，.view() 和 .copy() 的区别:  
 | 操作方式 | 是否新对象 | 是否共享数据 | 是否共享引用 | 修改后是否影响原数组 |
 |----------|------------|--------------|--------------|---------------------|
 | b = a | ❌ 否 | ✅ 是 | ✅ 是 | ✅ 会影响 |
 | b = a.view() | ✅ 是 | ✅ 是 | ❌ 否 | ✅ 会影响 |
 | b = a.copy() | ✅ 是 | ❌ 否 | ❌ 否 | ❌ 不会影响 |  

 这里是否共享引用是基于sys.getrefcount()来说的，还不太懂  
 修改直接赋值或.view() 会影响原数组，.copy() 不会影响原数组；
 
 
 
 
 
 
 
 

In [8]:
import numpy as np
import sys

a = np.array([1, 2, 3])
b = a         # 直接赋值，不复制数据
b[0] = 99
print(a)      # 输出: [99  2  3]，a 跟着变

x_stack = a.view()
x_stack[0] = 99
print(a)      # 输出: [99  2  3]，a 跟着变

d = a.copy()
d[0] = 99
print(a)      # 输出: [99  2  3]，a 跟着变

e = a

print(f"sys.getrefcount(a): {sys.getrefcount(a)}") #注意b也计算到a的引用计数了
print(sys.getrefcount(b))
print(sys.getrefcount(x_stack))


a与b内存地址相同: True
[99  2  3]
a与c内存地址相同: False
[99  2  3]
a与d内存地址相同: False
[99  2  3]
sys.getrefcount(a): 5
5
2


In [7]:
import numpy as np
import sys

a = np.array([1, 2, 3])
b = a.view()

print("refcount(a):", sys.getrefcount(a))  # 引用计数 of a
print("refcount(b):", sys.getrefcount(b))  # 引用计数 of b

refcount(a): 3
refcount(b): 2


#### 其它内容

##### 标准数组和对象数组

In [None]:
# 标准数组和对象数组
import numpy as np

# 每行长度相同
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)
print(arr.shape)  # 输出: (2, 3)

arr = np.array([[1, 2, 3], [4, 5]], dtype=object) #如果没有dtype会报错
print(arr)
print(arr.dtype)  # 输出: object
print(arr.shape)  # 输出: (2,)



[[1 2 3]
 [4 5 6]]
(2, 3)
[list([1, 2, 3]) list([4, 5])]
object
(2,)


##### 圆括号和方括号创建数组都可以

In [None]:
print(np.empty([2,3]))
print(np.empty((2,3)))

### ndarry的生成

####  用np.array()创建数组：
numpy.array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)
- 关于copy:  
  - 是否复制输入数据。如果为 False，可能不会复制数据（视情况而定），但这样修改数组可能会影响原数据。
- 关于order:  
  - 数组的内存布局顺序：  
    - 'C'：按行优先（C语言风格）  
    - 'F'：按列优先（Fortran风格）  
    - 'A'：保持输入数据的顺序  
    - 'K'：尽量保持输入数据的顺序
  - 'K'的含义是：
    - 如果输入数据本来是按行优先存储的，order='K' 就保持行优先。
    - 如果输入数据本来是按列优先存储的，order='K' 就保持列优先。
    - 如果输入是 Python 原生列表这种没有固定存储顺序的数据，order='K' 就等同于默认的按行优先（类似 order='C'）。










In [8]:
import numpy as np

# 创建原始列表
original = [1, 2, 3]

# copy=True（默认）
arr1 = np.array(original, copy=True)
arr1[0] = 100  # 修改arr1不会影响original
print(original)  # 输出: [1, 2, 3]
print(arr1)      # 输出: [100, 2, 3]

# copy=False
arr2 = np.array(original, copy=False)
# 注意：即使设置copy=False，从Python列表创建numpy数组时
# 仍会进行复制，因为numpy数组和Python列表的内存布局不同

# 但对于numpy数组之间的操作，copy=False会更明显：
arr3 = np.array([1, 2, 3])
arr4 = np.array(arr3, copy=False)  # 创建视图
arr4[0] = 100  # 修改arr4会影响arr3
print(arr3)  # 输出: [100, 2, 3]
print(arr4)  # 输出: [100, 2, 3]

[1, 2, 3]
[100   2   3]
[100   2   3]
[100   2   3]


#### 用初始化数组的方法生成
- np.zeros(shape, dtype=None, order='C')
- np.ones(shape, dtype=None, order='C')
- numpy.full(shape, fill_value, dtype=None, order='C')
- np.empty(shape, dtype=None, order='C') #随机的，不确定的值；
- np.random.randint(low, high=None, size=None, dtype='int64') 
- np.random.rand(d0, d1, ..., dn) 
- np.random.randn(d0, d1, ..., dn) 

#### 从定范围生成数组

##### np.arange(start, stop, step, dtype=None)

In [10]:
import numpy as np
a = np.arange(5,22,2)
print(a)

[ 5  7  9 11 13 15 17 19 21]


##### np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0)
- 这里的lin就是linear的意思，表示是在linear space上生成数列；
- 当endpoint为False时，各项差值是按 (stop-start)/num 计算的，也就是说要分成num段； 为True时，各项差值是按 (stop-start)/(num-1) 计算的，也就是分成num-1段；
- retstep为True时，会返回一个包含数列和步长的元组；











In [1]:
import numpy as np
a = np.linspace(1,10,10)
print(f'a: \n{a}')

b = np.linspace(1,10,10,endpoint=False)
print(f'b: \n{b}')

x_stack = np.linspace(1,10,10,retstep=True)
print(f'c: \n{x_stack}')

d = np.linspace(1,10,10,retstep=True,endpoint=False)
print(f'd: \n {d}')

a: 
[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
b: 
[1.  1.9 2.8 3.7 4.6 5.5 6.4 7.3 8.2 9.1]
c: 
(array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.]), 1.0)
d: 
 (array([1. , 1.9, 2.8, 3.7, 4.6, 5.5, 6.4, 7.3, 8.2, 9.1]), 0.9)


In [14]:
import numpy as np
a = np.linspace(1,2,2)
print(a)

[1. 2.]


##### np.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None, axis=0)
- logspace是指起始值和中止值都是原值取对数后结果。 num是根据对数空间划分 
- 生成的数会还原成原值，也就是base**i;
- 因而可以生成公比是base的等比数列










In [None]:
import numpy as np
# 默认底数是 10
a = np.logspace(1.0,  2.0, num =  10)  
print (a)

In [None]:
import numpy as np
a = np.logspace(0,9,10,base=2)
print (a)

#### 其它方法

##### numpy.asarray(object, dtype=None, order=None, subok=False, ndmin=0)
numpy.array：默认会复制输入数据（copy=True），即使输入已经是 ndarray，也会创建一个数据拷贝，除非显式将 copy=False。

numpy.asarray：尽量不复制输入数据（copy=False），只有当输入不是 ndarray 或者指定了不同的 dtype 时，才会产生拷贝。

In [3]:
import numpy as np

# 输入已经是 ndarray
a = np.arange(5)

b = np.array(a)      # b 是 a 的一个拷贝
x_stack = np.asarray(a)    # c 与 a 指向同一内存，不拷贝

a[0] = 100
print(b[0])  # 0：b 不受 a 修改影响
print(x_stack[0])  # 100：c 反映了 a 的修改


0
100


##### numpy.frombuffer(buffer, dtype=float, count=-1, offset=0)

这个函数 从一个缓冲区（buffer）创建一个 NumPy 数组，而且这个过程不会复制数据，效率非常高！

详细解释：
buffer：支持缓冲区接口的对象，比如 Python 的 bytes、bytearray、memoryview 等原始二进制数据。

dtype：指定数组中元素的数据类型，比如 np.uint8、np.float32、np.int16 等。

count：要读取的元素数量，默认 -1 表示读取全部。

offset：从缓冲区的第几个字节开始读取，默认是 0。

In [2]:
import numpy as np

b = b'\x01\x02\x03\x04'  # bytes 对象，4个字节
arr = np.frombuffer(b, dtype=np.uint8)
print(arr)  # 输出: [1 2 3 4]

[1 2 3 4]


##### numpy.fromiter(iterable, dtype=float, count=-1)  
- 从可迭代对象（iterator）高效地构造一维 ndarray 的函数;
- 如果迭代器返回的高维的，仍然会挤在一维里；

In [4]:
# 对比用时
import time

def make_list():
    return [i for i in range(1000000)]

def make_fromiter():
    return np.fromiter((i for i in range(1000000)), dtype=np.int32, count=1000000)

# 列表 + array
t0 = time.time()
arr_list = np.array(make_list(), dtype=np.int32)
t1 = time.time()

# 直接 fromiter
arr_iter = make_fromiter()
t2 = time.time()

print("list→array 用时:", t1 - t0)
print("fromiter  用时:", t2 - t1)


list→array 用时: 0.0763251781463623
fromiter  用时: 0.04370999336242676


### 高级索引

#### 切片索引

##### 关于slice切片
start:end:step
- 如果step为负数，start必须大于end;
- 省略start或end时，  
如果省略了 start，默认从序列的 开头（如果步长为正）或 结尾（如果步长为负）开始。  
如果省略了 stop，默认到序列的 结尾（步长为正）或 开头之前（步长为负）结束。

In [None]:
import numpy as np

lst = [0, 1, 2, 3, 4, 5]
print(lst[4::-1])  # [4, 3, 2, 1, 0]

# 反转列表
print(lst[::-1])  # [5, 4, 3, 2, 1, 0]

[4, 3, 2, 1, 0]
[5, 4, 3, 2, 1, 0]


##### 切片的实现方式
- slice函数
- 冒号切片
- 省略号索引

In [None]:
#1. 使用slice函数切片
#内置函数赋值给变量
import numpy as np
 
a = np.arange(10)
s = slice(2,7,2)   # 从索引 2 开始到索引 7 停止，间隔为2
print (a[s])


# 2. 使用冒号切片
#举一个高维情况下例子
import numpy as np
 
a = np.array([[1,2,3],[3,4,5],[4,5,6]])
print(a)
# 从某个索引处开始切割
print('从数组索引 a[1:] 处开始切割') #默认选择剩余的整个维度
print(a[1:])


# 3. 省略号索引
import numpy as np
a = np.array([[1,2,3],[3,4,5],[4,5,6]])  
print("只使用省略号索引，返回行向量")
print ("\n",a[...,1])   # 第2列元素
print ("\n",a[1,...])   # 第2行元素
print("结合切片，保留原来形状")
print (a[...,1:])  # 第2列及剩下的所有元素

[2 4 6]

使用原始add(): 3
使用变量my_add(): 3 

[[1 2 3]
 [3 4 5]
 [4 5 6]]
从数组索引 a[1:] 处开始切割
[[3 4 5]
 [4 5 6]]

 [2 4 5]
[3 4 5]
[[2 3]
 [4 5]
 [5 6]]


##### 索引访问会改变维度与切片访问不会改变维度
这就是a[-1]与a[1:]的区别

In [None]:
# 索引访问与切片访问的区别
import numpy as np
arr2d = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

print(arr2d[0])     # 输出: [1 2 3]，一维数组（行向量）
print(arr2d[0:1])   # 输出: [[1 2 3]]，二维数组（仍然保持二维，行数是1）

[1 2 3]
[[1 2 3]]


#### 整数数组索引

In [5]:
# 整数数组索引
import numpy as np 
#按位置进行索引，每个位置的索引放在不同数组；
x = np.array([[1,  2],  [3,  4],  [5,  6]]) 
y = x[[0,1,2],  [0,1,0]]  
print (y)


[1 4 5]


In [3]:
# 通过整数数组的形状控制输出的形状
import numpy as np
x = np.array([[1,  2],  [3,  4],  [5,  6]]) 
row = np.array([[1,2],[1,2]])
col = np.array([[1,0],[1,0]])
print(x[row, col])


[[4 5]
 [4 5]]


In [4]:
# 整数索引结合切片索引: 注意维度的变化，注意能不能取到(3还是2)
import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
b=a[1:3, 1:3]
c=a[1:2, [1,2]] # 第1维度和后面的整数列表组合。
d=a[[1,2], 1:2]
e=a[...,1]

print("b是\n",b)
print("c是\n",c)
print("d是\n",d)
print("e是\n",e)


b是
 [[5 6]
 [8 9]]
c是
 [[5 6]]
d是
 [[5]
 [8]]
e是
 [2 5 8]


#### 布尔索引

In [10]:
# 布尔索引
import numpy as np 
 
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
print ('我们的数组是：')
print (x)
print ('\n')
# 现在我们会打印出大于 5 的元素
print("x>5的输出是：")  
print(x>5)
print("\n")
print  ('大于 5 的元素是：')
print (x[x >  5]) #可以看到输入是Ture和False，输出是True对应的元素；####输出是1维数组####；


我们的数组是：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


x>5的输出是：
[[False False False]
 [False False False]
 [ True  True  True]
 [ True  True  True]]


大于 5 的元素是：
[ 6  7  8  9 10 11]


#### 花式索引

In [11]:
# 利用笛卡尔积产生索引，笛卡尔积是np.ix_
import numpy as np 
 
x=np.arange(32).reshape((8,4))
print(np.ix_([1,5,7,2],[0,3,1,2]))
print("\n",x)
print ("\n",x[np.ix_([1,5,7,2],[0,3,1,2])]) #注意返回数组的形状

(array([[1],
       [5],
       [7],
       [2]]), array([[0, 3, 1, 2]]))

 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]

 [[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


### 数组迭代 (np.nditer(a,order="K"))
- 高维情况下的F顺序是最左边索引变化最快；C顺序是最右边索引变化最快。

In [1]:
# 高维情况下的F顺序是最左边索引变化最快；C顺序是最右边索引变化最快。
import numpy as np

# 创建一个三维数组 (2, 2, 3)
a = np.array([
    [[1, 2, 3],    # a[0,0]
     [4, 5, 6]],   # a[0,1]
    
    [[7, 8, 9],    # a[1,0]
     [10, 11, 12]] # a[1,1]
])

print("原始数组形状:", a.shape)  # (2, 2, 3)

# C顺序 (row-major)：最右边的索引变化最快
print("\nC顺序 (默认):")
for x in np.nditer(a, order='C'):
    print(x, end=' ')
# 输出: 1 2 3 4 5 6 7 8 9 10 11 12

# F顺序 (column-major)：最左边的索引变化最快
print("\n\nF顺序:")
for x in np.nditer(a, order='F'):
    print(x, end=' ')
# 输出: 1 7 4 10 2 8 5 11 3 9 6 12

原始数组形状: (2, 2, 3)

C顺序 (默认):
1 2 3 4 5 6 7 8 9 10 11 12 

F顺序:
1 7 4 10 2 8 5 11 3 9 6 12 

- 直接对数组进行迭代只能迭代最外层

In [3]:
# 直接对数组进行迭代只能迭代最外层
import numpy as np

# 创建一个三维数组 (2, 2, 3)
a = np.array([
    [[1, 2, 3],    # a[0,0]
     [4, 5, 6]],   # a[0,1]
    
    [[7, 8, 9],    # a[1,0]
     [10, 11, 12]] # a[1,1]
])

for e in a:
    print(e)

[[1 2 3]
 [4 5 6]]
[[ 7  8  9]
 [10 11 12]]


- np.nditer(a,order="K") 中用order控制访问顺序

In [3]:
import numpy as np
a = np.array([[1,2],[3,4]],order="F")
print(a.flags.f_contiguous)
print(f"按默认序迭代：")
for x in np.nditer(a):
    print(x,end=",")
print(f"\n按C序迭代：")
for x in np.nditer(a,order="C"):
    print(x,end=",")

True
按默认序迭代：
1,3,2,4,
按C序迭代：
1,2,3,4,

- 广播迭代

In [8]:
import numpy as np
a = np.arange(4,16).reshape((3,4))
b = np.arange(4)
for x,y in np.nditer([a,b]):
    print(f"{x}:{y}")

4:0
5:1
6:2
7:3
8:0
9:1
10:2
11:3
12:0
13:1
14:2
15:3


- 默认是只读的，如果要修改值需要op_flags参数

In [10]:
import numpy as np
 
a = np.arange(0,60,5).reshape(3,4)  
print (f'原始数组是：\n{a}')
for x in np.nditer(a, op_flags=['readwrite']): ##注意修改时方式
    x[...]=2*x 
print(f"\n修改后数组是：\n{a}")

原始数组是：
[[ 0  5 10 15]
 [20 25 30 35]
 [40 45 50 55]]

修改后数组是：
[[  0  10  20  30]
 [ 40  50  60  70]
 [ 80  90 100 110]]


In [11]:
# 如果不设置op_flags参数，修改时会报错
import numpy as np
 
a = np.arange(0,60,5).reshape(3,4)  
print (f'原始数组是：\n{a}')
for x in np.nditer(a): ##注意修改时方式
    x[...]=2*x 
print(f"\n修改后数组是：\n{a}")

原始数组是：
[[ 0  5 10 15]
 [20 25 30 35]
 [40 45 50 55]]


ValueError: assignment destination is read-only

### 数组操作

#### 改变数组形状  
|函数|	描述|
|------|------|
|reshape|	不改变数据的条件下修改形状|
|flat|	数组元素迭代器|
|flatten|	返回一份数组拷贝，对拷贝所做的修改不会影响原始数组|
|ravel|	返回展开数组|










##### ndarry.reshape(shape,order='C')中的参数order（F连续数组的reshape行为）  
如果是F序数组，但reshape里的order参数为C，则会将原数组按C序拉直并按C序填充











In [18]:
import numpy as np
a = np.array([[1,2,3],[4,5,6]],order='F')
print(a.flags)
print(a)
print(f"\nC序reshape")
b= a.reshape(3,2)
print(b)
print(b.flags)

print(f"\nF序reshape")
print(a.reshape(3,2,order='F'))

  C_CONTIGUOUS : False
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

[[1 2 3]
 [4 5 6]]

C序reshape
[[1 2]
 [3 4]
 [5 6]]
  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False


F序reshape
[[1 5]
 [4 3]
 [2 6]]


In [2]:
# np.ravel()函数
import numpy as np

# 创建示例数组
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

# 1. 基本用法
print("1. 基本用法:")
print("原数组:\n", arr)
print("使用ravel后:", arr.ravel())
print("使用ravel后的数据类型",type(arr.ravel()))

# 2. ravel vs flatten
print("\n2. ravel vs flatten:")
# 修改原数组，观察ravel和flatten的区别
raveled = arr.ravel()
flattened = arr.flatten()
print("初始状态:")
print("ravel结果:", raveled)
print("flatten结果:", flattened)

arr[0, 0] = 99  # 修改原数组
print("\n修改原数组后:")
print("原数组:\n", arr)
print("ravel结果:", raveled)      # 会改变，因为是视图
print("flatten结果:", flattened)  # 不会改变，因为是副本

# 3. ravel的order参数
print("\n3. 不同的order参数:")
print("C顺序 (默认):", arr.ravel())        # 行优先
print("F顺序:", arr.ravel(order='F'))      # 列优先
print("A顺序:", arr.ravel(order='A'))      # 保持原数组顺序
print("K顺序:", arr.ravel(order='K'))      # 内存顺序

1. 基本用法:
原数组:
 [[1 2 3]
 [4 5 6]]
使用ravel后: [1 2 3 4 5 6]
使用ravel后的数据类型 <class 'numpy.ndarray'>

2. ravel vs flatten:
初始状态:
ravel结果: [1 2 3 4 5 6]
flatten结果: [1 2 3 4 5 6]

修改原数组后:
原数组:
 [[99  2  3]
 [ 4  5  6]]
ravel结果: [99  2  3  4  5  6]
flatten结果: [1 2 3 4 5 6]

3. 不同的order参数:
C顺序 (默认): [99  2  3  4  5  6]
F顺序: [99  4  2  5  3  6]
A顺序: [99  2  3  4  5  6]
K顺序: [99  2  3  4  5  6]


In [5]:
# numpy.ndaaay.flat与numpy.ndarry.flatten()的区别 （注意flat没有括号）
import numpy as np

# 创建一个示例数组
arr = np.array([[1, 2, 3], 
                [4, 5, 6]])

# 1. numpy.flat 是一个迭代器
print("1. 使用 flat:")
flat_iterator = arr.flat
print("类型:", type(flat_iterator))
print("迭代结果:", end=" ")
for item in flat_iterator:
    print(item, end=" ")

# 2. flatten() 返回一个新的一维数组
print("\n\n2. 使用 flatten():")
flattened_arr = arr.flatten()
print("类型:", type(flattened_arr))
print("返回数组:", flattened_arr)

# 3. 展示 flat 不会创建新的数组，而 flatten 会
print("\n3. 内存视图:")
arr[0, 0] = 99
print("修改原数组后:")
print("原数组:", arr)
print("重新迭代 flat:", [x for x in arr.flat])
print("flatten的结果:", flattened_arr)  # 不会改变

# 4. flatten的不同顺序参数
print("\n4. flatten的不同顺序:")
print("C顺序 (默认):", arr.flatten())  # 行优先
print("F顺序:", arr.flatten(order='F'))  # 列优先
print("A顺序:", arr.flatten(order='A'))  # 保持原数组的顺序
print("K顺序:", arr.flatten(order='K'))  # 按照内存中的实际顺序

1. 使用 flat:
类型: <class 'numpy.flatiter'>
迭代结果: 1 2 3 4 5 6 

2. 使用 flatten():
类型: <class 'numpy.ndarray'>
返回数组: [1 2 3 4 5 6]

3. 内存视图:
修改原数组后:
原数组: [[99  2  3]
 [ 4  5  6]]
重新迭代 flat: [99, 2, 3, 4, 5, 6]
flatten的结果: [1 2 3 4 5 6]

4. flatten的不同顺序:
C顺序 (默认): [99  2  3  4  5  6]
F顺序: [99  4  2  5  3  6]
A顺序: [99  2  3  4  5  6]
K顺序: [99  2  3  4  5  6]


In [6]:
# np.flat和np.niter的区别
import numpy as np

# 创建示例数组
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

# 1. flat 只能按C顺序迭代
print("1. 使用 flat:")
print("类型:", type(arr.flat))
for x in arr.flat:
    print(x, end=' ')

# 2. nditer 更灵活
print("\n\n2. 使用 nditer:")
print("类型:", type(np.nditer(arr)))
print("\nC顺序:")
for x in np.nditer(arr, order='C'):
    print(x, end=' ')
print("\nF顺序:")
for x in np.nditer(arr, order='F'):
    print(x, end=' ')

# 3. nditer的高级特性
print("\n\n3. nditer的高级特性:")
# 可以同时迭代多个数组
arr2 = arr * 2
for x, y in np.nditer([arr, arr2]):
    print(f"({x}, {y})", end=' ')

# 可以指定读写模式
print("\n\n修改数组元素:")
with np.nditer(arr, op_flags=['readwrite']) as it:
    for x in it:
        x[...] = x * 2
print("修改后的数组:\n", arr)

1. 使用 flat:
类型: <class 'numpy.flatiter'>
1 2 3 4 5 6 

2. 使用 nditer:
类型: <class 'numpy.nditer'>

C顺序:
1 2 3 4 5 6 
F顺序:
1 4 2 5 3 6 

3. nditer的高级特性:
(1, 2) (2, 4) (3, 6) (4, 8) (5, 10) (6, 12) 

修改数组元素:
修改后的数组:
 [[ 2  4  6]
 [ 8 10 12]]


#### 改变数组维度
|函数|	描述|
|------|------|
|ndarry.T或np.transpose()|	转置数组|
|numpy.broadcast(*args)|	广播对象|
|numpy.broadcast_to(array, shape, subok)|	将数组广播到新形状|
|numpy.expand_dims(arr, axis)|	在指定位置插入新的轴以扩展数组形状|
|numpy.squeeze(arr)|	从数组的形状中删除单维度条目|

expand_dims相当于torch的unsqueeze;   
np.transpose相当于torch的permute

##### 数组转置  
在 NumPy 中，对数组执行转置（.T 或 np.transpose）并不会实际改变底层数据在内存中的存储顺序，而是通过调整**步幅(stride)**来实现视图（view）上的维度交换。具体而言：

- 底层内存不动：
转置操作不会进行数据复制，数组元素在物理内存中的排列顺序保持不变。

- 步幅（stride）改变：
NumPy 通过修改返回视图的 strides 属性，使得在多维索引时按新的维度顺序访问原始内存。例如，原数组 a 的形状为 (2, 3) 并在 C-order（行优先）下连续存储，a.strides 可能是 (24, 8)（假设每个元素占 8 字节）。a.T 后，视图的 strides 变为 (8, 24)，从而实现了行列互换的索引逻辑。

- 连续性（contiguity）影响：
原始数组若是 C-contiguous，则转置后可以F连续；



In [9]:
import numpy as np

a = np.arange(6).reshape(2, 3)
print(a.flags)      

b = a.T
print(b.flags)      


  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

  C_CONTIGUOUS : False
  F_CONTIGUOUS : True
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False



In [11]:
# np.transpose和.T在高维情况的用法
a = np.random.rand(2, 3, 4)
print(a.shape)    # (2, 3, 4)
print(a.T.shape)  # (4, 3, 2)
b = np.transpose(a, (1, 0, 2))
print(b.shape)  # 自定义维度重排

(2, 3, 4)
(4, 3, 2)
(3, 2, 4)


##### np.broadcast(*args)
- 返回broadcast对象

In [2]:
import numpy as np
 
x = np.array([[1], [2], [3]])
y = np.array([4, 5, 6])  
 
# 对 y 广播 x
b = np.broadcast(x,y)  
print(b)

<numpy.broadcast object at 0x000002780E77F290>


#### 数组拼接与堆叠

**数组拼接**  
np.concatenate(arrays, axis=0, out=None)
- arrays可以为列表、元组；

**数组堆叠**  
numpy.stack(arrays, axis=0, *, out=None)  
- 要堆叠的数组序列（如列表或元组），所有数组必须具有完全相同的形状。
- axis：指定沿哪个轴进行堆叠，默认为0。可以选维数+1  

**以下二维堆叠的例子可以想象成两个平面在三维空间中怎么放**  

In [1]:
# np.stack会改变数组维度；
import numpy as np
 
a = np.array([[1,2],[3,4]])
b = np.array([[5,6],[7,8]])
 
print ('沿轴 0 堆叠两个数组：')
x_stack = np.stack((a,b),0)
print (x_stack)
print (x_stack.shape)
 
print ('沿轴 1 堆叠两个数组：')
y_stack = np.stack((a,b),1)
print (np.stack((a,b),1))

print("沿轴 2 堆叠两个数组")
z_stack = np.stack((a,b),2)
print (z_stack)
print (z_stack.shape)


沿轴 0 堆叠两个数组：
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
(2, 2, 2)
沿轴 1 堆叠两个数组：
[[[1 2]
  [5 6]]

 [[3 4]
  [7 8]]]
沿轴 2 堆叠两个数组
[[[1 5]
  [2 6]]

 [[3 7]
  [4 8]]]
(2, 2, 2)


#### 数组分割
np.split(ary, indices_or_sections, axis=0)  
如果indices_or_sections为整数，则表示将数组平均分成indices_or_sections份；  
如果indices_or_sections为列表，则表示将数组在indices_or_sections指定的位置进行分割。  
返回的是列表套数组

### Numpy 排序，筛选

#### 排序
两个函数：
- np.sort(a, axis=-1, kind='quicksort', order=None)：返回排序后的数组
- np.argsort(a, axis=-1, kind='quicksort', order=None):返回排序后元素在原数组中的索引

### Numpy函数

#### np.where

In [3]:
import numpy as np
arr_2d = np.array([[1,2,3],[4,5,6]])
result = np.where(arr_2d > 2)
print(result)
print(arr_2d[result] )

(array([0, 1, 1, 1], dtype=int64), array([2, 0, 1, 2], dtype=int64))
[3 4 5 6]


### Numpy 矩阵与线性代数运算

### 其它应用：
- unique
- sort
- 采样
- 向量操作(对行列的整体操作)
- 自定义函数的应用

#### unique  
np.unique(arr,return_index=False,return_inverse=False,return_counts=False)  
arr 可以是列表，元组  

In [1]:
import numpy as np
arr = [3, 1, 2, 3, 2]
unique_values, indices, inverse ,counts = np.unique(arr,return_counts=True,return_index=True,return_inverse = True)
print(unique_values)  # [1, 2, 3]
print(indices)         # [1, 2, 0]
print(inverse)         # [2, 0, 1, 2, 1]
print(counts)          # [1, 2, 2]


[1 2 3]
[1 2 0]
[2 0 1 2 1]
[1 2 2]


#### 零维数组和numpy标量

In [16]:
import numpy as np
a = np.array(2)
b = np.int32(2)
x_stack = np.array([2])
print(type(a))
print(b)

<class 'numpy.ndarray'>
2


#### 为什么np.array([2])的shape是(1,)而不是(1)
都是用元组表示的，要输入一元元组需要加一个逗号

In [1]:
a = (3)
b = (3,)
print(type(a))
print(type(b))
print(b)

<class 'int'>
<class 'tuple'>
(3,)


## 一些场景

### 两个数组，要让其中一个按值排序，另一个按排序后形式调整对应关系
- 转化为字典，用字典的key-value对应关系
- np.argsort()

## 实际写代码时出现的疑问

### 大部分numpy函数可以直接对Series和列表使用，返回的是numpy数组； 
1. np.random.choice可以对列表采样吗？传递的概率可以时列表吗？返回值是列表吗？如果概率不是归一化的会怎样？
   - 可以对列表采样，传递的概率可以是列表。
   - 如果没有归一化，会报错
   - 返回的是numpy对象，可以使用to_list()转换为列表.高维数组可以；
2. np.sort(a)  可以对列表用吗？
    - 可以，但是返回值是numpy.ndarray类型；
3. np.expand_dims(a,axis=0) 可以对列表用吗？
    - 可以，也可以对二维列表和series用；
4. np.setdiff1d(a,b) 可以对列表用吗？
    - 可以，但是返回值是numpy.ndarray类型；   
    
...... 不再列举

In [4]:
import numpy as np
a = [1,2,3,4,5]
# a = np.array(a)
print(a)
prob = np.array([0.1,0.3,0.2,0.1,0.3])
a_choice = np.random.choice(a, size=4, replace=False, p=prob)
print(type(a_choice))
print(a_choice)

### 

[1, 2, 3, 4, 5]
<class 'numpy.ndarray'>
[5 1 3 2]


In [5]:
a = [5,2,1,3,4]
sorted_a = np.sort(a)
print(type(sorted_a))

<class 'numpy.ndarray'>


In [6]:
import numpy as np
a = [[1,2,3],[4,5,6]]
a_expanded = np.expand_dims(a,axis=0)
print(a_expanded.shape)

(1, 2, 3)


In [4]:
import numpy as np
a = [1,2,3,4,5]
b = [1,2]
np.setdiff1d(a,b)

array([3, 4, 5])

In [None]:
import numpy as np
print(np.arange(10))

### list函数可以直接对numpy数组用吗？
- 可以