## ndarray

`ndarray`是相同类型和（占用内存）大小的元素的多维集合容器。它的维度和每一维的元素数量是由它的`shape`决定，`shape`是 N 个正整数组成的元组。

它像python中的其他容器对象一样，可以使用下标或者切片操作。

不同的`ndarray`可以共享相同的数据，也就是说，在一个`ndarray`中做的修改在另一个`ndarray`中可能是可见的。ndarray也可以操作 python `string`类型或者其他引用了`buffer`或者`array`接口的对象的内存。

举个栗子：

In [2]:
import numpy as np

x = np.array([[1,2,3],[4,5,6]], np.int32)
print(type(x))
print(x.shape)
print(x.dtype)

# 可以使用下标索引、切片操作
print(x[1,2])  # 第二行，第三列，6

# 切片操作，得到的 y 是 x 的一个视图
y = x[:,1]
print(y)

# 修改 y，则 x 也会被修改
y[0] = 9
print(x)

<class 'numpy.ndarray'>
(2, 3)
int32
6
[2 5]
[[1 9 3]
 [4 5 6]]


## 内存模型

`ndarray`的数据部分由一串连续的一维内存区域组成，它的 shape 有 N 个 integer 定义。
每个元素的大小由与`ndarray`相关联的 `data-type object` 决定。

## 属性

### 内存模型相关

下面这些属性包含了ndarray数据在内存中的布局信息

`ndarray.flags`，`ndarray.shape`，`ndarray.strides`，`ndarray.ndim`，`ndarray.data`，`ndarray.size`，`ndarray.itemsize`，`ndarray.nbytes`，`ndarray.base`

例子：

In [30]:
x = np.array([[1,2,3,4,5],[5,6,7,8,5],[5,6,7,8,5]], np.int32)

print(x)

print('flags:')
print(x.flags)

print('shape:', x.shape)   # 表示数组维度的元组

print('strides:', x.strides)  # 穿个每个数组时跨越的字节数，每个 item 的字节数

print('ndim:', x.ndim)     # 数组维度数量，2维数组

print('data:', x.data)     # data 的起始位置

print('size:', x.size)     # 元素数量

print('itemsize:', x.itemsize) # 每个元素占的字节数

print('nbytes:', x.nbytes)     # 元素占的总字节数

print('base:', x.base)         # 如果数据类型是其他的 python 对象类型，则返回该类型

[[1 2 3 4 5]
 [5 6 7 8 5]
 [5 6 7 8 5]]
flags:
  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  UPDATEIFCOPY : False
shape: (3, 5)
strides: (20, 4)
ndim: 2
data: <memory at 0x10ef26ea0>
size: 15
itemsize: 4
nbytes: 60
base: None


### Data type
可以通过 dtype 属性获取

In [31]:
print('dtype:', x.dtype)

dtype: int32


### 其他属性

`ndarray.T`，`ndarray.real`，`ndarray.imag`，`ndarray.flat`，`ndarray.ctypes`

In [48]:
print('T:', x.T)    # 矩阵的转置

y = np.array([1, 2, 3], np.int32)    # 如果 ndarray.ndim < 2 则 ndarray.T 是它自身
print('y:', y)
print('y_T:', y.T)

print('real:', x.real)
print('imag:', x.imag)

print('flat:', x.flat)               # ndarray 的一维可迭代对象
for i in x.flat:
    print(i)
print('ctypes:', x.ctypes)

T: [[1 5 5]
 [2 6 6]
 [3 7 7]
 [4 8 8]
 [5 5 5]]
y: [1 2 3]
y_T: [1 2 3]
real: [[1 2 3 4 5]
 [5 6 7 8 5]
 [5 6 7 8 5]]
imag: [[0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]
flat: <numpy.flatiter object at 0x7fe8659dd800>
1
2
3
4
5
5
6
7
8
5
5
6
7
8
5
ctypes: <numpy.core._internal._ctypes object at 0x10f182780>


## 数组方法

数组的方法：

一下部分方法除了可以使用 np.xx 调用之外，也可以作为成员方法调用，ndarray.xx

`all`，`any`，`argmax`，`argmin`，`argpartition`，`argsort`，`choose`，`clip`，`compress`，`copy`，`cumprod`，`cumsum`，`disgonal`，`imag`，`max`, `mean`, `min`, `nonzero`, `partition`, `prod`, `ptp`, `put`, `ravel`, `real`, `repeat`, `reshape`, `round`, `searchsorted`, `sort`, `squeeze`, `std`, `sum`, `swapaxes`, `take`, `trace`, `transpose`, `var-方差`

方法 | 备注
----|----
`all` | 所有为 True，则返回True
`any` | 只要有 True，则返回True
`argmax` | 最大元素下标
`argmin` | 最小元素下标
`argpartition` | ...
`argsort` | 返回排好序数组的值在原数组中的下标
`choose` | 把第一个参数数组作为下标，从第二个数组中选取元素，组成新的数组
`clip` | 使用给定的 min 和 max 把数据更改成在 min-max 之间
`compress` | 根据第二个数组，摘取第一个数组中的数据
`copy` | 复制数组，不共享数据
`cumprod` | 累计乘积，组成新数组
`cumsum` | 累计求和，组成新数组
`disgonal` | 斜对角线组成的数组
`imag`, `real` | 返回数据的虚数部分组成的数组，real 为实数部分
`max`, `min`, `mean` | 最大，最小，平均数
`nonezero` | 返回非0数据的下标
`partition` | ..
`prod`,`sum` | 返回乘积，和
`ptp` | peak to peak，最大与最小值之差
`put` | 使用给定的值替换数组中的元素
`ravel` | 返回临近扁平化数组（降维）
`repeat` | 使用重复数据的方式构造数组
`reshape` | 重新设定数组的形状，要保证 d1*d2*...dn = new_d1*new_d2*new_dm
`round` | 四舍五入
`searchsorted` | 找出在数组顺序不变的情况下插入数据的下标
`sort` | 排序
`squeeze` | 移出一维维度，比如[[1],[2],[3]] => [1, 2, 3]
`std`，`var` | 标准差，方差
`swapaxes` | 交换维度
`take` | 根据给定的 indeces 从数组中选取数据
`trace` | 返回斜对角元素之和
`transpose` | 转置，同 ndarray.T 属性

In [35]:
print(np.all([[True, False], [True, True]])) # np.all ，所有数据为 True 则为 True
print(np.all([True, True]))

print(np.any([[True, False], [True, True]])) # np.any ，只有要为 True 的数据，则为 True

a = np.arange(6).reshape(2, 3)
print('--\nargmax:')
print(a)
print(np.argmax(a))               # argmax 返回最大元素的下标，如果未指定维度，则返回所有数据中最大元素的下标
print(np.argmax(a, axis=0))       # 指定维度，返回最大元素下标
print(np.argmax(a, axis=1))

a = np.array([3, 1, 4, 2])
print('--\nargsort:')
print(np.argsort(a))              # 返回一个数组，数组的值是“排好序后该位置的数据在原数组中的下标”

# 构造出来的数组为 [a[2][0], a[3][1], a[1][2], a[0][3]]
print('--\nchoose:')
print(np.choose([2, 3, 1, 0],   
                [[0, 1, 2, 3], [10, 11, 12, 13], [20, 21, 22, 23], [30, 31, 32, 33]]))

# 如果下标超出数组大小，则根据 mode 决定表现形式
# mode='raise' 会抛出异常，为'clip'，如果小于0，则为0，如果大于 length ，则为 length - 1，为 warp，则为 index%length
# 构造出来的数组为 [a[2][0], a[3][1], a[1][2], a[0][3]]
print(np.choose([2, 4, 1, 0],[[0, 1, 2, 3], [10, 11, 12, 13], [20, 21, 22, 23], [30, 31, 32, 33]], mode='clip'))

# clip 后面两个参数分别是 min, max，可以是数组。如果小于 min，则返回的数组该位置为 min，如果大于 max，则返回该位置为 max
print("--\nclip:")
print(np.clip(np.arange(10), 1, 8))

# compress 根据给出的条件（condition）对 array 做切片
print("--\ncondition:")
a = np.array([[1, 2], [3, 4], [5, 6]])
print(np.compress([True, False, False], a, axis=0))  # 在 第一维上切片，只获取第一个数组
print(np.compress([True, False], a, axis=1))         # 在 第二维上切片，只获取每个数组的第一个元素

# copy 同 np.array(a, copy=True)
print("--\ncopy:")
z = np.copy(a)
z[0] = 100          ## 不会更改原数组
print(a)

# cumprod 返回数组在所给维度上的累积乘积
print("--\ncumprod，cumsum:")
print(np.cumprod(a))
print(np.cumprod(a, axis=0))
print(np.cumsum(a))
print(np.cumsum(a, axis=0))

a = np.arange(10)
print(np.reshape(a, (5, 2)))

False
True
True
--
argmax:
[[0 1 2]
 [3 4 5]]
5
[1 1 1]
[2 2]
--
argsort:
[1 3 0 2]
--
choose:
[20 31 12  3]
[20 31 12  3]
--
clip:
[1 1 2 3 4 5 6 7 8 8]
--
condition:
[[1 2]]
[[1]
 [3]
 [5]]
--
copy:
[[1 2]
 [3 4]
 [5 6]]
--
cumprod，cumsum:
[  1   2   6  24 120 720]
[[ 1  2]
 [ 3  8]
 [15 48]]
[ 1  3  6 10 15 21]
[[ 1  2]
 [ 4  6]
 [ 9 12]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [38]:
# squeeze
a = np.array([[1], [2], [3]])
print(np.squeeze(a))

[1 2 3]


### 数组转变

方法 | 备注
----|----
`item` | 索引数组中的元素
`tolist` | 返回一个列表 list
`itemset` | 设置数组中的元素，类似于 put,但是只能设置一个元素
`tostring` | 转化成 python bytes
`tofile` | 转换成字符串或者二进制，存储到文件中
`dump` | dump 到文件
`dumps` | dump 出字符串
`astype` | 转换成其他类型的数据
`byteswap` | ..
`copy` | 拷贝数组，数据不共享
`view` | 返回数组的视图，数据共享
`setflags` | Set array flags WRITEABLE, ALIGNED, (WRITEBACKIFCOPY and UPDATEIFCOPY), respectively.
`fill` | 使用一个变量填充数组

In [53]:
a = np.random.randint(10, size=(2, 3))
print(a.fill(0))
print(a)

None
[[0 0 0]
 [0 0 0]]


### 算术，矩阵乘法，比较

np 几乎重载了所有的运算符。

### 特殊方法

`__copy__`，`__deepcopy__`，`__new__`，`__reduce__`，`__setstate__`，`__array__`，`__array_wrap__`，`__len__`，`__getitem__`，`__setitem__`，`__contains__`，`__int__`，`__long__`，`__float__`，`__hex__`，`__oct__`，`__str__`，`__repr__`

In [58]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[1, 2], [0,0]])
print(a * b)

[[1 4]
 [0 0]]
