In [1]:
import numpy as np

# ndarray


## 常用属性

| 属性 | 说明 |
| - | - |
| ndim | 秩 |
| shape | 维度 |
| size | 元素数量 |
| dtype | 数据类型 |
<!-- | itemsize | 每个元素大小 |
| nbytes | 总大小 | -->


## 常用数据类型

| 名称 | 描述 |
| ---- | ---- |
| bool | 用一个字节存储的布尔类型(True或False) |
| inti | 由所在平台决定器大小的整数 |
| int8 | 8位整数($-2^7$ ~ $2^7-1$) |
| int16 | 16位整数($-2^{15}$ ~ $2^{15}-1$) |
| int32 | 32位整数($2^{31}$ ~ $2^{31}-1$) |
| int64 | 64位整数($2^{63}$ ~ $2^{63}-1$) |
| uint8 | 无符号整数(0 ~ $2^8-1$) |
| uint16 | 无符号整数(0 ~ $2^{16}-1$) |
| uint32 | 无符号整数(0 ~ $2^{32}-1$) | 
| uint64 | 无符号整数(0 ~ $2^{64}-1$) |
| float16 | 半精度浮点数: 16位，正负号1位，指数5位，精度10位 |
| float32 | 单精度浮点数: 32位，正负号1位，指数8位，精度23位 |
| float64 或 float | 双精度浮点数: 64位，正负号1位，指数11位，精度52位 |
| complex64 | 复数，分别用两个32位浮点数表示实部和虚部 |
| complex128 或 complex | 复数，分别用两个64位浮点数表示实部和虚部 |


## 数组创建


### array()

用列表、元组等类型创建


In [2]:
arr = np.array([1, 2, 3])
print(arr)

[1 2 3]


### arange()


In [3]:
arr = np.arange(1, 22, 2.5)
print(arr)

[ 1.   3.5  6.   8.5 11.  13.5 16.  18.5 21. ]


### random


In [4]:
arr = np.random.randint(1, 50, size=[3, 4])
print(arr)

[[18 20 13 27]
 [23 14 15  8]
 [16 23 19 38]]


### csv读取

 `np.loadtxt(frame,dtype,delimiter,skiprows)`

* frame: 文件、字符串或产生器，可以是.gz等压缩文件
* dtype: 数据类型，（如：int , float等）
* delimiter: 分割字符串，通常用逗号
* skiprows: 跳过前n行, 默认读取所有行	


In [5]:
# 手动指定类型为str
arr = np.loadtxt('a.csv', delimiter=',', encoding='utf-8',
                 dtype=bytes).astype(str)
print(arr)

[['1' '2' '4']
 ['1233' 'asd' 'qwrer']
 ['123' '1233.3' '324.1']]


### 其他定义方式

| 方法 | 说明 |
| -- | ---- |
| np.ones(shape) | 根据shape生成一个全1的数组，shape是元组类型 |
| np.zeros(shape) | 根据shape生成一个全0的数组，shape是元组类型 |
| np.empty(shape) | 根据shape生成一个空数组，shape是元组类型 |
| np.full(shape, fill_value) | 根据shape生成一个全fill_value的数组，shape是元组类型 |
| np.eye(N) | 生成一个N阶单位矩阵(对角线上为1) |
| np.linspace(start, stop, num, endpoint, retstep=False, dtype=None) | 生成一个等差数列，start是起始值，stop是结束值，num是生成的数组的长度，endpoint是是否包含stop值，retstep是是否返回步长，dtype是数组的数据类型 |
| np.logspace(start, stop, num, endpoint, base, dtype=None) | 生成一个等比数列，start是起始值，stop是结束值，num是生成的数组的长度，endpoint是是否包含stop值，base是底数，dtype是数组的数据类型 |
| np.concatenate((a1, a2, ...), axis=0) | 将多个数组沿着axis轴进行拼接，axis=0表示按列拼接，axis=1表示按行拼接 |


In [6]:
arr = np.ones((3, 4))
print(arr, '\n')

arr = np.zeros((3, 4), dtype=np.int64)
print(arr, '\n')

np.empty((3, 4))
print(arr, '\n')

arr = np.full((3, 4), 5)
print(arr, '\n')

arr = np.eye(3)
print(arr, '\n')

arr = np.linspace(1, 10, 5)
print(arr, '\n')

arr = np.logspace(1, 10, 5, base=2)
print(arr, '\n')

arr = np.array([[1, 2, 3], [4, 5, 6]])
arr = np.concatenate((arr, arr), axis=0)
print(arr, '\n')

arr = np.concatenate((arr, arr), axis=1)
print(arr, '\n')

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]] 

[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]] 

[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]] 

[[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]] 

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]] 

[ 1.    3.25  5.5   7.75 10.  ] 

[   2.            9.51365692   45.254834    215.2694823  1024.        ] 

[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]] 

[[1 2 3 1 2 3]
 [4 5 6 4 5 6]
 [1 2 3 1 2 3]
 [4 5 6 4 5 6]] 



## 数组操作


### 索引

In [7]:
print(arr[2], '\n')

print(arr[2][1], '\n')

[1 2 3 1 2 3] 

2 



### 切片

获取数组元素子集，方法[start: end: step]

取值时包含start索引值，但不包含end索引值


In [8]:
arr = np.array([[1, 2, 3, 4, 5, 6], [2, 3, 4, 5, 6, 7], [3, 4, 5, 6, 7, 8],
                [4, 5, 6, 7, 8, 9], [5, 6, 7, 8, 9, 10]])

print(arr[1:6:2, 1:3], '\n')

[[3 4]
 [5 6]] 



### 类型转换

 `np.astype(dtype)`


In [9]:
print(arr.dtype, '\n')

arr = arr.astype(str)
print(arr.dtype, '\n')
print(arr, '\n')

int32 

<U11 

[['1' '2' '3' '4' '5' '6']
 ['2' '3' '4' '5' '6' '7']
 ['3' '4' '5' '6' '7' '8']
 ['4' '5' '6' '7' '8' '9']
 ['5' '6' '7' '8' '9' '10']] 



## 数值计算

| 函数 | 说明 |
| ------------ | ------------------------- |
| sum(axis=None) | 根据给定轴axis计算数据相关元素之和 |
| mean(axis=None) | 根据给定轴axis计算数据相关元素的均值 |
| std(axis=None) | 根据给定轴axis计算数据相关元素的方差 |
| var(axis=None) | 根据给定轴axis计算数据相关元素的方差 |
| min(axis=None) | 根据给定轴axis计算数据相关元素的最小值 |
| max(axis=None) | 根据给定轴axis计算数据相关元素的最大值 |
| argmin(axis=None) | 根据给定轴axis计算数据相关元素的最小值的索引值 |
| argmax(axis=None) | 根据给定轴axis计算数据相关元素的最大值的索引值 |
| histogram(arr, bins, range, weights, density) | 直方图统计<br/>bins 指定统计的区间个数<br/>range 表示统计范围的最小值和最大值的元组<br/>weights 为数组的每个元素指定了权值<br/>density 为True时，返回每个区间的概率密度；为False，返回每个区间中元素的个数 |


In [10]:
arr = np.array([[13, 2, 3, 4], (5, 6, 7, 8), (9, 10, 11, 12)])
print(arr, '\n')

print('sum: \t', np.sum(arr))
print('mean: \t', np.mean(arr, axis=0))
print('std: \t', np.std(arr, axis=1))
print('var: \t', arr.var())
print('min: \t', arr.min(axis=0))
print('max: \t', arr.max(axis=1))
print('argmin: \t', arr.argmin(axis=0))
print('argmax: \t', arr.argmax(axis=1))

# 将arr中0-12的所有数划分成3个区间 返回统计个数数组hits，区间划分情况数组bins（每个区间左闭右开，最后有一个区间全闭）
hits, bins = np.histogram(arr, bins=3, range=(0, 12))
print('histogram: \thits: \t', hits)
print('\t\tbins: \t', bins)


[[13  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] 

sum: 	 90
mean: 	 [9. 6. 7. 8.]
std: 	 [4.38748219 1.11803399 1.11803399]
var: 	 11.916666666666666
min: 	 [5 2 3 4]
max: 	 [13  8 12]
argmin: 	 [1 0 0 0]
argmax: 	 [0 3 3]
histogram: 	hits: 	 [2 4 5]
		bins: 	 [ 0.  4.  8. 12.]
