Numpy是使用python进行科学计算的基本软件包，它包含以下内容：

1、强大的N维数组

2、复杂的(广播)功能

3、继承C/C++和fortran代码的工具

4、有用的线性代数、傅里叶变换和随机数功能

In [1]:
import numpy as np

## A、NumPy的ndarray:一种多维数组对象

&emsp;&emsp;ndarray，数组，该对象是一个快速而灵活的大数据集容器，可以利用这种数组对整块数据执行一些数学运算，其语法跟标量元素之间的运算一样，ndarray所有元素必须是相同类型的，其基本属性有：

1、ndim：维度

2、shape：各维度大小(元组)

3、size：元素个数

4、dtype：数据类型

### a、创建数组

- array:将python对象(list/tuple)转化为数组

In [2]:
list_0 = list(range(4))
list_1 = [list_0] * 2
print(list_1)
arr_0 = np.array(list_1)
print(arr_0)
print(arr_0.ndim)
print(arr_0.shape)

[[0, 1, 2, 3], [0, 1, 2, 3]]
[[0 1 2 3]
 [0 1 2 3]]
2
(2, 4)


- np.array会尝试为新建的数组推断出一个较为合适的数据类型，数据类型保存在一个特殊的dtype对象中

In [3]:
list_2 = [1, 3, 1.5]
arr_1 = np.array(list_2)
print(arr_1.dtype)

float64


- empty()：分配指定大小的数组，未初始化 ，随机填充值(元组形式输入shape)

In [4]:
print(np.empty((2,2)))

[[2.57852713e-153 3.65582216e+233]
 [1.90715801e+228 5.42050460e+102]]


- zeros(), ones()：创建全为0或1的数组

In [5]:
arr_0s = np.zeros((2,3))
arr_1s = np.ones((2,2))
print(arr_0s)
print(arr_1s)

[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1.]
 [1. 1.]]


- ones_like(),zeros_like()：根据指定的形状和type，创建全1、全0的数组

- eye(),diag()：创建对角矩阵

- arange()：通过开始值、终值和步长创建一维数组

- linspace()：通过开始值、终值和元素个数创建一维数组

- logspace()：同上，但创建等比数列

### b、ndarray的数据类型

ndarry基本数据类型

In [6]:
print(set(np.typeDict.values()))

{<class 'numpy.uint32'>, <class 'numpy.str_'>, <class 'numpy.datetime64'>, <class 'numpy.float32'>, <class 'numpy.bool_'>, <class 'numpy.float64'>, <class 'numpy.clongdouble'>, <class 'numpy.float16'>, <class 'numpy.bytes_'>, <class 'numpy.uint16'>, <class 'numpy.complex64'>, <class 'numpy.complex128'>, <class 'numpy.timedelta64'>, <class 'numpy.int32'>, <class 'numpy.uint8'>, <class 'numpy.longdouble'>, <class 'numpy.void'>, <class 'numpy.int64'>, <class 'numpy.uintc'>, <class 'numpy.object_'>, <class 'numpy.int8'>, <class 'numpy.intc'>, <class 'numpy.uint64'>, <class 'numpy.int16'>}


指定数据类型--dtype

In [7]:
np.array(range(10),dtype = 'c8')

array([0.+0.j, 1.+0.j, 2.+0.j, 3.+0.j, 4.+0.j, 5.+0.j, 6.+0.j, 7.+0.j,
       8.+0.j, 9.+0.j], dtype=complex64)

In [8]:
np.array(range(10),dtype = 'f4')

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.], dtype=float32)

In [9]:
np.array(range(255,260), dtype = 'i1')

array([-1,  0,  1,  2,  3], dtype=int8)

In [10]:
np.array(range(255,260), dtype = 'i2')

array([255, 256, 257, 258, 259], dtype=int16)

转换数据类型--arr.astype(dtype)

In [11]:
arr_4 = np.array(range(5))
print(arr_4,arr_4.dtype)
float_arr4 = arr_4.astype('f8')
print(float_arr4,float_arr4.dtype)

[0 1 2 3 4] int32
[0. 1. 2. 3. 4.] float64


将浮点数转换成整数，则小数部分将会被截取删除

In [12]:
arr_5 = arr_4 + arr_4/10
print(arr_5,arr_5.dtype)
int_arr5 = arr_5.astype('i4')
print(int_arr5, int_arr5.dtype)

[0.  1.1 2.2 3.3 4.4] float64
[0 1 2 3 4] int32


如果某字符串数组表示的全是数字，也可以用astype将其转换为数值形式

In [13]:
arr_strs = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
print(arr_strs,arr_strs.dtype)
float_arr_strs = arr_strs.astype(float)
print(float_arr_strs,float_arr_strs.dtype)

[b'1.25' b'-9.6' b'42'] |S4
[ 1.25 -9.6  42.  ] float64


### c、数组形状操作

- 使用reshape，有返回值

In [14]:
arr_5 = np.array(range(9))
print(arr_5)
reshape_arr5 = arr_5.reshape((3,3))
print(reshape_arr5)

[0 1 2 3 4 5 6 7 8]
[[0 1 2]
 [3 4 5]
 [6 7 8]]


&emsp;&emsp;这里改变arr_5的值，reshape_arr5的值也会跟着变，反过来改变reshape_arr5的值，arr_5同样也跟着变

In [15]:
arr_5[0] = 99
print('arr_5:\n',arr_5)
print('reshape_arr5:\n',reshape_arr5)

arr_5:
 [99  1  2  3  4  5  6  7  8]
reshape_arr5:
 [[99  1  2]
 [ 3  4  5]
 [ 6  7  8]]


&emsp;&emsp;-1代表的维度的取值需要根据数组的长度和其他维度来共同确认

In [16]:
reshape_arr5.reshape((-1,3))

array([[99,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8]])

- shape 数组本身改变

In [17]:
arr_5 = np.array(range(9))
print(arr_5)
arr_5.shape = (3,3)
print(arr_5)

[0 1 2 3 4 5 6 7 8]
[[0 1 2]
 [3 4 5]
 [6 7 8]]


- 使用resize，但是没有返回值

In [18]:
arr_5 = np.array(range(9))
print('arr_5:\n',arr_5)
resize_arr5 = arr_5.resize(3,3)
print('resize_arr5:\n',resize_arr5)

arr_5:
 [0 1 2 3 4 5 6 7 8]
resize_arr5:
 None


- ravel 扁平化

同样，改变arr_5也会改变revel_arr5，反之亦然

In [19]:
arr_5 = np.array(range(9))
arr_5.shape = (3,3)
print('arr_5:\n',arr_5)
ravel_arr5 = arr_5.ravel()
print('ravel_arr5:\n', ravel_arr5)

arr_5:
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
ravel_arr5:
 [0 1 2 3 4 5 6 7 8]


flatten 扁平化

In [20]:
#跟ravel的作用一样，但不同的是新创建出来的数组与原数组改变时，互不影响
flatten_arr5 = arr_5.flatten()

### d、NunPy数组的运算

In [21]:
arr_5 = np.array(range(9))
arr_5.shape = (3,3)
print('arr_5:\n',arr_5)
print('arr_5 * arr_5:\n',arr_5 * arr_5)

arr_5:
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
arr_5 * arr_5:
 [[ 0  1  4]
 [ 9 16 25]
 [36 49 64]]


- 数组与标量的算术运算会将标量值传播到各个元素 + - * / // % **

In [22]:
arr_5 = np.array(range(9))
arr_5.shape = (3,3)
print('arr_5:\n',arr_5)
print('arr_5+3:\n',arr_5+3)

arr_5:
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
arr_5+3:
 [[ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


- shape相同的数组之间的比较会生成布尔值数组

In [23]:
arr_5 = np.array(range(9))
arr_5.shape = (3,3)
print('arr_5:\n',arr_5)
print('arr_5%3:\n',arr_5%3)
print('判断arr_5 == arr_5%3:\n',arr_5 == arr_5%3)

arr_5:
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
arr_5%3:
 [[0 1 2]
 [0 1 2]
 [0 1 2]]
判断arr_5 == arr_5%3:
 [[ True  True  True]
 [False False False]
 [False False False]]


### e、数组的广播(broadcast)

&emsp;&emsp;如果两个数组的维数不同，则元素到元素的操作是不可能的，但是在NumPy中仍然可以对形状不相似的数组进行操作，因为它拥有广播功能

&emsp;&emsp;较小的数组会广播到较大数组的大小，以便使它们的形状可兼容

&emsp;&emsp;一定要注意，执行broadcast的前提在于，两个ndarray执行的是element-wise(按位加，按位减)的运算，而不是矩阵乘法的运算，矩阵乘法运算时需要维度之间严格匹配

&emsp;&emsp;另外，当操作两个array时，numpy会逐个比较他们的shape(构成的元组tuple)，只有在下述情况下，两arrays才算兼容：

&emsp;&emsp;1、相等

&emsp;&emsp;2、其中一个为1，进而可进行拷贝拓展已至shape匹配

- Broadcast(光播)的规则：

&emsp;&emsp;1、让所有输入数组都向其中shape最长的数组看齐，shape中不足的部分都通过在前面加1补齐

&emsp;&emsp;2、输出数组的shape是输入数组shape的各个轴上的最大值

&emsp;&emsp;3、如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时，这个数组能够用来计算，否则出错

&emsp;&emsp;4、当输入数组的某个轴的长度为1时，沿着此轴运算时都用此轴上的第一组值

![](https://img-blog.csdnimg.cn/20200707120420257.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2V0aGFuX3N1aQ==,size_16,color_FFFFFF,t_70)

In [24]:
a = np.array([[0.0,0.0,0.0],[10.0,10.0,10.0],[20.0,20.0,20.0],[30.0,30.0,30.0]]) 
b = np.array([1.0,2.0,3.0],)  
print ('数组a：\n',a)  
print ('数组b：\n',b)  
print ('数组a加数组b：\n',a+b)  

数组a：
 [[ 0.  0.  0.]
 [10. 10. 10.]
 [20. 20. 20.]
 [30. 30. 30.]]
数组b：
 [1. 2. 3.]
数组a加数组b：
 [[ 1.  2.  3.]
 [11. 12. 13.]
 [21. 22. 23.]
 [31. 32. 33.]]


### f、索引和切片

- 一维数组：类似列表；

&emsp;&emsp;跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上

In [25]:
#numpy
arr = np.array(range(10))
arr_slice = arr[3:6]
print('arr:\n',arr)
print('arr_alice:\n',arr_slice)
#列表
ls = list(range(10))
ls_slice = ls[3:6]
print('ls:\n',ls)
print('ls_slice:\n',ls_slice)

arr:
 [0 1 2 3 4 5 6 7 8 9]
arr_alice:
 [3 4 5]
ls:
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
ls_slice:
 [3, 4, 5]


In [26]:
arr_slice[0]= 12345
ls_slice[0] = 12345
print('arr:\n',arr)
print('arr_alice:\n',arr_slice)
print('ls:\n',ls)
print('ls_slice:\n',ls_slice)

arr:
 [    0     1     2 12345     4     5     6     7     8     9]
arr_alice:
 [12345     4     5]
ls:
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
ls_slice:
 [12345, 4, 5]


&emsp;&emsp;切片[ : ]会给数组中的所有值赋值：

In [27]:
arr_slice[:] = 0
print('arr:\n',arr)
print('arr_alice:\n',arr_slice)

arr:
 [0 1 2 0 0 0 6 7 8 9]
arr_alice:
 [0 0 0]


- 如果想要得到的是ndarray切片的一份副本，就需要进行复制操作copy()

In [28]:
arr = np.array(range(10))
arr_slice = arr[3:6].copy()
print('arr:\n',arr)
print('arr_alice:\n',arr_slice)
arr_slice[:] = 0
print('arr:\n',arr)
print('arr_alice:\n',arr_slice)

arr:
 [0 1 2 3 4 5 6 7 8 9]
arr_alice:
 [3 4 5]
arr:
 [0 1 2 3 4 5 6 7 8 9]
arr_alice:
 [0 0 0]


- 高维度数组:索引位置上的元素不再是标量而是一维数组

In [29]:
ls = [list(range(5)),list(range(5,10))]
arr = np.array(ls)
print(arr[0,2:])

[2 3 4]


&emsp;&emsp;在多维数组中，如果省略了后面的索引，则返回对象会是一个维度低一点的ndarray

In [30]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr3d)
arr3d.shape
print(arr3d[0])
print(arr3d[0,0])
print(arr3d[0,0,0])

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
[[1 2 3]
 [4 5 6]]
[1 2 3]
1


&emsp;&emsp;标量值和数组都可以被赋值给数组

In [31]:
#将arr3d[0]的数据进行备份
old_values = arr3d[0].copy()
#修改arr3d[0]的值为42
arr3d[0] = 42
print(arr3d)
print('===========分割线============')
arr3d[0] = old_values
print(arr3d)

[[[42 42 42]
  [42 42 42]]

 [[ 7  8  9]
  [10 11 12]]]
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


### g、布尔型索引

In [32]:
strs = np.array(['a', 'b', 'c', 'd', 'e', 'f', 'g'])
data = np.random.randn(7, 4) #随机形成7*4的数组
print(strs)
print(data)

['a' 'b' 'c' 'd' 'e' 'f' 'g']
[[-0.83465086 -1.27787728 -0.51001631  2.41875101]
 [ 2.17527665 -0.52984727  1.47737271  0.28094732]
 [-1.44985725 -0.2244756   0.11118387  0.29820382]
 [-0.53790567 -0.85073711  0.73907333 -0.51115543]
 [ 0.26454058 -0.07179769  0.74058098 -0.54208441]
 [-0.14139365  0.7875561   1.29168203  0.76889649]
 [ 1.28923189  0.73338458 -0.20791892 -0.7944734 ]]


假设每个字母都对应data数组中的一行，如何选出对应于字母'a'的所有行？

In [33]:
print(strs == 'a')
print(data[strs == 'a'])
print(data[strs == 'a',2:])

[ True False False False False False False]
[[-0.83465086 -1.27787728 -0.51001631  2.41875101]]
[[-0.51001631  2.41875101]]


要选择'a'以外的其他值，既可以使用不等于符号（!=），也可以通过~对条件进行否定

In [34]:
print(strs != 'a')
print(data[~(strs == 'a')])

[False  True  True  True  True  True  True]
[[ 2.17527665 -0.52984727  1.47737271  0.28094732]
 [-1.44985725 -0.2244756   0.11118387  0.29820382]
 [-0.53790567 -0.85073711  0.73907333 -0.51115543]
 [ 0.26454058 -0.07179769  0.74058098 -0.54208441]
 [-0.14139365  0.7875561   1.29168203  0.76889649]
 [ 1.28923189  0.73338458 -0.20791892 -0.7944734 ]]


### h、数组转置和轴对换

- T:转置/轴反转；transpose：轴对换

In [35]:
arr = np.arange(15).reshape((3, 5))
print('arr:\n',arr)
print('arr.T:\n',arr.T)
#这里transpose实际上是对shape按索引进行一次重新排序
print('arr.transpose((1,0)):\n',arr.transpose((1,0)))

arr:
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
arr.T:
 [[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]
arr.transpose((1,0)):
 [[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


- 在进行矩阵计算时，经常需要用到该操作，比如利用np.dot计算矩阵内积

In [36]:
arr = np.random.randn(6, 3)
print ('arr:\n',arr)
print ('dot_arr:\n',np.dot(arr.T, arr))

arr:
 [[-0.03639147  0.03334443  1.06274595]
 [ 1.09286955  1.24727318  0.45421852]
 [ 1.17253527 -0.63438282 -0.98472476]
 [ 1.10618344 -0.04062933 -1.63255198]
 [-0.06988777  0.42234757  1.45186422]
 [ 0.49643496  0.74685638  0.19555217]]
dot_arr:
 [[ 4.04550093  0.91436237 -2.5071884 ]
 [ 0.91436237  2.69706647  2.05223392]
 [-2.5071884   2.05223392  7.11680258]]


- 对于高维数组，转置需要得到一个由轴编号组成的元组才能对这些轴进行转置

In [37]:
arr = np.arange(16).reshape((2, 2, 4))
print(arr)
print('========================')
print(arr.transpose((1, 0, 2)))
print('========================')
print('arr_T:\n',arr.T)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]
arr_T:
 [[[ 0  8]
  [ 4 12]]

 [[ 1  9]
  [ 5 13]]

 [[ 2 10]
  [ 6 14]]

 [[ 3 11]
  [ 7 15]]]


## B、通用函数

### a、一元函数

- numpy.mean(a,axis,dtype,out,keepdims)

&emsp;&emsp;求矩阵的平均值，默认对全部元素求均值，常用到的参数是axis，对于m×n矩阵

&emsp;&emsp;axis=0：压缩行，对各列求均值，返回1×n矩阵

&emsp;&emsp;axis=1：压缩列，对各行求均值，返回m×1矩阵

In [38]:
np.mean(img)
np.mean(img,axis=0)   #得到一列数组
np.mean(img,axis=1)   #得到一列数组

NameError: name 'img' is not defined

### b、二元函数

add&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;将数组中对应的元素相加

subtract&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;从第一个数组中减去第二个数组中的元素

multiply&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;数组元素相乘

divide、floor_divide&emsp;&emsp;除法或向下圆整除法(丢弃余数)

power&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;对第一个数组中的元素A，根据第二个数组中的相应元素B，计算$A^{B}$

maximun、fmax&emsp;&emsp;&emsp;元素级的最大值计算，fmax将忽略NaN

minimun、fmin&emsp;&emsp;&emsp;&emsp;元素级的最小值计算，fmin将忽略NaN

mod&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;元素级的求模计算(除法的余数)

copysign&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;将第二个数组中的值的符号复制给第一个数组中的值

In [39]:
arr = np.arange(10)
print(arr)
print(np.sqrt(arr))

[0 1 2 3 4 5 6 7 8 9]
[0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]


In [40]:
x = np.random.randn(8)
y = np.random.randn(8)
print('x:\n',x)
print('y:\n',y)
print(np.maximum(x, y))

x:
 [-0.09476804 -0.4390103   2.35547178  1.28894316  0.64369071 -0.80132451
 -0.44045717  0.66369581]
y:
 [ 0.2492311   1.00317467  0.49696152  1.47914244  0.75315035  2.17297982
 -0.71667503 -0.68108174]
[ 0.2492311   1.00317467  2.35547178  1.47914244  0.75315035  2.17297982
 -0.44045717  0.66369581]


## C、利用数组进行数据处理

- 想要在一组值（网格型）上计算$sqrt(x^2+y^2)$

In [41]:
points = np.arange(-5, 5, 0.01) 
xs, ys = np.meshgrid(points, points) #生成网格型数据，接受两个一维数组生成两个二维矩阵
print(xs)
print(ys)

[[-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
 [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
 [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
 ...
 [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
 [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]
 [-5.   -4.99 -4.98 ...  4.97  4.98  4.99]]
[[-5.   -5.   -5.   ... -5.   -5.   -5.  ]
 [-4.99 -4.99 -4.99 ... -4.99 -4.99 -4.99]
 [-4.98 -4.98 -4.98 ... -4.98 -4.98 -4.98]
 ...
 [ 4.97  4.97  4.97 ...  4.97  4.97  4.97]
 [ 4.98  4.98  4.98 ...  4.98  4.98  4.98]
 [ 4.99  4.99  4.99 ...  4.99  4.99  4.99]]


In [42]:
z = np.sqrt(xs ** 2 + ys ** 2)
print(z)

[[7.07106781 7.06400028 7.05693985 ... 7.04988652 7.05693985 7.06400028]
 [7.06400028 7.05692568 7.04985815 ... 7.04279774 7.04985815 7.05692568]
 [7.05693985 7.04985815 7.04278354 ... 7.03571603 7.04278354 7.04985815]
 ...
 [7.04988652 7.04279774 7.03571603 ... 7.0286414  7.03571603 7.04279774]
 [7.05693985 7.04985815 7.04278354 ... 7.03571603 7.04278354 7.04985815]
 [7.06400028 7.05692568 7.04985815 ... 7.04279774 7.04985815 7.05692568]]


### a、将条件逻辑表述为数组运算

- numpy.where函数是三元表达式x if condition else y的矢量化版本

In [43]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])
result = []
for x,y,c in zip(xarr,yarr,cond):
    if c:
        result.append(x)
    else:
        result.append(y)
print(result)

[1.1, 2.2, 1.3, 1.4, 2.5]


In [44]:
res = np.where(cond, xarr, yarr)
print(res)

[1.1 2.2 1.3 1.4 2.5]


- np.where的第二个和第三个参数不必是数组，它们都可以是标量值，在数据分析工作中，where通常用于根据另一个数组而产生一个新的数组

In [45]:
arr = np.random.randn(4, 4)
print(arr)
print(arr > 0)
print(np.where(arr > 0, 'a', -2))

[[-1.81668402 -0.32714892 -0.50240853  1.69106912]
 [ 0.72009791 -1.47156531  1.24668108  1.34052254]
 [-0.78139547 -1.36113385  0.91108993 -0.27149964]
 [ 0.36843724 -1.19984479 -1.25139307  1.87820799]]
[[False False False  True]
 [ True False  True  True]
 [False False  True False]
 [ True False False  True]]
[['-2' '-2' '-2' 'a']
 ['a' '-2' 'a' 'a']
 ['-2' '-2' 'a' '-2']
 ['a' '-2' '-2' 'a']]


- 使用np.where，可以将标量和数组结合起来

In [46]:
print(np.where(arr > 0, 2, arr))

[[-1.81668402 -0.32714892 -0.50240853  2.        ]
 [ 2.         -1.47156531  2.          2.        ]
 [-0.78139547 -1.36113385  2.         -0.27149964]
 [ 2.         -1.19984479 -1.25139307  2.        ]]


### b、数学和统计方法

- 通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算 求和、平均值、方差、标准差、中位数：sum, mean/average, var, std, median

In [47]:
arr = np.random.randn(5, 4)
print(arr)
print(arr.mean())
print(np.mean(arr))
print(arr.sum())

[[-1.02272785  1.27663543 -0.07950701  0.83892515]
 [ 1.18900529  0.35364187 -0.5323723   0.56423139]
 [-1.09662314 -0.79940913  0.51397248  1.75210494]
 [-1.04503524 -0.3560857   1.76369929 -0.53401448]
 [ 1.18201555  0.89293936  1.11614984  0.26912984]]
0.3123337791584581
0.3123337791584581
6.2466755831691625


axis选项参数，用于计算该轴向上的统计值；
arr.mean(1)是“计算行的平均值”，arr.sum(0)是“计算每列的和”

In [48]:
print(arr.mean(axis=1))
print(arr.sum(axis=0))

[ 0.25333143  0.39362656  0.09251129 -0.04285903  0.86505865]
[-0.79336539  1.36772183  2.7819423   2.89037684]


统计>0的数目

In [49]:
arr = np.random.randn(10)
print(arr)
print((arr > 0).sum())

[-0.0764376  -0.54542412 -0.27931919 -0.93439966  0.12029507 -0.37201413
 -1.29973903  0.24258585 -0.65981127 -1.3395075 ]
2


### c、排序

- numpy.sort() 
sort(a, axis=-1, kind=None, order=None) Return a sorted copy of an array.

In [50]:
a = np.array([[3,7],[9,1]])  
print ('a:\n',a)  
print('*********')
print (np.sort(a))  
print ('*********')   
print (np.sort(a, axis =  0))  
print ('**********')  

dt = np.dtype([('name',  'S10'),('age',  int)]) 
a = np.array([("raju",21),("anil",25),("ravi",  17),  ("amar",27)], dtype = dt)  
print ('a:\n',a) 
print('***********')
print (np.sort(a, order =  'age'))

a:
 [[3 7]
 [9 1]]
*********
[[3 7]
 [1 9]]
*********
[[3 1]
 [9 7]]
**********
a:
 [(b'raju', 21) (b'anil', 25) (b'ravi', 17) (b'amar', 27)]
***********
[(b'ravi', 17) (b'raju', 21) (b'anil', 25) (b'amar', 27)]


- numpy.argsort()，返回数据的索引数组

In [51]:
arr = np.random.randn(5, 3)
print(arr)
print('***********')
arr.sort(1)
print(arr)

[[ 1.43717136  0.51309306  1.01945272]
 [-0.88213612  0.51086454  0.91558802]
 [ 0.31494581  0.28032312 -2.35875583]
 [ 1.4963596   1.36913517  0.0870144 ]
 [-0.83011219 -0.25489486 -0.0722478 ]]
***********
[[ 0.51309306  1.01945272  1.43717136]
 [-0.88213612  0.51086454  0.91558802]
 [-2.35875583  0.28032312  0.31494581]
 [ 0.0870144   1.36913517  1.4963596 ]
 [-0.83011219 -0.25489486 -0.0722478 ]]


In [52]:
arr = np.random.randn(5, 3)
print(arr)
print('***********')
arr.argsort(1)

[[-0.36012471 -0.5048014   0.2001038 ]
 [-0.12252047 -1.34966004  0.82703408]
 [ 0.36593307 -1.22877002 -2.41871743]
 [-1.16192156 -0.35772076 -0.7161501 ]
 [-1.82663848  1.84794211 -0.36283925]]
***********


array([[1, 0, 2],
       [1, 0, 2],
       [2, 1, 0],
       [0, 2, 1],
       [0, 2, 1]], dtype=int64)

## D、伪随机数生成

&emsp;&emsp;生成标准正态分布

In [53]:
samples = np.random.normal(size=(4, 4))
print(samples)

[[ 0.75908564 -1.16874767  2.98900479 -1.44867231]
 [ 1.11298209 -0.11290985 -1.46326403  0.64564298]
 [ 1.09840509  2.73620765  1.0560674   1.20523352]
 [-0.66345081  0.64460531 -0.28215549 -0.45954517]]


- python randam模块一次生成一个样本

In [54]:
from random import normalvariate
N = 1000000
%timeit samples = [normalvariate(0, 1) for _ in range(N)]
%timeit np.random.normal(size=N)

746 ms ± 40.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
25.6 ms ± 184 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
