# Numpy 库

## Numpy库入门

### 数据的维度

* 一维数据

一维数据由对等关系的有序或者无序数据构成，采用线性方式组织。对应于**列表**、**数组**和**集合**等概念。

    列表：数据类型可以不同。比如 3.1413, 'pi',[3.1401, 3.1349], '3.1376'

    数组：数据类型相同。比如 3.1413, 3.1410, 3.15

    Python表示：列表和集合类型。比如 [3.13, 3.14] {3.13, 3.14}

* 二维数据

二维数据由多个一位数据构成，是一维数据的组合形式。

    表格是典型的二位数据。其中，表头是二维数据的一部分。

    Python表示：列表类型。比如 [[3.13, 3.14], [3.13, 3.14]]

* 多维数据

多维数据由一维或者二维数据在新维度上扩展形成。

    比如表格基于时间的跨度，从而构成了多维数据。

    Python表示：列表类型。比如 [[3.13, 3.14], [3.13, 3.14]]

* 高维数据

高维数据仅利用最基本的二元关系展示数据间的复杂结构。

`
{
 "firstName":"Josn",
 "lastName":"Tang",
 "address":{
              "stressAddr":"",
              "City":"",
              "zipcode":""
            } 
}
`

    Python表示：字典类型或数据表示格式（json/XML/YAML）。

### Numpy数组对象: ndarray

#### Numpy 介绍

Numpy 是一个开源的Python科学计算基础库

* 一个强大的N维数组对象ndarry
* 广播功能函数：用于数组间计算
* 整合C/C++/Fortran代码的工具
* 线性代数、傅里叶变换、随机数生成等功能

Numpy 是SciPy, Pandas等库的基础

#### Numpy示例

计算$A^2 + B^3$,其中，A和B是一维数组

In [328]:
def pySum():
    a = [0,1,2,3,4]
    b = [9,8,7,6,5]
    c = []
    
    for i in range(len(a)):
        c.append(a[i]**2 + b[i]**3)
        
    return c

print(pySum())

[729, 513, 347, 225, 141]


In [329]:
import numpy as np
def npSum():
    a = np.array([0,1,2,3,4])
    b = np.array([9,8,7,6,5])
    c = a**2 + b**3
    return c

print(npSum())

[729 513 347 225 141]


* 数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据
* 设置专门数组对象可提升运算速度（底层实现用C完成）
* 科学计算中，一个维度的数据类型往往相同
* 采用数组对象，采用相同数据类型利于节省内存空间

#### ndarray内部结构

ndarray是一个多位数组对象，由两部分构成：

    * 实际数据

    * 描述数据的元数据（维度、类型）

ndarray数组一般要求所有元素类型相同（同质）， 数组下标从0开始

轴（axis）:保存数据的维度

秩（rank）:轴的数量

#### ndarray对象的属性

属性 | 说明
:---: | :---:
.ndim | 秩，即维度的数量
.shape | 尺度，对于矩阵，n行m列
.size | 元素个数，相当于.shape中 n * m 的值
.dtype | 元素类型
.itemsize | 每个元素的大小，以字节为单位

In [330]:
a = np.array([[0,1,2,3,4],[9,8,7,6,5]])
a.ndim

2

In [331]:
a.shape

(2, 5)

In [332]:
a.size

10

In [333]:
a.dtype

dtype('int64')

In [334]:
a.itemsize

8

#### ndarray元素类型

数据类型 | 说明
:---: |:---------:
bool | 1/0
intc | 与C中的int一致，int32或int64
intp | 用于索引的整数，与C中ssize_t一致，int32或int64
int8 | 字节长度的整数，\[-128, 127\]
int16 | 16位整数
int32 | 32位整数
int64 | 64位整数
uint8 | 8位无符号整数，\[0, 255\]
uint16 | 16位无符号整数
uint32 | 32位无符号整数
uint64 | 64位无符号整数
float16 | 16位半精度浮点数
float32 | 32位半精度浮点数
float64 | 64位半精度浮点数
complex64 | 复数类型，实部虚部都是32位浮点数(.real+.imag)
complex128 | 复数类型，实部虚部都是64位浮点数

Python仅支持整数，浮点数和复数三种

### ndarry数组的创建和变换

#### 创建方法

* 从Python中的列表、元组等类型创建ndarray数组
* 使用NumPy中函数创建ndarray数组，如：arange,ones,zeros等
* 从字节流中创建ndarray数组
* 从文件中读取特定格式，创建ndarray数组

(1) 从Python中的列表、元组等类型创建ndarray数组

    * x=np.array(list/tuple)

    * x=np.array(list/tuple, dtype=np.float32)

    * 无指定dtype时，由numpy自动确认类型

In [335]:
np.array([0,1,2,3])  # list

array([0, 1, 2, 3])

In [336]:
np.array((0,1,2,3)) # tuple

array([0, 1, 2, 3])

In [337]:
np.array([[1,2],[9,8],(0.1, 0.2)]) # list & tuple

array([[ 1. ,  2. ],
       [ 9. ,  8. ],
       [ 0.1,  0.2]])

（2）使用NumPy中函数创建ndarray数组

函数 | 说明
:---: | :---------:
np.arange(n)|类似range()，返回ndarray类型，元素从0到n-1
np.ones(shape)|	根据shape生成全1数组，shape为元组
np.zeros(shape)|根据shape生成全0数组，shape为元组
np.full(shape, val)|根据shape生成一个数组，每个元素值都是val
np.eye(n)|创建n*n矩阵，对角线为1，其余为0
np.ones_like(a)|根据数组a的形状生成全1数组
np.zeros_like(a)|根据数组a的形状生成全0数组
np.full_like(a, val)|根据数组a的形状生成元素全为val的数组
np.linspace(start, end, ele_num, endpoint=True)|根据起止数据等间距地填充数组，endpoint设置是否以end为最末值
np.concatenate()|将两个或多个数组合并成一个新的数组

In [338]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [339]:
np.ones((3,6))

array([[ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.]])

In [340]:
np.zeros((3,6), dtype=np.int32)

array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]], dtype=int32)

In [341]:
np.eye(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [342]:
x=np.ones((2,3,4))
x.shape

(2, 3, 4)

In [343]:
a = np.linspace(1, 10, 4)
a

array([  1.,   4.,   7.,  10.])

In [344]:
b = np.linspace(1, 10, 4, endpoint=False)
b

array([ 1.  ,  3.25,  5.5 ,  7.75])

In [345]:
np.concatenate((a,b))

array([  1.  ,   4.  ,   7.  ,  10.  ,   1.  ,   3.25,   5.5 ,   7.75])

#### 变换方法

对于创建后的ndarray数组，可以对其进行**维度变换**和**元素类型变换**

（1）维度变换

方法 | 说明
:---: | :---------:
.reshape(shape)|不改变数组的元素，返回一个shape形状的数组，原数组保持不变
.resize(shape)|与.reshape()功能一致，但修改原数组
.swapaxes(ax1, ax2)|将数组n个维度中的2个维度进行调换
.flatten()|对数组进行降维，返回折叠后的一维数组，原数组不变

In [346]:
a = np.ones((2,3,4),dtype=np.int32)
a

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int32)

In [347]:
a.reshape((3,8)) 

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]], dtype=int32)

In [348]:
a  # reshape不改变原数组

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int32)

In [349]:
a.resize((3,8))
a  # resize直接改变原数组

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]], dtype=int32)

In [350]:
a.flatten()

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1], dtype=int32)

In [351]:
a # flatten()后，原数组不变

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]], dtype=int32)

（2）类型变换

new_a = a.astype(new_type)

In [352]:
b = a.astype(np.float)
b

array([[ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.]])

In [353]:
a

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]], dtype=int32)

astype()方法一定会创建新的数组（原始数组的一个拷贝），即时两个类型一致

#### 向list转换

In [354]:
a = np.full((2,3,4), 25,dtype=np.int32)
ls = a.tolist()
ls

[[[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]],
 [[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]]]

### ndarray数组的操作

数组的切片和索引

* 索引：获取数组中特定位置元素的过程
* 切片：获取数组元素子集的过程

#### 一维数组

* 索引：与python列表类似

* 切片：[arg1, arg2, arg3] arg1: 起始位置；arg2: 终止位置(不含); arg3：步长

In [355]:
a = np.array([9,8,7,6,5])
a[2]

7

In [356]:
a[1:4:2]

array([8, 6])

#### 多维数组

* ::step 步长跳跃切片

* : 选取某个维度所有元素

In [357]:
a = np.arange(24).reshape((2,3,4))
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [358]:
a[1,2,3]

23

In [359]:
a[:,1,-3]

array([ 5, 17])

In [360]:
a[:, 1:3, :]  # 每个维度切片方法与一维数组相同

array([[[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [361]:
a[:, :, ::2] # 每个维度可以使用步长跳跃切片

array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10]],

       [[12, 14],
        [16, 18],
        [20, 22]]])

### ndarray数组的运算

#### 数组与标量之间的运算

* 等价于数组中的每一个元素与标量运算

In [362]:
a = np.arange(24).reshape((2,3,4))

In [363]:
a.mean()

11.5

In [364]:
a = a / a.mean()
a

array([[[ 0.        ,  0.08695652,  0.17391304,  0.26086957],
        [ 0.34782609,  0.43478261,  0.52173913,  0.60869565],
        [ 0.69565217,  0.7826087 ,  0.86956522,  0.95652174]],

       [[ 1.04347826,  1.13043478,  1.2173913 ,  1.30434783],
        [ 1.39130435,  1.47826087,  1.56521739,  1.65217391],
        [ 1.73913043,  1.82608696,  1.91304348,  2.        ]]])

#### 一元函数

函数(部分) | 说明
:---: | :---------:
np.abs(x) np.fabs(x)|计算数组各元素的绝对值
np.sqrt(x)|计算数组各元素平方根
np.square(x)|计算数组各元素平方
np.log(x)|计算数组各元素自然对数
np.log10(x)|计算数组各元素10底对数
np.log2(x)|计算数组各元素2底对数
np.ceil(x)|各元素向下取整
np.floor(x)|各元素向上取整
np.rint(x)|各元素四舍五入
np.modf(x)|将数组各元素小数部分和整数部分以两个独立数组形式返回
np.cos(x) np.cosh(x) np.sin(x) np.sinh(x) np.tan(x) np.tanh(x)|计算数组各元素的普通型和双曲型三角函数
np.exp(x)|计算数组各元素的指数值
np.sign(x)|计算数组各元素符号值，1/0/-1

#### 二元函数

函数(部分) | 说明
:---: | :---------:
+-/*  | 两个数组对应元素进行运算
np.maximum(x,y) np.fmax()|对应位置元素的最大值
np.minimum(x,y) np.fmin()|取对应位置元素的最小值
np.mod(x,y)|元素级的模运算
np.copysign(x,y)|将数组y中各元素的符号赋值给数组x对应元素
> < >= <= != | 对应元素算术比较，产生布尔型数组

# Numpy数据存取与函数

## 数据的CSV文件存取

### 写入CSV

`np.savetxt(frame, array, fmt='%.18e', delimiter=None)`

* `frame`: 文件、字符串或产生器，可以是.gz或.bz2的压缩文件
* `array`: 存入文件的数组
* `fmt`: 写入文件的格式，例如: `%d`,`%2.f`,`%.18e`

In [365]:
a = np.arange(100).reshape(5, 20)
np.savetxt('a.csv', a, fmt='%d', delimiter=',')

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39
40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59
60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79
80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99

In [366]:
np.savetxt('a.csv', a, fmt='%.1f', delimiter=',')

0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0
20.0,21.0,22.0,23.0,24.0,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,33.0,34.0,35.0,36.0,37.0,38.0,39.0
40.0,41.0,42.0,43.0,44.0,45.0,46.0,47.0,48.0,49.0,50.0,51.0,52.0,53.0,54.0,55.0,56.0,57.0,58.0,59.0
60.0,61.0,62.0,63.0,64.0,65.0,66.0,67.0,68.0,69.0,70.0,71.0,72.0,73.0,74.0,75.0,76.0,77.0,78.0,79.0
80.0,81.0,82.0,83.0,84.0,85.0,86.0,87.0,88.0,89.0,90.0,91.0,92.0,93.0,94.0,95.0,96.0,97.0,98.0,99.0

In [367]:
### 读入文件

`np.loadtxt(frame, dtype=np.float, delimiter=None, unpack=False)`

* `frame`：文件、字符串或产生器，可以是.gz或.bz2的压缩文件
* `dtype`：数据类型，可选
* `delimiter`：分隔字符串，模式是空格
* `unpack`：默认写入一个数组，如果为True, 读入属性分别写入不同变量

In [368]:
b = np.loadtxt('a.csv', delimiter=',')
b

array([[  0.,   1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.,
         11.,  12.,  13.,  14.,  15.,  16.,  17.,  18.,  19.],
       [ 20.,  21.,  22.,  23.,  24.,  25.,  26.,  27.,  28.,  29.,  30.,
         31.,  32.,  33.,  34.,  35.,  36.,  37.,  38.,  39.],
       [ 40.,  41.,  42.,  43.,  44.,  45.,  46.,  47.,  48.,  49.,  50.,
         51.,  52.,  53.,  54.,  55.,  56.,  57.,  58.,  59.],
       [ 60.,  61.,  62.,  63.,  64.,  65.,  66.,  67.,  68.,  69.,  70.,
         71.,  72.,  73.,  74.,  75.,  76.,  77.,  78.,  79.],
       [ 80.,  81.,  82.,  83.,  84.,  85.,  86.,  87.,  88.,  89.,  90.,
         91.,  92.,  93.,  94.,  95.,  96.,  97.,  98.,  99.]])

### CSV文件的局限性

`np.savetxt`, `np.loadtxt`只能有效存储一维和二维数据

## 多维数据的存取

### 存储文件

`a.tofile(frame, sep='', format='%s')`

* `frame`：文件、字符串
* `sep`：数据分隔字符串，如果是空串，写入文件为二进制。二进制文件比文本文件占用更小的空间。
* `format`：写入数据的格式

In [369]:
a = np.arange(100).reshape(5, 20)
a.tofile('b.dat', sep=',', format='%d')

### 读取文件

`a.fromfile(frame, dtype=np.float, count=-1, sep='')`

* `frame`：文件、字符串
* `dtype`：读取的数据类型
* `count`：读入元素个数，-1表示读入整个文件
* `sep`：数据分隔字符串，如果是空串，读入二进制文件

In [370]:
c = np.fromfile('b.dat', dtype=np.int, sep=',')
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [371]:
c.reshape(5, 20)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36,
        37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56,
        57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76,
        77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96,
        97, 98, 99]])

可知，`np.fromfile().reshape()`需要知道数据的维度和类型

* `.tofile()`与`np.fromfile()`配合使用
* 可通过元数据文件来存储额外信息

### Numpy的便捷文件存取

`np.save(frame, array)`或`np.savez(frame, array)`

* `frame`：文件名，以`.npy`为扩展名，压缩扩展名为`.npz`
* `array`：数组变量

`np.load(frame)`

In [372]:
a = np.arange(100).reshape(5, 2, 10)
np.save('a.npy', a)

In [373]:
b = np.load('a.npy')
b

array([[[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34, 35, 36, 37, 38, 39]],

       [[40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54, 55, 56, 57, 58, 59]],

       [[60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
        [70, 71, 72, 73, 74, 75, 76, 77, 78, 79]],

       [[80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
        [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]]])

* 元数据被写入第一行
* 如果需要数据交互和对接，使用`tofile`和`fromfile`
* 仅仅在Numpy处理数据时可以使用`np.save`和`np.load`

## Numpy的随机数函数

### 生成随机数

函数 | 说明
:---: | :---------:
rand(d0,d1,...dn)|根据d0-dn维度创建随机数数组，服从\[0,1)的均匀分布的浮点数
randn(d0,d1,...dn)|根据d0-dn维度创建随机数数组，服从标准正态分布
randint(low[,high,shape])|根据shape创建随机整数或整数数组(均匀分布)，范围是[low,high),如果high为None,则创建[0,low)的整数(均匀分布)
seed(s)|随机数种子，s为给定的种子值

In [374]:
a = np.random.rand(3,4,5)  # 服从均匀分布
a

array([[[ 0.60614675,  0.1126646 ,  0.54392045,  0.72079858,  0.86581537],
        [ 0.14670112,  0.10338107,  0.49055468,  0.02917956,  0.59486095],
        [ 0.20584548,  0.20280297,  0.84412588,  0.06156638,  0.49923069],
        [ 0.24846698,  0.32714403,  0.00291609,  0.29544213,  0.98688912]],

       [[ 0.23833271,  0.73339648,  0.96219689,  0.81545579,  0.69422698],
        [ 0.21069609,  0.51784407,  0.94966999,  0.69597387,  0.90466474],
        [ 0.64789243,  0.34530215,  0.06549786,  0.22062786,  0.13737325],
        [ 0.74429592,  0.34669066,  0.57766425,  0.16835294,  0.0379717 ]],

       [[ 0.8171767 ,  0.81246485,  0.18843566,  0.3730624 ,  0.74419214],
        [ 0.18624777,  0.41379781,  0.23100532,  0.65362293,  0.76437476],
        [ 0.83487913,  0.21221285,  0.9619666 ,  0.26114034,  0.8637702 ],
        [ 0.12687442,  0.37090221,  0.67193303,  0.93385224,  0.55889953]]])

In [375]:
sn = np.random.randn(3,4,5) # 服从标准正态分布
sn

array([[[-0.55704378,  0.2271259 , -0.74088606, -1.28311581,  0.36489477],
        [-1.38025482, -1.46514309,  0.44628103,  2.8534604 , -1.03241443],
        [ 0.1617761 ,  0.22555155, -1.1219324 ,  1.20248351,  1.51133379],
        [-1.87214559, -0.64912164,  1.39491644,  1.04979671, -0.38924947]],

       [[-0.64617433,  0.50132244,  0.55191692,  1.46127126, -0.14540648],
        [ 0.73097974, -0.61770627,  1.68435892, -0.87947247, -0.55992567],
        [-0.17329043,  0.33455353,  2.14682753, -1.02172033, -0.80415941],
        [-2.04453685,  1.02078534, -0.09294796, -0.49084582, -1.0889499 ]],

       [[ 1.08746733, -0.93793301, -0.84867503, -1.27124735, -1.30212366],
        [-0.80406783, -1.6515778 ,  0.28964567, -0.60966094, -0.29495329],
        [-0.34159808,  1.22545095,  1.00308374, -2.33897791,  1.25085353],
        [ 1.97019742, -1.42818822, -1.00084459, -0.47007672, -0.10003358]]])

In [376]:
b = np.random.randint(100, 200, (3,4))
b

array([[175, 193, 130, 131],
       [128, 179, 184, 121],
       [184, 199, 146, 146]])

In [377]:
np.random.seed(10)
np.random.randint(100, 200, (3,4))

array([[109, 115, 164, 128],
       [189, 193, 129, 108],
       [173, 100, 140, 136]])

In [378]:
np.random.seed(10)  # 种子值不变，则随机数不变
np.random.randint(100, 200, (3,4))

array([[109, 115, 164, 128],
       [189, 193, 129, 108],
       [173, 100, 140, 136]])

### 随机排列

函数 | 说明
:---: | :---------:
shuffle(a)|根据数组a的第0轴进行随机排列，**改变数组a**
permutation(a)|根据数组a的第0轴进行乱序排列，**不改变数组a并生成新数组**
choice(a\[,size,replace,p])|从**一维数组**a中以概率p抽取元素，形成size的新数组，replace表示是否可以重用元素，默认为True

In [379]:
a = np.random.randint(100, 200, (3,4))
a

array([[116, 111, 154, 188],
       [162, 133, 172, 178],
       [149, 151, 154, 177]])

In [380]:
np.random.shuffle(a)  # 改变a本身
a 

array([[116, 111, 154, 188],
       [149, 151, 154, 177],
       [162, 133, 172, 178]])

In [381]:
np.random.permutation(a) # 不改变a本身

array([[162, 133, 172, 178],
       [116, 111, 154, 188],
       [149, 151, 154, 177]])

In [382]:
b = np.random.randint(100, 200, (8,))
b

array([113, 192, 186, 130, 130, 189, 112, 165])

In [383]:
np.random.choice(b,(3,2))

array([[165, 192],
       [130, 130],
       [186, 189]])

In [384]:
np.random.choice(b,(3,2), replace=False) # 不可选重复值

array([[192, 130],
       [186, 165],
       [130, 113]])

In [385]:
np.random.choice(b,(3,2),p=b/np.sum(b)) # 数值大的选择的概率较高

array([[130, 186],
       [130, 113],
       [112, 130]])

### 不同分布函数

函数 | 说明
:---: | :---------:
uniform(low, high, size)|产生均匀分布的数组，low是起始值，high结束值，size形状
normal(loc, scale, size)|产生正态分布的数组，loc均值，scale标准差，size形状
possion(lam, size)|产生泊松分布的数组，lam随机事件发生率，size形状

In [386]:
u = np.random.uniform(0, 10, (3,4))
u

array([[ 1.21954147,  7.31734625,  1.38782465,  7.66880049],
       [ 8.31989768,  3.09778055,  5.9758229 ,  8.7239246 ],
       [ 9.83020867,  4.67403279,  8.75744495,  2.96068699]])

In [387]:
n =  np.random.normal(10, 5, (3,4))
n

array([[ 15.12422324,  18.53877722,   0.16441388,   5.64521666],
       [  4.4658726 ,  11.37561829,   8.17771928,   4.17423265],
       [  3.28465058,  17.2669643 ,  10.00584724,   9.94039808]])

## Numpy的统计函数

函数 | 说明
:---: | :---------:
sum(a,axis=None)|根据给定轴axis计算数组a相关元素之和，axis整数或元组
mean(a,axis=None)|根据给定轴axis计算数组a相关元素的期望，axis整数或元组
average(a,axis=None,weights=None)|根据给定轴axis计算数组a相关元素的加权平均值
std(a,axis=None)|根据给定轴axis计算数组a相关元素的标准差
var(a,axis=None)|根据给定轴axis计算数组a相关元素的方差

In [388]:
a = np.arange(15).reshape(3,5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [389]:
np.sum(a)

105

In [390]:
np.sum(a, axis=0)

array([15, 18, 21, 24, 27])

In [391]:
np.sum(a, axis=1)

array([10, 35, 60])

In [392]:
np.average(a,axis=0,weights=[10,5,1])
# 4.1875 = (2*10 + 7*5 + 12*1)/(10+5+1)

array([ 2.1875,  3.1875,  4.1875,  5.1875,  6.1875])

In [393]:
np.std(a)

4.3204937989385739

函数 | 说明
:---: | :---------:
min(a) max(a)|计算数组a中元素最小值、最大值
argmin(a) argmax(a)|计算最小最大值的降为一维后的下标
unravel_index(index,shape)|根据shape将一维下标index转换为多维下标
ptp(a)|计算最大值与最小值的差
median(a)|计算数组中位数

In [394]:
b = np.arange(15,0,-1).reshape(3,5)
b

array([[15, 14, 13, 12, 11],
       [10,  9,  8,  7,  6],
       [ 5,  4,  3,  2,  1]])

In [395]:
np.max(b)

15

In [396]:
np.argmax(b)

0

In [397]:
np.median(b)

8.0

## Numpy的梯度函数

* 计算数组f中元素的梯度，当f为多维时，返回每个维度梯度
* 梯度：连续值之间的变化率，即斜率
* XY坐标轴连续三个X坐标对应的Y轴值: a，b，c，其中，b的梯度是: (c-a)/2
    * 两侧：（后一个值-前一个值）/二值距离
    * 一侧：当前值-前一个值 或 后一个值-当前值

In [398]:
a = np.random.randint(0,20,(5))
a

array([ 3, 16, 18, 16, 14])

In [399]:
np.gradient(a)

array([ 13. ,   7.5,   0. ,  -2. ,  -2. ])

In [400]:
c = np.random.randint(0,50,(3,5))
c

array([[15, 17, 25, 46, 48],
       [42, 17, 32, 17, 41],
       [16, 41, 26, 12, 30]])

In [401]:
np.gradient(c)

[array([[ 27. ,   0. ,   7. , -29. ,  -7. ],
        [  0.5,  12. ,   0.5, -17. ,  -9. ],
        [-26. ,  24. ,  -6. ,  -5. , -11. ]]),
 array([[  2. ,   5. ,  14.5,  11.5,   2. ],
        [-25. ,  -5. ,   0. ,   4.5,  24. ],
        [ 25. ,   5. , -14.5,   2. ,  18. ]])]

梯度可以发现图像、声音的边缘