# Numpy的基本用法

文章来源：http://www.jianshu.com/p/60bf50100c2f

官方文档：http://www.numpy.org/

## Numpy数组对象

Numpy中的多维数组称为ndarray，是Numpy中最常见的数组对象。ndarray对象通常包含两个部分：

- ndarray数据本身
- 描述数据的元数据

### Numpy数组的优势

- 通常由相同种类的元素组成，数组中数据项的类型一致，所以能快速确定存储数据所需要的空间大小
- 运用向量化运算处理整个数组，速度较快。列表通常需要借助循环语句遍历列表计算，效率较低
- 使用了优化过的C API，运算速度较快

### 关于向量化和标量化运算

- 使用python的list进行循环遍历运算

In [1]:
def pysum():
    a = list(range(10000))
    b = list(range(10000))
    c = []
    for i in range(len(a)):
        c.append(a[i]**2 + b[i]**2)
    return c

In [2]:
%timeit pysum()

100 loops, best of 3: 10.1 ms per loop


- 使用numpy进行向量化运算

In [3]:
import numpy as np
def npsum():
    a = np.arange(10000)
    b = np.arange(10000)
    c = a**2 + b**2
    return c

In [4]:
%timeit npsum()

The slowest run took 5.70 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 44.7 µs per loop


** numpy的向量化运算效率远远高于python的循环遍历运算（相差几百倍） **

## 创建ndarray数组（多维数组）

In [5]:
import numpy as np

### 基于list或tuple

In [6]:
arr_list = np.array([1, 2, 3, 4])
arr_list

array([1, 2, 3, 4])

In [7]:
print(arr_list)

[1 2 3 4]


In [8]:
arr_tuple = np.array((1, 2, 3, 4))
arr_tuple

array([1, 2, 3, 4])

In [9]:
arr_2 = np.array([[1, 2, 4], [3, 4, 5]])
arr_2

array([[1, 2, 4],
       [3, 4, 5]])

- 创建二维数组时，每个子list外面还有一个"[]"，形式为"[[list1], [list2]]"

### 基于np.arange

In [10]:
arr1 = np.arange(5)
arr1

array([0, 1, 2, 3, 4])

In [11]:
arr2 = np.array([np.arange(3), np.arange(3)])
arr2

array([[0, 1, 2],
       [0, 1, 2]])

### 基于arange以及reshape创建多维数组

三维数组

In [12]:
arr = np.arange(24).reshape(2, 3, 4)
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

- arange的长度与ndarray的维度的乘积要相等， $$24 = 2 * 3 * 4$$

### 使用numpy.random创建

#### numpy.random.rand(d0, d1, ..., dn)

- rand函数根据给定维度生成[0,1)之间的数据
- dn每个维度
- 返回值为指定维度的array

In [13]:
np.random.rand(4, 2)

array([[ 0.10582676,  0.84231782],
       [ 0.10791203,  0.47448919],
       [ 0.9692206 ,  0.75985646],
       [ 0.22749912,  0.58617718]])

In [14]:
np.random.rand(2, 3, 4)

array([[[ 0.20115922,  0.286991  ,  0.08864242,  0.76984005],
        [ 0.70162041,  0.40098629,  0.17241092,  0.78703352],
        [ 0.7941246 ,  0.20813821,  0.62134051,  0.20372442]],

       [[ 0.26847441,  0.90916552,  0.68025706,  0.53061914],
        [ 0.11040498,  0.91879544,  0.45412546,  0.2410507 ],
        [ 0.02101765,  0.92624783,  0.54017392,  0.81292137]]])

#### numpy.random.randn(d0, d1,..., dn)

- randn函数返回一个或一组样本，具有标准正态分布。
- dn表格每个维度
- 返回值为指定维度的array

In [15]:
np.random.randn() #  没有参数时返回单个数据

0.24876521491611342

In [16]:
np.random.randn(2, 3, 4)

array([[[-1.4982536 ,  1.70284889,  0.08191707,  1.16520269],
        [ 0.99227161, -0.69457237,  0.44277553,  1.54504985],
        [-0.26876993, -0.93103441,  2.31102263,  0.20198262]],

       [[ 1.2464721 , -0.28880695, -0.37502245, -0.89582336],
        [-0.63978997,  0.36036471,  0.38759356,  0.07797798],
        [-0.18448315, -0.09132249,  0.49559118, -0.04972563]]])

#### numpy.random.randint(low, high=None, size=None, dtype='I')

- 返回随机整数，范围区间为[low, high)，包含low，不包含high
- 参数：low为最小值，high为最大值，size为数组维度大小，dtype为数据类型，默认为np.int
- high没有填写时，默认生成随机数的范围是[0, low)

In [17]:
np.random.randint(1, size=5)

array([0, 0, 0, 0, 0])

In [18]:
np.random.randint(1, 5)

2

In [19]:
np.random.randint(-5, 5, size=(3, 3))

array([[ 4,  4, -2],
       [-2, -1,  1],
       [ 3,  4, -5]])

#### 生成[0, 1)之间的浮点数

- np.random.random_sample(size=None)
- np.random.random(size=None)
- np.random.ranf(size=None)
- np.random.sample(size=None)

In [20]:
np.random.random_sample(size=(2, 2))

array([[ 0.08902096,  0.48838433],
       [ 0.88756593,  0.95749763]])

In [21]:
np.random.random(size=(2, 2))

array([[ 0.59523641,  0.855756  ],
       [ 0.17628708,  0.00171715]])

In [22]:
np.random.ranf(size=(2, 2))

array([[ 0.68040826,  0.69476877],
       [ 0.36295602,  0.13792974]])

In [23]:
np.random.sample(size=(2, 2))

array([[ 0.49498474,  0.42313207],
       [ 0.74678114,  0.73950779]])

#### numpy.random.choice(a, size=None, replace=True, p=None)

- 从给定的一维数组中生成随机数
- 参数： a为一维数组类似数据或整数；size为数组维度；p为数组中的数据出现的概率
- a为整数时，对应的一维数组为np.arange(a)

In [24]:
np.random.choice(5, 3)

array([3, 1, 4])

In [25]:
np.random.choice(5, 3, replace=False)
# replace为False表示不能有重复的数值

array([0, 4, 2])

In [26]:
np.random.choice(5, size=(3, 2))

array([[3, 1],
       [3, 2],
       [3, 4]])

In [27]:
demo_list = ['a', 'b', 'c', 'd', 'e']
np.random.choice(demo_list, size=(3, 3))

array([['c', 'a', 'c'],
       ['e', 'a', 'e'],
       ['a', 'd', 'c']],
      dtype='<U1')

- 参数p的长度与参数a的长度需要一致
- 参数p为概率，p里的数据之和应为1

In [28]:
np.random.choice(demo_list, size=(3, 3), p=[0.1, 0.6, 0.1, 0.1, 0.1])

array([['b', 'b', 'd'],
       ['e', 'b', 'c'],
       ['b', 'e', 'b']],
      dtype='<U1')

#### numpy.random.seed()

- np.random.seed()使得随机数据可预测
- 当我们设置相同的seed，每次生成的随机数相同。如果不设置seed，则每次会生成不同的随机数

In [29]:
np.random.seed(0)
np.random.rand(5)

array([ 0.5488135 ,  0.71518937,  0.60276338,  0.54488318,  0.4236548 ])

In [30]:
np.random.seed(1676)
np.random.rand(5)

array([ 0.39983389,  0.29426895,  0.89541728,  0.71807369,  0.3531823 ])

In [31]:
np.random.seed(1676)
np.random.rand(5)

array([ 0.39983389,  0.29426895,  0.89541728,  0.71807369,  0.3531823 ])

## Numpy的数值类型


|数据类型|说明|
| -- | -- |
|bool|占用1bit|
|inti|长度取决于平台的整数，一般是int32或int64
|int8|字节长度的整数，[-128, 127] |
|int16|16位长度的整数，[-32768, 32767] |
|int32|32位长度的整数，[-2^31, 2^31 - 1] |
|int64|64为长度的整数，[-2^63, 2^63-1]|
|uint8|8位无符号整数，[0, 255]|
|uint16|[0, 65535] |
|uint32|[0, 2^32 - 1] |
|uint64|[0, 2^64 - 1] |
|float16|16位半精度浮点数：1位符号位，5位指数，10位尾数 |
|float32|32位半精度浮点数：1位符号位，8位指数，23位尾数 |
|flo64at或float|双精度浮点数：1位符号位，11位指数，52位尾数 |
|complex64|复数类型，实部和虚部都是32位浮点数 |
|complex128或complex|复数类型， 实部和虚部都是64位浮点数 |

每一种数据类型都有相应的数据转换函数

In [32]:
np.int8(12.334)

12

In [33]:
np.int8(200)

-56

In [34]:
np.float64(12)

12.0

** 创建ndarray数组时，可以指定数值类型： **

In [35]:
a = np.arange(5, dtype=float)

In [36]:
a

array([ 0.,  1.,  2.,  3.,  4.])

## ndarray数组的属性

- dtype属性，ndarray数组的数据类型。

In [37]:
np.arange(5, dtype=float)

array([ 0.,  1.,  2.,  3.,  4.])

In [38]:
np.arange(5, dtype='D')

array([ 0.+0.j,  1.+0.j,  2.+0.j,  3.+0.j,  4.+0.j])

- ndim属性，数组的维度

In [39]:
a = np.array([[1, 2, 3], [4, 5, 6]])
a.ndim

2

- shape属性，数组对象的尺度，对于矩阵，即n行m列，shape是一个元组（tuple）

In [40]:
a.shape

(2, 3)

- size属性，用来保存元素的数量，相当于shape中数的乘积

In [41]:
a.size

6

- itemsize属性返回数组中各个元素所占用的字节数大小

In [42]:
a.itemsize

4

- nbytes属性，如果想知道整个数组所需的字节数量，可以使用nbytes属性，其值等于数组的size属性乘以itemsize属性值

In [43]:
a.nbytes

24

In [44]:
a.size * a.itemsize

24

- T属性，数组转置

In [45]:
b = np.arange(24).reshape(4, 6)
b

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

In [46]:
b.T

array([[ 0,  6, 12, 18],
       [ 1,  7, 13, 19],
       [ 2,  8, 14, 20],
       [ 3,  9, 15, 21],
       [ 4, 10, 16, 22],
       [ 5, 11, 17, 23]])

- 复数的实部和虚部属性，real和imag属性

In [47]:
d= np.array([1 + 2j, 2 + 3j])
d

array([ 1.+2.j,  2.+3.j])

In [48]:
d.real

array([ 1.,  2.])

In [49]:
d.imag

array([ 2.,  3.])

- flat属性，返回一个numpy.flatiter对象，即可迭代对象

In [50]:
e = np.arange(6).reshape(2, 3)
e

array([[0, 1, 2],
       [3, 4, 5]])

In [51]:
f = e.flat
f

<numpy.flatiter at 0x1e5fb6b2430>

In [52]:
for i in f:
    print(f)

<numpy.flatiter object at 0x000001E5FB6B2430>
<numpy.flatiter object at 0x000001E5FB6B2430>
<numpy.flatiter object at 0x000001E5FB6B2430>
<numpy.flatiter object at 0x000001E5FB6B2430>
<numpy.flatiter object at 0x000001E5FB6B2430>
<numpy.flatiter object at 0x000001E5FB6B2430>


In [53]:
f[2]

2

In [54]:
f[[1,4]]

array([1, 4])

In [55]:
e.flat = 7
e

array([[7, 7, 7],
       [7, 7, 7]])

In [56]:
e.flat[[1,4]] = 1
e

array([[7, 1, 7],
       [7, 1, 7]])

## ndarray数组的切片和索引

### 一维数组的切片和索引与python的list类似

In [57]:
a = np.arange(7)
a

array([0, 1, 2, 3, 4, 5, 6])

In [58]:
a[1:4]

array([1, 2, 3])

In [59]:
a[::2]

array([0, 2, 4, 6])

In [60]:
a[-2:]

array([5, 6])

### 二维数组的切片和索引

In [61]:
b = np.arange(12).reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

** 先行后列 **

In [62]:
b[0:3, 0:2]

array([[0, 1],
       [4, 5],
       [8, 9]])

In [63]:
b[1, 1]

5

## 处理数组的形状

### 形状转换

- reshape()和resize()

In [64]:
b.reshape(4, 3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [65]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [66]:
b.resize(4, 3)
b

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

resize()的作用和reshape()类似，但是会改变所作用的数组，相当于有inplace=True的效果

- ravel()和flatten(),将多维数组转换成一维数组

In [67]:
b.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [68]:
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [69]:
b

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

** 两者的区别在于返回拷贝还是返回视图，flatten()返回一份拷贝，需要分配新的内存空间，对拷贝的修改不影响原矩阵**

** ravel()返回的是视图，会影响原矩阵 **

In [70]:
b.flatten()[2] = 20
b

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [71]:
b.ravel()[2] = 20
b

array([[ 0,  1, 20],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

- 用tuple指定数组的形状

In [72]:
b.shape = (2, 6)
b

array([[ 0,  1, 20,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

- 转置

In [73]:
b.transpose()

array([[ 0,  6],
       [ 1,  7],
       [20,  8],
       [ 3,  9],
       [ 4, 10],
       [ 5, 11]])

### 堆叠数组

In [74]:
b

array([[ 0,  1, 20,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [75]:
c = b * 2
c

array([[ 0,  2, 40,  6,  8, 10],
       [12, 14, 16, 18, 20, 22]])

- 水平叠加 hstack()

In [76]:
np.hstack((b, c))

array([[ 0,  1, 20,  3,  4,  5,  0,  2, 40,  6,  8, 10],
       [ 6,  7,  8,  9, 10, 11, 12, 14, 16, 18, 20, 22]])

column_stack()函数以列方式对数组进行叠加，功能类似hstack()

In [77]:
np.column_stack((b, c))

array([[ 0,  1, 20,  3,  4,  5,  0,  2, 40,  6,  8, 10],
       [ 6,  7,  8,  9, 10, 11, 12, 14, 16, 18, 20, 22]])

- 垂直叠加vstack()

In [78]:
np.vstack((b, c))

array([[ 0,  1, 20,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [ 0,  2, 40,  6,  8, 10],
       [12, 14, 16, 18, 20, 22]])

row_stack()函数以行方式对数组进行叠加，功能类似vstack()

In [79]:
np.row_stack((b, c))

array([[ 0,  1, 20,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [ 0,  2, 40,  6,  8, 10],
       [12, 14, 16, 18, 20, 22]])

- concatenate()方法，通过设置axis的值来设置叠加方向
- axis = 1时，沿水平方向叠加
- axis = 0时，沿垂直方向叠加
- 0 - row - 行 - 垂直
- 1 - column - 列 - 水平
- 先行后列

In [80]:
np.concatenate((b, c), axis=1)

array([[ 0,  1, 20,  3,  4,  5,  0,  2, 40,  6,  8, 10],
       [ 6,  7,  8,  9, 10, 11, 12, 14, 16, 18, 20, 22]])

In [81]:
np.concatenate((b, c), axis=0)

array([[ 0,  1, 20,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [ 0,  2, 40,  6,  8, 10],
       [12, 14, 16, 18, 20, 22]])

- 深度叠加（维度叠加）dstack()

In [82]:
arr_stack = np.dstack((b, c))
arr_stack.shape

(2, 6, 2)

In [83]:
arr_stack

array([[[ 0,  0],
        [ 1,  2],
        [20, 40],
        [ 3,  6],
        [ 4,  8],
        [ 5, 10]],

       [[ 6, 12],
        [ 7, 14],
        [ 8, 16],
        [ 9, 18],
        [10, 20],
        [11, 22]]])

叠加前b和c都是（2,6）的二维数组，叠加后，arr_dstack为（2,6,2）的三维数组。相当于原来每个量多了一个平行量来表示同一属性

### 数组的拆分

与叠加类似，数组的拆分可以分为横向拆分、纵向拆分以及深度拆分。

涉及函数为hsplit()、hsplit()、dsplit()、split()

In [84]:
b

array([[ 0,  1, 20,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

- 横向轴拆分（列拆分） axis = 1

In [85]:
np.hsplit(b, 2)

[array([[ 0,  1, 20],
        [ 6,  7,  8]]), array([[ 3,  4,  5],
        [ 9, 10, 11]])]

In [86]:
np.hsplit(b, 3)

[array([[0, 1],
        [6, 7]]), array([[20,  3],
        [ 8,  9]]), array([[ 4,  5],
        [10, 11]])]

In [87]:
np.split(b, 2, axis=1)

[array([[ 0,  1, 20],
        [ 6,  7,  8]]), array([[ 3,  4,  5],
        [ 9, 10, 11]])]

- 沿纵向拆分（行拆分） axis = 0

In [88]:
np.vsplit(b, 2)

[array([[ 0,  1, 20,  3,  4,  5]]), array([[ 6,  7,  8,  9, 10, 11]])]

In [89]:
np.split(b, 2, axis=0)

[array([[ 0,  1, 20,  3,  4,  5]]), array([[ 6,  7,  8,  9, 10, 11]])]

- 深度拆分

In [90]:
arr_stack

array([[[ 0,  0],
        [ 1,  2],
        [20, 40],
        [ 3,  6],
        [ 4,  8],
        [ 5, 10]],

       [[ 6, 12],
        [ 7, 14],
        [ 8, 16],
        [ 9, 18],
        [10, 20],
        [11, 22]]])

In [91]:
np.dsplit(arr_stack, 2)

[array([[[ 0],
         [ 1],
         [20],
         [ 3],
         [ 4],
         [ 5]],
 
        [[ 6],
         [ 7],
         [ 8],
         [ 9],
         [10],
         [11]]]), array([[[ 0],
         [ 2],
         [40],
         [ 6],
         [ 8],
         [10]],
 
        [[12],
         [14],
         [16],
         [18],
         [20],
         [22]]])]

## 数组的类型转换

- 数组转换成list,使用tolist()

In [92]:
b

array([[ 0,  1, 20,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [93]:
b.tolist()

[[0, 1, 20, 3, 4, 5], [6, 7, 8, 9, 10, 11]]

- 转换成指定类型，使用astype()函数

In [94]:
b.astype(float)

array([[  0.,   1.,  20.,   3.,   4.,   5.],
       [  6.,   7.,   8.,   9.,  10.,  11.]])

In [95]:
b.astype(str)

array([['0', '1', '20', '3', '4', '5'],
       ['6', '7', '8', '9', '10', '11']],
      dtype='<U11')

## Numpy常用统计函数

** 注意函数在使用时需要指定axis轴的方向，若不指定，默认统计整个数组 **

- np.sum()，返回求和
- np.mean()，返回均值
- np.max()，返回最大值
- np.min()，返回最小值
- np.ptp()，数组沿指定轴返回最大值减去最小值，即(max-min)
- np.std()，返回标准偏差(standard deviation)
- np.var()，返回方差(variance)
- np.cumsum()，返回累加值
- np.cumprod()，返回累乘积值

In [96]:
b

array([[ 0,  1, 20,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [97]:
np.max(b)

20

In [98]:
np.max(b, axis=1) #  沿axis=1轴方向统计（列）

array([20, 11])

In [99]:
np.max(b, axis=0) #  沿axis=0轴方向统计（行）

array([ 6,  7, 20,  9, 10, 11])

- np.ptp()，返回整个数组的最大值减去最小值

In [100]:
np.ptp(b)

20

In [101]:
np.ptp(b, axis=0)

array([ 6,  6, 12,  6,  6,  6])

In [102]:
np.ptp(b, axis=1)

array([20,  5])

- np.cumsum()，沿着指定轴方向进行累加

In [103]:
b.resize(4, 3)
b

array([[ 0,  1, 20],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [104]:
np.cumsum(b, axis=1)

array([[ 0,  1, 21],
       [ 3,  7, 12],
       [ 6, 13, 21],
       [ 9, 19, 30]], dtype=int32)

In [105]:
np.cumsum(b, axis=0)

array([[ 0,  1, 20],
       [ 3,  5, 25],
       [ 9, 12, 33],
       [18, 22, 44]], dtype=int32)

- np.cumprod()沿着指定轴方向进行累乘积（return the cumulative product of the elements along the given axis）

In [106]:
np.cumprod(b, axis=1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336],
       [  9,  90, 990]], dtype=int32)

In [107]:
np.cumprod(b, axis=0)

array([[   0,    1,   20],
       [   0,    4,  100],
       [   0,   28,  800],
       [   0,  280, 8800]], dtype=int32)

## 数组的广播

当数组跟一个标量进行数学运算时，标量需要根据数组的形状进行扩展，然后执行运算

这个扩展的过程称为广播（broadcasting）

In [108]:
b

array([[ 0,  1, 20],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [109]:
d = b + 2
d

array([[ 2,  3, 22],
       [ 5,  6,  7],
       [ 8,  9, 10],
       [11, 12, 13]])