# Numpy

## The Basics 基础

In [179]:
import numpy as np
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

ndarray.ndim --维数

In [180]:
a.ndim

2

ndarray.shape --行列数

In [181]:
a.shape

(3, 5)

ndarray.size --元素总数

In [182]:
a.size

15

ndarray.dtype --元素数据类型

In [183]:
a.dtype

dtype('int32')

ndarray.itemsize --元素占内存大小

In [184]:
a.itemsize

4

ndarray.data --元素在内存中的位置

In [185]:
a.data

<memory at 0x000002601677E048>

## Array Creation 创建数组



In [186]:
import numpy as np
a = np.array([2,3,4])
a

array([2, 3, 4])

In [280]:
b = np.array([(1.5,2,3), (4,5,6)])
b

array([[ 1.5,  2. ,  3. ],
       [ 4. ,  5. ,  6. ]])

指定创建的数据类型

In [281]:
c = np.array( [ [1,2], [3,4] ], dtype=complex )
c

array([[ 1.+0.j,  2.+0.j],
       [ 3.+0.j,  4.+0.j]])

特殊数组的创建

In [282]:
 np.zeros( (3,4) )

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [283]:
np.ones( (2,3,4), dtype=np.int16 )

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [285]:
np.empty( (4,3) )  #未初始化的数组

array([[ 6.,  8.,  1.],
       [ 9.,  8.,  6.],
       [ 9.,  9.,  6.],
       [ 3.,  4.,  2.]])

创建数据序列

In [286]:
np.arange( 10, 30, 5 )

array([10, 15, 20, 25])

In [287]:
np.arange( 0, 2, 0.3 )

array([ 0. ,  0.3,  0.6,  0.9,  1.2,  1.5,  1.8])

由于arange()可能导致不可预期的结果。更好的用法是linspace()函数

In [194]:
import numpy as np
np.linspace( 0, 2, 9 )

array([ 0.  ,  0.25,  0.5 ,  0.75,  1.  ,  1.25,  1.5 ,  1.75,  2.  ])

In [195]:
import numpy as np
from numpy import pi
np.linspace( 0, 2*pi, 10)

array([ 0.        ,  0.6981317 ,  1.3962634 ,  2.0943951 ,  2.7925268 ,
        3.4906585 ,  4.1887902 ,  4.88692191,  5.58505361,  6.28318531])

##  Printing Arrays  打印数组


用print打印出的数组和python list类似，不同的是数组是格式化过的，过长时会有省略

In [196]:
c =np.arange(24).reshape(2,3,4)
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [197]:
print(np.arange(10000).reshape(100,100))

[[   0    1    2 ...,   97   98   99]
 [ 100  101  102 ...,  197  198  199]
 [ 200  201  202 ...,  297  298  299]
 ..., 
 [9700 9701 9702 ..., 9797 9798 9799]
 [9800 9801 9802 ..., 9897 9898 9899]
 [9900 9901 9902 ..., 9997 9998 9999]]


##  Basic Operations  基本运算


基本运算不改变参与运算的数组，而是新创建一个结果数组

In [198]:
a = np.array( [20,30,40,50] )
b = np.arange(4)
a+b

array([20, 31, 42, 53])

In [199]:
a-b

array([20, 29, 38, 47])

In [200]:
a**2

array([ 400,  900, 1600, 2500], dtype=int32)

In [201]:
a<35

array([ True,  True, False, False], dtype=bool)

和很多矩阵运算语言不同，在numpy中，元素对元素的运算用*,矩阵乘法用dot函数

In [202]:
A = np.array( [[1,1], [0,1]] )
B = np.array( [[2,0],[3,4]] )

In [203]:
A*B  #矩阵每项相乘

array([[2, 0],
       [0, 4]])

In [204]:
np.dot(A, B) # 矩阵A每一行和矩阵B每一列两两相乘后相加

array([[5, 4],
       [3, 4]])

某些运算，如 += 和 *= 会修改参与运算的数组而不是创建新数组

In [205]:
a = np.ones((2,3), dtype=int)
b = np.random.random((2,3))

In [206]:
a *= 3
a

array([[3, 3, 3],
       [3, 3, 3]])

In [207]:
b +=a
b

array([[ 3.49670456,  3.19165333,  3.28546479],
       [ 3.19384895,  3.60925625,  3.37001835]])

对不同数据类型的数组参与运算时，运算结果数组的数据类型为两者中更大数据域的类型

In [208]:
a = np.ones(3, dtype=np.int32)
b = np.linspace(0,pi,3)
b.dtype.name

'float64'

In [209]:
c = a + b
c.dtype.name

'float64'

In [210]:
d = np.exp(c*1j)
d.dtype.name

'complex128'

聚类函数

In [211]:
a = np.random.random((2,3))
a

array([[ 0.55808915,  0.03606868,  0.56527855],
       [ 0.59711093,  0.96575822,  0.6068122 ]])

In [212]:
a.sum()

3.329117732039419

In [213]:
a.mean()

0.5548529553399032

In [214]:
a.min()

0.036068678989856329

In [215]:
a.max()

0.96575822259418442

默认情况下，聚类函数会应用到整个数组，但通过指定维数，可以把运算应用到行或列上。

In [216]:
b = np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

每一列求和

In [217]:
b.sum(axis=0)   # axis = 0 表示列（y）

array([12, 15, 18, 21])

每一行求和

In [218]:
b.sum(axis=1)   # axis = 0 表示（x）

array([ 6, 22, 38])

## Universal Functions 通用函数（数学函数）

参与运算的数组不变，创建新数组

In [219]:
B = np.arange(3)
B

array([0, 1, 2])

In [220]:
np.exp(B)

array([ 1.        ,  2.71828183,  7.3890561 ])

In [221]:
np.sqrt(B)

array([ 0.        ,  1.        ,  1.41421356])

In [222]:
 C = np.array([2., -1., 4.])

In [223]:
np.add(B, C)

array([ 2.,  0.,  6.])

## Indexing, Slicing and Iterating 索引，切片和迭代

一维数组的操作和list相同

In [224]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [225]:
a[2]

8

In [226]:
a[2:5]

array([ 8, 27, 64], dtype=int32)

In [227]:
a[:6:2]=-1000
a

array([-1000,     1, -1000,    27, -1000,   125,   216,   343,   512,   729], dtype=int32)

In [228]:
a[ : :-1] # 反向

array([  729,   512,   343,   216,   125, -1000,    27, -1000,     1, -1000], dtype=int32)

多维数组可以每个轴有一个索引。这些索引在以逗号分隔的元组中给出:

In [229]:
def f(x,y):
     return 10*x+y
b = np.fromfunction(f,(5,4),dtype=int) # 这里f,加逗号，不加会出错
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [230]:
b[2,3]   # 取出第三行第三列的数据

23

In [231]:
b[0:5, 1]  # 取出第二列的数据

array([ 1, 11, 21, 31, 41])

In [232]:
b[1,0:5]  #取出第二行的数据

array([10, 11, 12, 13])

In [233]:
b[ : ,2]  # 取出第三列的数据（缺省）

array([ 2, 12, 22, 32, 42])

In [234]:
b[1:3, : ] #取出2，3行的数据

array([[10, 11, 12, 13],
       [20, 21, 22, 23]])

当提供的索引少于坐标轴数时, 缺少的索引被视为完整的切片

In [235]:
b[-1]   # 相当于b[-1,:]

array([40, 41, 42, 43])

In [236]:
b[-1,:]

array([40, 41, 42, 43])

In [237]:
b[:,-1] # 取出列时必须有：占位

array([ 3, 13, 23, 33, 43])

简写
b[i,:,:,:,j]可以被简写为b[i,...,j]，dots(...)代表有很多列

    x[1,2,...] is equivalent to x[1,2,:,:,:],
    x[...,3] to x[:,:,:,:,3] and
    x[4,...,5,:] to x[4,:,:,5,:].

In [238]:
c = np.array( [[[  0,  1,  2],               
                 [ 10, 12, 13]],
                [[100,101,102],
                 [110,112,113]]])
print(c)

[[[  0   1   2]
  [ 10  12  13]]

 [[100 101 102]
  [110 112 113]]]


In [239]:
print(c[1,...]) # same as c[1,:,:] or c[1]  # 取出第2行

[[100 101 102]
 [110 112 113]]


In [240]:
print(c[...,2])   # same as c[:,:,2], # 取出第三列

[[  2  13]
 [102 113]]


多维数组降到一维

In [241]:
for row in b:
    print(row)

[0 1 2 3]
[10 11 12 13]
[20 21 22 23]
[30 31 32 33]
[40 41 42 43]


如果要对数组中的每个元素执行操作,可以使用迭代器flat:

In [242]:
for element in b.flat:
    if element <5:
        print(element)

0
1
2
3


## Shape Manipulation   矩阵形状操作



改变数组的形状

In [243]:
import numpy as np
a = np.floor(10*np.random.random((3,4)))
a

array([[ 2.,  6.,  6.,  6.],
       [ 1.,  4.,  2.,  9.],
       [ 4.,  7.,  0.,  5.]])

In [244]:
a.shape

(3, 4)

数组的形状可以被很多命令改变，以下的命令不改变参与运算的数组，结果为新创建的数组。

In [245]:
a.ravel()

array([ 2.,  6.,  6.,  6.,  1.,  4.,  2.,  9.,  4.,  7.,  0.,  5.])

In [246]:
a.reshape(6,2)

array([[ 2.,  6.],
       [ 6.,  6.],
       [ 1.,  4.],
       [ 2.,  9.],
       [ 4.,  7.],
       [ 0.,  5.]])

In [247]:
a.T # 转置

array([[ 2.,  1.,  4.],
       [ 6.,  4.,  7.],
       [ 6.,  2.,  0.],
       [ 6.,  9.,  5.]])

resize()函数改变数组本身

In [248]:
a.resize((2,6))
a

array([[ 2.,  6.,  6.,  6.,  1.,  4.],
       [ 2.,  9.,  4.,  7.,  0.,  5.]])

如果在数组变形reshape操作中维度指定为-1，则自动计算其他维度

In [249]:
a.reshape(4,-1)

array([[ 2.,  6.,  6.],
       [ 6.,  1.,  4.],
       [ 2.,  9.,  4.],
       [ 7.,  0.,  5.]])

#### 数组拼接

数组可以按行或列任意堆叠在一起

In [250]:
import numpy as np
a = np.floor(10*np.random.random((2,2))) # floor函数返回最大整数（取整函数）
a

array([[ 6.,  9.],
       [ 2.,  6.]])

In [251]:
b = np.floor(10*np.random.random((2,2))) 
b

array([[ 0.,  1.],
       [ 9.,  6.]])

In [252]:
np.vstack((a,b)) #垂直拼接

array([[ 6.,  9.],
       [ 2.,  6.],
       [ 0.,  1.],
       [ 9.,  6.]])

In [253]:
 np.hstack((a,b)) # 水平拼接

array([[ 6.,  9.,  0.,  1.],
       [ 2.,  6.,  9.,  6.]])

函数 column_stack 将1D 数组作为列叠加到2D 数组中。等效于仅对1D 阵列进行 vstack:

In [254]:
np.column_stack((a,b))   # With 2D arrays

array([[ 6.,  9.,  0.,  1.],
       [ 2.,  6.,  9.,  6.]])

In [255]:
from numpy import newaxis
a = np.array([4.,2.])
b = np.array([2.,8.])
a[:,newaxis]

array([[ 4.],
       [ 2.]])

In [256]:
b[:,newaxis]

array([[ 2.],
       [ 8.]])

In [257]:
np.column_stack((a[:,newaxis],b[:,newaxis]))

array([[ 4.,  2.],
       [ 2.,  8.]])

In [258]:
np.vstack((a,b))

array([[ 4.,  2.],
       [ 2.,  8.]])

在复杂情况下, r_ 和 c_ 对于通过沿一个轴堆叠数字来创建数组非常有用。它们允许使用范围文本 (":")

In [259]:
np.r_[1:4,0,4]

array([1, 2, 3, 0, 4])

当将数组用作参数时, r_ 和 c_ 与 vstack 和 hstack 在其默认行为中相似, 但允许一个可选的参数提供要连接的轴的编号。

####  数组分割

Splitting one array into several smaller ones  

使用 hsplit函数, 沿水平轴拆分数组, 方法是指定应在其之后发生分割的列:

In [260]:
a = np.floor(10*np.random.random((2,12)))
a

array([[ 1.,  2.,  9.,  1.,  0.,  6.,  8.,  1.,  9.,  0.,  0.,  8.],
       [ 8.,  7.,  0.,  5.,  6.,  9.,  9.,  6.,  3.,  4.,  2.,  0.]])

In [261]:
np.hsplit(a,3) # 一个数组分割成形状相等的三个数组组成的列表

[array([[ 1.,  2.,  9.,  1.],
        [ 8.,  7.,  0.,  5.]]), array([[ 0.,  6.,  8.,  1.],
        [ 6.,  9.,  9.,  6.]]), array([[ 9.,  0.,  0.,  8.],
        [ 3.,  4.,  2.,  0.]])]

In [262]:
np.hsplit(a,(3,4))

[array([[ 1.,  2.,  9.],
        [ 8.,  7.,  0.]]), array([[ 1.],
        [ 5.]]), array([[ 0.,  6.,  8.,  1.,  9.,  0.,  0.,  8.],
        [ 6.,  9.,  9.,  6.,  3.,  4.,  2.,  0.]])]

vsplit 沿垂直轴进行拆分, array_split 允许一个指定沿哪个轴进行分割。

## Copies and Views 复制和查看

数组运算和操作时，有些操作会产生新的数组，有些不会，容易引起混淆。

#### 不复制的情形：

No Copy at All 

+ 简单的赋值不复制数组对象或它们的数据.
+ 函数调用不复制

#### 视图或浅拷贝

View or Shallow Copy

不同的数组共享相同的数据（同时指向相同的数据区）

view方法创建一个新的共享内存的数组对象

In [263]:
a

array([[ 1.,  2.,  9.,  1.,  0.,  6.,  8.,  1.,  9.,  0.,  0.,  8.],
       [ 8.,  7.,  0.,  5.,  6.,  9.,  9.,  6.,  3.,  4.,  2.,  0.]])

In [264]:
c = a.view()
c

array([[ 1.,  2.,  9.,  1.,  0.,  6.,  8.,  1.,  9.,  0.,  0.,  8.],
       [ 8.,  7.,  0.,  5.,  6.,  9.,  9.,  6.,  3.,  4.,  2.,  0.]])

In [265]:
c is a   # 不同数组

False

In [266]:
c.base is a  # c is a view of the data owned by a，共同数据

True

In [267]:
c.shape = (4,6)
c

array([[ 1.,  2.,  9.,  1.,  0.,  6.],
       [ 8.,  1.,  9.,  0.,  0.,  8.],
       [ 8.,  7.,  0.,  5.,  6.,  9.],
       [ 9.,  6.,  3.,  4.,  2.,  0.]])

In [268]:
a.shape   # 修改c的形状，a的形状不变

(2, 12)

In [269]:
c[0,4] = 1234
c

array([[  1.00000000e+00,   2.00000000e+00,   9.00000000e+00,
          1.00000000e+00,   1.23400000e+03,   6.00000000e+00],
       [  8.00000000e+00,   1.00000000e+00,   9.00000000e+00,
          0.00000000e+00,   0.00000000e+00,   8.00000000e+00],
       [  8.00000000e+00,   7.00000000e+00,   0.00000000e+00,
          5.00000000e+00,   6.00000000e+00,   9.00000000e+00],
       [  9.00000000e+00,   6.00000000e+00,   3.00000000e+00,
          4.00000000e+00,   2.00000000e+00,   0.00000000e+00]])

In [270]:
a  # c的值改变时，a的值同时改变

array([[  1.00000000e+00,   2.00000000e+00,   9.00000000e+00,
          1.00000000e+00,   1.23400000e+03,   6.00000000e+00,
          8.00000000e+00,   1.00000000e+00,   9.00000000e+00,
          0.00000000e+00,   0.00000000e+00,   8.00000000e+00],
       [  8.00000000e+00,   7.00000000e+00,   0.00000000e+00,
          5.00000000e+00,   6.00000000e+00,   9.00000000e+00,
          9.00000000e+00,   6.00000000e+00,   3.00000000e+00,
          4.00000000e+00,   2.00000000e+00,   0.00000000e+00]])

对数组切片返回的是数组的视图

In [271]:
s = a[ : , 1:3]

In [272]:
s[:] = 999

In [273]:
a

array([[  1.00000000e+00,   9.99000000e+02,   9.99000000e+02,
          1.00000000e+00,   1.23400000e+03,   6.00000000e+00,
          8.00000000e+00,   1.00000000e+00,   9.00000000e+00,
          0.00000000e+00,   0.00000000e+00,   8.00000000e+00],
       [  8.00000000e+00,   9.99000000e+02,   9.99000000e+02,
          5.00000000e+00,   6.00000000e+00,   9.00000000e+00,
          9.00000000e+00,   6.00000000e+00,   3.00000000e+00,
          4.00000000e+00,   2.00000000e+00,   0.00000000e+00]])

#### 深拷贝

Deep Copy

copy 方法完全复制数组及其数据

In [274]:
d = a.copy()

In [275]:
d is a  # 不同数组

False

In [276]:
d.base is a # 不同数据

False

In [277]:
d[0,0] = 9
a

array([[  1.00000000e+00,   9.99000000e+02,   9.99000000e+02,
          1.00000000e+00,   1.23400000e+03,   6.00000000e+00,
          8.00000000e+00,   1.00000000e+00,   9.00000000e+00,
          0.00000000e+00,   0.00000000e+00,   8.00000000e+00],
       [  8.00000000e+00,   9.99000000e+02,   9.99000000e+02,
          5.00000000e+00,   6.00000000e+00,   9.00000000e+00,
          9.00000000e+00,   6.00000000e+00,   3.00000000e+00,
          4.00000000e+00,   2.00000000e+00,   0.00000000e+00]])

## Functions and Methods Overview 函数和方法总览
下面是一些有用的 NumPy 函数和方法的列表

#### Array Creation

arange, 

array,

 copy, 

empty, 

empty_like, 

eye,

 fromfile,

 fromfunction,

 identity,

 linspace,

 logspace, 

mgrid,

 ogrid, 

ones, 

ones_like,

 r,

 zeros, 

zeros_like

random.rand   创建[0,1]之间均匀分布的随机数

numpy.random.randn 创建符合标准正态分布的随机数

fromfunction,

 fromfile

#### Conversions

ndarray.astype,

 atleast_1d, 

atleast_2d, 

atleast_3d, 

mat

#### Manipulations

array_split,

 column_stack, 

concatenate, 沿坐标轴加入数组序列。

In [279]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6],[3, 4]])
np.concatenate((a, b), axis=0) # 沿列方向加入

array([[1, 2],
       [3, 4],
       [5, 6],
       [3, 4]])

diagonal,

 dsplit, 

dstack, 

hsplit, 

hstack,

 ndarray.item, 

newaxis, 

ravel, 

repeat, 

reshape, 

resize, 

squeeze,

 swapaxes, 

take, 

transpose, 

vsplit, 

vstack

#### Questions

all, 

any, 

nonzero,

 where

#### Ordering

argmax, 

argmin,

 argsort, 

max,

 min, 

ptp, 

searchsorted,

 sort

#### Operations

choose, 

compress, 

cumprod,

 cumsum,

 inner, 

ndarray.fill, 

imag,

 prod,

 put,

 putmask,

 real, 

sum

#### Basic Statistics

cov, 

mean, 

std,

 var

#### Basic Linear Algebra

cross,

 dot, 

outer, 

linalg.svd,

 vdot