## 基本概念

In [78]:
import numpy as np

数组的类型、形状

- `ndim`表示数组轴的个数，在python的世界中，轴的个数被称作秩
- `dtype`表示数组元素的类型
- `itemsize`表示数组中每个元素的大小

In [79]:
a = np.arange(15).reshape(3, 5)

In [80]:
(a.ndim, a.shape, a.size, a.dtype, a.itemsize, a.data)

(2,
 (3L, 5L),
 15,
 dtype('int32'),
 4,
 <read-write buffer for 0x00000000042E9170, size 60, offset 0 at 0x00000000042A47A0>)

## 创建数组

创建数组的途径

- 已有数据
    - 只需指明已有数据来源，不需要指明类型、形状
    - 可以显式指明类型，否则就自动推导
- 生成数据
    - 需要指明形状
    - 默认类型是`float64`

In [81]:
np.array([1, 2, 3, 4]).dtype

dtype('int32')

In [82]:
np.array([1, 2, 3, 4], dtype='float64').dtype

dtype('float64')

In [83]:
np.array([(1.5, 2, 3), (4, 5, "ab")]).shape

(2L, 3L)

注意如下数组的`dtype`形状为(3, 1)，类型为`object`

In [84]:
np.array([(1.5, 2, 3), (4, 5, "ab"), ('a')])

array([(1.5, 2, 3), (4, 5, 'ab'), 'a'], dtype=object)

In [85]:
np.zeros((3, 4))

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [86]:
np.ones((3, 4))

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])

可以设定`dtype`为(2,3)的数组

In [87]:
np.ones((2, 2), dtype=np.dtype("i4, (2,3)f8"))

array([[(1, [[1.0, 1.0, 1.0], [1.0, 1.0, 1.0]]),
        (1, [[1.0, 1.0, 1.0], [1.0, 1.0, 1.0]])],
       [(1, [[1.0, 1.0, 1.0], [1.0, 1.0, 1.0]]),
        (1, [[1.0, 1.0, 1.0], [1.0, 1.0, 1.0]])]], 
      dtype=[('f0', '<i4'), ('f1', '<f8', (2, 3))])

In [88]:
np.ones((2, 2), dtype=np.dtype("i4, (2,3)f8")).itemsize

52

函数empty创建一个内容随机并且依赖与内存状态的数组

In [89]:
np.empty((2, 3))

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

## 基本运算

数组的基本元素是按元素操作的

In [90]:
a = np.array( [20,30,40,50] )

In [91]:
a + np.arange(4)

array([20, 31, 42, 53])

In [92]:
a * 2

array([ 40,  60,  80, 100])

In [93]:
np.sin(a)

array([ 0.91294525, -0.98803162,  0.74511316, -0.26237485])

In [94]:
a ** 2

array([ 400,  900, 1600, 2500])

In [95]:
a < 34

array([ True,  True, False, False], dtype=bool)

不像许多矩阵语言，NumPy中的乘法运算符`*`指示按元素计算，矩阵乘法可以使用dot函数或创建矩阵对象实现

In [96]:
A = np.array( [[1,1],[0,1]] )
B = np.array( [[2,0],[3,4]] )

In [97]:
A*B

array([[2, 0],
       [0, 4]])

In [98]:
np.dot(A, B)

array([[5, 4],
       [3, 4]])

运算默认是应用到数组的所有元素中，无关数组形状，但是可以指定`axis`参数应用到指定轴上

In [99]:
b = np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [100]:
b.sum(axis=0)

array([12, 15, 18, 21])

In [101]:
b.min(axis=1)

array([0, 4, 8])

In [102]:
b.cumsum(axis=1)

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]])

## 通用函数

[通用函数(ufunc)](http://docs.scipy.org/doc/numpy/reference/ufuncs.html)是对[ndarray](http://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html)按元素操作的函数，支持广播、类型转换以及其它特性

## 索引、切片和迭代

多维数组可以每个轴有一个索引。这些索引由一个逗号分割的元组给出

In [103]:
def f(x,y):
    return 10*x+y

b = np.fromfunction(f, (5,4), dtype=np.int32)
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [104]:
b[0:5, 1]

array([ 1, 11, 21, 31, 41])

当少于轴数的索引被提供时，缺失的索引被认为是整个切片

In [105]:
b[-1]

array([40, 41, 42, 43])

点(…)代表许多产生一个完整的索引元组必要的分号

In [106]:
b[1, ...], b[1,:]

(array([10, 11, 12, 13]), array([10, 11, 12, 13]))

迭代多维数组是就第一个轴而言，然而，如果一个人想对每个数组中元素进行运算，我们可以使用flat属性，该属性是数组元素的一个迭代器

In [107]:
for element in b.flat:
    print element,

0 1 2 3 10 11 12 13 20 21 22 23 30 31 32 33 40 41 42 43


## 形状操作

In [108]:
a = np.random.randint(1, 100, (3, 4))
a

array([[44, 30, 71, 25],
       [48, 70, 69, 96],
       [62, 74, 65, 12]])

- `ravel`得到一个展开的数组
- `rezie`更改原数组的形状
- `reshape`得到一个指定形状的新数组

In [109]:
a.ravel(), a.shape, a.ravel().shape

(array([44, 30, 71, 25, 48, 70, 69, 96, 62, 74, 65, 12]), (3L, 4L), (12L,))

In [110]:
a.resize(6, 2)
a

array([[44, 30],
       [71, 25],
       [48, 70],
       [69, 96],
       [62, 74],
       [65, 12]])

In [111]:
a.reshape(1, 12)

array([[44, 30, 71, 25, 48, 70, 69, 96, 62, 74, 65, 12]])

## 堆叠

- `vstack`(`row_stack`)、`hstack`(`column_stack`)

In [112]:
a = np.floor(10 * np.random.random((2,2)))
b = np.floor(10 * np.random.random((2,2)))

In [113]:
np.vstack((a,b))

array([[ 4.,  8.],
       [ 9.,  0.],
       [ 2.,  0.],
       [ 1.,  8.]])

In [114]:
np.hstack((a,b))

array([[ 4.,  8.,  2.,  0.],
       [ 9.,  0.,  1.,  8.]])

In [115]:
np.column_stack((a, b))

array([[ 4.,  8.,  2.,  0.],
       [ 9.,  0.,  1.,  8.]])

## `r_ `、`c_`

`r_ `、`c_`用于快速创建组合的数组，可以包含数组和slice

In [116]:
np.r_[np.array([1,2,3]), 0, 0, np.array([4,5,6])]

array([1, 2, 3, 0, 0, 4, 5, 6])

如果slice的step参数以`j`结尾，相当于`np.linspace`

In [117]:
np.r_[-1:1:6j, [0]*3, 5, 6]

array([-1. , -0.6, -0.2,  0.2,  0.6,  1. ,  0. ,  0. ,  0. ,  5. ,  6. ])

可以指明合并的轴，默认使用第一个轴

In [118]:
a = np.array([[1,2,3],[4,5,6]])

In [119]:
np.r_[a,a]

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [120]:
np.r_['-1',a,a]

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

可以指明最少的轴数量

In [121]:
np.r_['0,2', [1,2,3,], [4,5,6]].shape, np.r_['0,3', [1,2,3,], [4,5,6]].shape, np.r_['0,4', [1,2,3,], [4,5,6]].shape, 

((2L, 3L), (2L, 1L, 3L), (2L, 1L, 1L, 3L))

In [122]:
np.r_['0,2', [1,2,3,], [4,5,6]]

array([[1, 2, 3],
       [4, 5, 6]])

In [123]:
np.r_['0,3', [1,2,3,], [4,5,6]]

array([[[1, 2, 3]],

       [[4, 5, 6]]])

In [124]:
np.r_['0,4', [1,2,3,], [4,5,6]]

array([[[[1, 2, 3]]],


       [[[4, 5, 6]]]])

可以强制返回矩阵对象

In [125]:
np.r_['r',[1,2,3], [4,5,6]]

matrix([[1, 2, 3, 4, 5, 6]])

`np.r_`是一个对象，对于Python对象来说，当执行语句`obj[a,b,c]`时，会调用`obj.__getitem__`方法

In [126]:
np.r_

<numpy.lib.index_tricks.RClass at 0x3ef4160>

对于`r_`和`c_`来说，pytohn不允许函数接受slice类型的参数（如`3:9`），但是python允许使用slice参数对数组进行切片，因此使用`__getitem__`作为替代方案

In [127]:
class myClass(object):
    def __getitem__(self,i):
        print i,

a = myClass()

In [128]:
a[3], a[2,4], a[2:9]

3 (2, 4) slice(2, 9, None)

(None, None, None)




参考[numpy.r_ is not a function. What is it?](http://stackoverflow.com/questions/18601001/numpy-r-is-not-a-function-what-is-it)

## 切割

使用hsplit你能将数组沿着它的水平轴分割，或者指定返回相同形状数组的个数（如果不能整分，将会报错），或者指定在哪些列后发生分割

In [129]:
a = np.floor(10 *  np.random.random((2,12)))
a

array([[ 6.,  4.,  6.,  4.,  5.,  7.,  8.,  2.,  4.,  3.,  3.,  1.],
       [ 2.,  5.,  1.,  4.,  9.,  3.,  1.,  2.,  6.,  3.,  2.,  3.]])

In [130]:
np.hsplit(a, 3)

[array([[ 6.,  4.,  6.,  4.],
        [ 2.,  5.,  1.,  4.]]), array([[ 5.,  7.,  8.,  2.],
        [ 9.,  3.,  1.,  2.]]), array([[ 4.,  3.,  3.,  1.],
        [ 6.,  3.,  2.,  3.]])]

In [131]:
np.hsplit(a,(3,4))

[array([[ 6.,  4.,  6.],
        [ 2.,  5.,  1.]]), array([[ 4.],
        [ 4.]]), array([[ 5.,  7.,  8.,  2.,  4.,  3.,  3.,  1.],
        [ 9.,  3.,  1.,  2.,  6.,  3.,  2.,  3.]])]

类似，还有vsplit和array_split

## 复制

numpy的数据有时被拷贝，有时不是

### 完全不复制

In [132]:
a = np.arange(12)
b = a
b is a

True

In [133]:
id(a), id(b)

(70222592L, 70222592L)

In [134]:
b.shape = 3,4

In [135]:
a.shape

(3L, 4L)

### 视图和浅复制

view方法创造一个新的数组对象指向同一数据

In [136]:
c = a.view()

In [137]:
c is a, c.base is a, c.flags.owndata

(False, True, False)

In [138]:
c.shape = 2,6

In [139]:
c.shape, a.shape

((2L, 6L), (3L, 4L))

In [140]:
c[0,4] = 1234

In [141]:
a

array([[   0,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

切片数组返回它的一个视图

In [142]:
s = a[:, 1:3]

In [143]:
s[:] = 10

In [144]:
a

array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

### 深复制

copy()方法完全复制数组和它的数据

In [145]:
d = a.copy()

In [146]:
d[0,0] = 9999

In [147]:
d, a

(array([[9999,   10,   10,    3],
        [1234,   10,   10,    7],
        [   8,   10,   10,   11]]), array([[   0,   10,   10,    3],
        [1234,   10,   10,    7],
        [   8,   10,   10,   11]]))

## 广播法则

广播法则能使通用函数有意义地处理不具有相同形状的输入

- 如果所有的输入数组维度不都相同，一个“1”将被重复地添加在维度较小的数组上直至所有的数组拥有一样的维度
- 长度为1的数组沿着特殊的方向表现地好像它有沿着那个方向最大形状的大小

应用广播法则之后，所有数组的大小必须匹配

## 索引技巧

除了索引整数和切片，正如我们之前看到的，数组可以被整数数组和布尔数组索引

In [148]:
a = np.arange(12)**2

In [149]:
i = np.array( [ 1,1,3,8,5 ] )

In [150]:
a[i]

array([ 1,  1,  9, 64, 25])

In [152]:
j = np.array( [ [ 3, 4], [ 9, 7 ] ] )

In [153]:
a[j]

array([[ 9, 16],
       [81, 49]])

也可以给出不不止一维的索引，每一维的索引数组必须有相同的形状

In [159]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [156]:
i = np.array( [ [0,1], [1,2] ] )

In [157]:
j = np.array( [ [2,1], [3,3] ] )

In [161]:
a[i, j]

array([[ 2,  5],
       [ 7, 11]])

In [162]:
a[i,2]

array([[ 2,  6],
       [ 6, 10]])

In [165]:
a[:, j]

array([[[ 2,  1],
        [ 3,  3]],

       [[ 6,  5],
        [ 7,  7]],

       [[10,  9],
        [11, 11]]])

可以把i和j放到序列中(比如说列表)然后通过list索引，但是不能把i和j放在一个数组中，因为这个数组将被解释成索引a的第一维

In [166]:
l = [i,j]
a[l]

array([[ 2,  5],
       [ 7, 11]])

可以使用数组索引作为目标来赋值，当一个索引列表包含重复时，赋值被多次完成，保留最后的值

In [172]:
a = np.arange(5)

In [173]:
a[[0,0,2]]=[1,2,3]

In [174]:
a

array([2, 1, 3, 3, 4])

In [170]:
a[[0,0,2]]=[1,2,3]

In [171]:
a

array([2, 1, 3, 3, 4])

如果你想用Python的+=结构，可能结果并非你所期望，即使0在索引列表中出现两次，索引为0的元素仅仅增加一次。这是因为Python要求a+=1和a=a+1等同

In [176]:
a = np.arange(5)

In [177]:
a[[0,0,2]]+=1

In [178]:
a

array([1, 1, 3, 3, 4])

In [184]:
r = xrange(3)

通过布尔数组索引的方法是不同的我们显式地选择数组中我们想要和不想要的元素

In [191]:
a = np.arange(12).reshape(3,4)

In [193]:
a > 4

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]], dtype=bool)

In [194]:
a[b]

array([ 5,  6,  7,  8,  9, 10, 11])

In [195]:
a[b] = 0

In [196]:
a

array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

##参考资料

- [python numpy教程](http://blog.chinaunix.net/uid-21633169-id-4408596.html)
- [Numpy示例](http://www.biochem-caflisch.uzh.ch/zhou/Numpy_Example_List_With_Doc.html)