# Numpy 数组及其索引

先导入numpy

In [4]:
from numpy import *

## 产生数组

从列表产生数组

In [5]:
lst = [0,1,2,3]
a = array(lst)
a

array([0, 1, 2, 3])

或者直接将列表传入

In [6]:
a = array([1,2,3,4])
a

array([1, 2, 3, 4])

## 数组属性

查看类型

In [7]:
type(a)

numpy.ndarray

查看数组中元素的数据类型

In [8]:
a.dtype

dtype('int64')

查看数组中每个元素所占用的字节

In [9]:
a.itemsize

8

查看形状，返回一个元组，每个元素代表这一维的元素数组：

In [10]:
a.shape

(4,)

或使用shape(a),shape(a)的使用要比a.shape久，而且还可以作用于别的类型

In [11]:
shape(lst)

(4,)

查看元素个数

In [12]:
a.size

4

查看所有元素所占用的空间

In [13]:
a.nbytes

32

事实上，数组所占用的存储空间要比这个数字大，因为要用一个header来保存shape，dtype这样的信息

查看数组维数

In [14]:
a.ndim

1

## 使用fill方法设定初始值

可以使用fill方法将数组设定指定值

In [15]:
a.fill(-4.8)
a

array([-4, -4, -4, -4])

但是与列表不同，数组中要求所有原始的dtype是一样的，如果传入参数的类型与数组类型不一致，需要按照已有的类型进行转换。

## 索引与切片

和列表相似，数组也支持索引和切片操作

索引第一个元素

In [16]:
a = array([0,1,2,3])
a[0]

0

修改第一个元素的值：

In [17]:
a[0] = 10
a

array([10,  1,  2,  3])

切片，支持负索引

In [18]:
a = array([11,12,13,14,15])
# 包含头，不包含尾
a[1:3]

array([12, 13])

In [19]:
a[1:-2]

array([12, 13])

In [20]:
a[-4:3]

array([12, 13])

省略参数：

In [21]:
a[::2]

array([11, 13, 15])

In [22]:
a[-2:]

array([14, 15])

假设我们记录一辆汽车仪表盘上每天显示的里程数：

In [23]:
od = array([500,540,600,680,1000])

# 可以这样计算每天的旅程

dist = od[1:] - od[:-1]
dist

array([ 40,  60,  80, 320])

## 多维数组及其属性

array 还可以用来生成多维数组：

In [24]:
a = array([[0,1,2,3],[10,11,12,13]])
a

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13]])

查看形状

In [25]:
a.shape
# (2,4) 这里的2代表行数，4代表列数

(2, 4)

查看总的元素个数：

In [26]:
# 2*4 = 8
a.size

8

查看维数

In [27]:
a.ndim

2

## 多维数组索引

对于二位数据，可以传入2个数组来索引

In [28]:
a[1,3]

13

其中1是行索引，3是列索引，中间用逗号隔开。

同样可以利用索引给它赋值：

In [29]:
a[1,3] = -1
a

array([[ 0,  1,  2,  3],
       [10, 11, 12, -1]])

事实上，我们还可以使用单个索引来索引一整行内容：返回某个行元组组成的array

In [30]:
a[1]

array([10, 11, 12, -1])

## 多维数组切片

In [31]:
a = array([[ 0, 1, 2, 3, 4, 5],
           [10,11,12,13,14,15],
           [20,21,22,23,24,25],
           [30,31,32,33,34,35],
           [40,41,42,43,44,45],
           [50,51,52,53,54,55]])
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

想得到第一行的第4和第5两个元素：

In [32]:
a[0,3:5]

array([3, 4])

得到最后两行的最后两列

In [33]:
a[4:,4:]

array([[44, 45],
       [54, 55]])

得到第三列

In [34]:
a[:,2]

array([ 2, 12, 22, 32, 42, 52])

得到第三行

In [35]:
a[2]
# 或者 a[2,:]

array([20, 21, 22, 23, 24, 25])

取出3，5行的奇数列。每一维度的切片规则，包括负索引，省略：[lower : upper : step]

In [36]:
a[2::2,::2]

array([[20, 22, 24],
       [40, 42, 44]])

## 切片是引用

切片在内存中使用的是引用机制

In [37]:
a = array([0,1,2,3,4])
b = a[2:4]
print b

[2 3]


引用机制意味着，python并没有为b分配新的内存空间来存储它的值，而是让b指向了a所分配的内存空间，因此，改变b会同时改变a的值。

In [38]:
b[0] = 10
a

array([ 0,  1, 10,  3,  4])

这种现象在列表中并不会出现：

In [39]:
a = [1,2,3,4,5]
b = a[2:4]
b[0] = 10
print a

[1, 2, 3, 4, 5]


这样做的好处在于，对于很大的数组，不用大量复制多余的值，节省了空间。

缺点在于，可能出现改变一个值导致另一个值改变的情况

一个解决方法是使用copy()方法产生一个复制，这个复制会申请新的内存空间：

In [40]:
a = array([1,2,3,4,5])
b = a[2:4].copy()
b[0] = 10
print a

[1 2 3 4 5]


## 花式索引

切片只能支持连续或等间隔的切片操作，要想实现任意位置的操作，需要使用花式索引 fancy slicing

### 一维花式索引

与range函数类似，我们可以使用 arange函数产生等差数组。

In [41]:
a = arange(0,80,10)
a

array([ 0, 10, 20, 30, 40, 50, 60, 70])

花式索引需要制定索引位置：

In [42]:
indices = [1,2,-3]
y = a[indices]
print y

[10 20 50]


还可以使用布尔数组来花式索引：

In [43]:
mask = array([0,1,1,0,0,1,0,0],dtype=bool)
a[mask]

array([10, 20, 50])

使用布尔表达式生成的mask，可以选出所有大于0.5的值：

In [44]:
from numpy.random import rand
a = rand(10)
print a

mask = a > 0.5
a[mask]

[0.15941392 0.80827325 0.02973306 0.65471783 0.92994128 0.82525121
 0.56728143 0.30449517 0.59774725 0.69516105]


array([0.80827325, 0.65471783, 0.92994128, 0.82525121, 0.56728143,
       0.59774725, 0.69516105])

### 二维花式索引

In [45]:
a = array([[ 0, 1, 2, 3, 4, 5],
           [10,11,12,13,14,15],
           [20,21,22,23,24,25],
           [30,31,32,33,34,35],
           [40,41,42,43,44,45],
           [50,51,52,53,54,55]])
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

对于二维花式索引，我们必须给定row和col的值,

In [46]:
# 返回的是一条次对角线上的5个值
a[(0,1,2,3,4),(1,2,3,4,5)]

array([ 1, 12, 23, 34, 45])

In [47]:
# 返回的是后三行的第1，3，5列
a[3:,[0,2,5]]

array([[30, 32, 35],
       [40, 42, 45],
       [50, 52, 55]])

In [48]:
mask = array([1,0,1,0,0,1],dtype=bool)
a[mask,2]

array([ 2, 22, 52])

### 不完全索引

只给定行索引的时候，返回整行：

In [49]:
y = a[:3]
y

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25]])

这时候也可以使用花式索引取出第2，3，5行：

In [52]:
condition = array([0,1,1,0,1,0],dtype=bool)
a[condition]

array([[10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [40, 41, 42, 43, 44, 45]])

## 三维花式索引

In [54]:
a = arange(64)
a.shape = 4,4,4
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31]],

       [[32, 33, 34, 35],
        [36, 37, 38, 39],
        [40, 41, 42, 43],
        [44, 45, 46, 47]],

       [[48, 49, 50, 51],
        [52, 53, 54, 55],
        [56, 57, 58, 59],
        [60, 61, 62, 63]]])

In [55]:
y = a[:,:,[2, -1]]
y

array([[[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]],

       [[18, 19],
        [22, 23],
        [26, 27],
        [30, 31]],

       [[34, 35],
        [38, 39],
        [42, 43],
        [46, 47]],

       [[50, 51],
        [54, 55],
        [58, 59],
        [62, 63]]])

## where 语句

where(array)

where 函数会返回所有非零元素的索引。

### 一维数组

先看一个例子

In [56]:
a = array([0, 12, 5, 20])

#判断数组元素是否大于0
a > 0 

array([False,  True,  True,  True])

数组中所有大于10的元素的索引位置：

In [57]:
where(a>0)

(array([1, 2, 3]),)

注意到 where 的返回值是一个元组。

使用元组是由于 where 可以对多维数组使用，此时返回值就是多维的。

在使用的时候，我们可以这样：

In [59]:
indices = where(a > 10)
indices = indices[0]
indices

# 下面的代码和上面的效果一致
#indices = where(a>10)[0]
#indices

array([1, 3])

可以直接用 where 的返回值进行索引：

In [60]:
loc = where(a > 10)
a[loc]

array([12, 20])

### 多维数组

In [62]:
a = array([[0, 12, 5, 20],
           [1, 2, 11, 15]])
loc = where(a > 10)
loc

(array([0, 0, 1, 1]), array([1, 3, 2, 3]))

返回结果是一个二维的元组，每一维代表这一维的索引值。

In [64]:
# 也可以直接用来索引a
a[loc]

array([12, 20, 11, 15])

In [65]:
# 也可以这样操作

rows, cols = where(a>10)
rows

array([0, 0, 1, 1])

In [66]:
cols

array([1, 3, 2, 3])

In [67]:
a[rows,cols]

array([12, 20, 11, 15])

再看另一个例子：

In [68]:
a = arange(25)
a.shape = 5,5
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [69]:
a > 12

array([[False, False, False, False, False],
       [False, False, False, False, False],
       [False, False, False,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True]])

In [70]:
where(a>12)

(array([2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4]),
 array([3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4]))