# Numpy 数组及其索引

In [2]:
from numpy import *

## 产生数组

In [3]:
a = array([1, 2, 3, 4])
a

array([1, 2, 3, 4])

## 数组属性

In [4]:
# 查看类型
type(a)

numpy.ndarray

In [5]:
# 查看数组中的数据类型
a.dtype

dtype('int32')

In [6]:
# 每个元素所占字节
a.itemsize

4

In [7]:
# 查看形状，会返回一个元组，每个元素代表这一维的元素数目：
a.shape

(4,)

In [8]:
shape(a)

(4,)

In [9]:
shape([1, 2, 3, 4])

(4,)

In [10]:
# 元素数目
a.size

4

In [11]:
# 查看所有元素所占的空间
a.nbytes

16

但事实上，数组所占的存储空间要比这个数字大，因为要用一个header来保存shape，dtype这样的信息。

In [12]:
# 数组维数
a.ndim

1

## 使用fill方法设定初始值

In [13]:
a.fill(-2.2)
a

array([-2, -2, -2, -2])

但是与列表不同，数组中要求所有元素的 dtype 是一样的，如果传入参数的类型与数组类型不一样，需要按照已有的类型进行**转换**。

## 索引与切片

In [14]:
a = array([1, 2, 3, 4])
a

array([1, 2, 3, 4])

In [15]:
a[0]

1

In [16]:
a[0] = 9
a

array([9, 2, 3, 4])

In [17]:
b = a
b[0] = 1 
a

array([1, 2, 3, 4])

In [18]:
a[:]

array([1, 2, 3, 4])

In [21]:
a[1:,]

array([2, 3, 4])

In [22]:
a[:-2]

array([1, 2])

In [24]:
a[::2]

array([1, 3])

假设我们记录一辆汽车表盘上每天显示的里程数：

In [25]:
od = array([21000, 21180, 21240, 22100, 22400])

可以这样计算每天的旅程：

In [27]:
dist = od[1:] - od[:-1]
dist

array([180,  60, 860, 300])

## 多维数组及其属性

In [28]:
a = array([[1, 2, 3, 4],
          [10, 11, 12, 13]])
a

array([[ 1,  2,  3,  4],
       [10, 11, 12, 13]])

In [29]:
a.shape

(2, 4)

In [30]:
a.size

8

In [31]:
a.ndim

2

## 多维数组索引

In [32]:
a[1, 3]

13

In [33]:
a[1, 3] = -1
a

array([[ 1,  2,  3,  4],
       [10, 11, 12, -1]])

In [34]:
a[1]

array([10, 11, 12, -1])

## 多维数组切片

In [35]:
a = array([[ 0, 1, 2, 3, 4, 5],
           [10,11,12,13,14,15],
           [20,21,22,23,24,25],
           [30,31,32,33,34,35],
           [40,41,42,43,44,45],
           [50,51,52,53,54,55]])
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

In [36]:
a[0, 3:5]

array([3, 4])

In [39]:
a[-2:, -2:] #最后两行最后两列

array([[44, 45],
       [54, 55]])

In [43]:
a[:, 2] #第三列

array([ 2, 12, 22, 32, 42, 52])

In [46]:
a[2::2 , ::2] #取出3，5行的奇数列

array([[20, 22, 24],
       [40, 42, 44]])

## 切片是引用

切片在内存中使用的是引用机制

In [64]:
a = array([1, 2, 3, 4, 5])
b = a
print(b)
print(id(a))
print(id(b))

[1 2 3 4 5]
2060622655536
2060622655536


引用机制意味着，Python并没有为 b 分配新的空间来存储它的值，而是让 b 指向了 a 所分配的内存空间，因此，改变 b 会改变 a 的值：

In [71]:
b[0] = 9
a

array([9, 2, 3, 4, 5])

In [76]:
c = a[2:4]
print(c)

[1 4]


In [77]:
c[0] = 1
a

array([1, 2, 1, 4, 5])


这样做的好处在于，对于很大的数组，不用大量复制多余的值，节约了空间。

缺点在于，可能出现改变一个值改变另一个值的情况。

一个解决方法是使用copy()方法产生一个复制，这个复制会申请新的内存：

In [78]:
a = array([1, 2, 3, 4, 5])
b = a[2:4].copy()
b[0] = 10
a

array([1, 2, 3, 4, 5])

copy方法是一种**浅copy**，对于浅copy来说，第一层创建的是新的内存地址。而从第二层开始，指向的是同一个内存地址，所有，对于第二层以及更深的层数来说，保持一致性。

In [89]:
l = [1, 2, [3, 4], 5]
l2 = l.copy()
l2[2].append(10)
l2.append(100)
print(l)
print(l2)

[1, 2, [3, 4, 10], 5]
[1, 2, [3, 4, 10], 5, 100]


深copy **copy.deepcopy()**

对于深copy来说，两个是完全独立的，改变任意一个的元素（无论是多少层），另一个绝不会改变。


In [94]:
import copy
l = [1, 2, [3, 4], 5]
l2 = copy.deepcopy(l)
l2[2].append(10)
l2.append(100)
print(l)
print(l2)

[1, 2, [3, 4], 5]
[1, 2, [3, 4, 10], 5, 100]


## 花式索引

切片只能支持连续或者等间隔的切片操作，要想实现任意位置的操作，需要使用花式索引 fancy slicing 。

### 一维花式索引


与 range 函数类似，我们可以使用 arange 函数来产生等差**数组**。

range生成的是**序列**，arange生成的是**数组**

    函数说明： range(start, stop[, step])

In [95]:
a = arange(0, 100, 10)
a

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

花式索引需要指定索引位置：

In [96]:
indices = [1, 2, -3]
y = a[indices]
y

array([10, 20, 70])

还可以使用布尔数组来花式索引：

In [97]:
mask = array([0,1,1,0,0,1,1,0,1,0], dtype=bool)
a[mask]

array([10, 20, 50, 60, 80])

选出了所有大于50的值：

In [98]:
mask = a > 50
mask

array([False, False, False, False, False, False,  True,  True,  True,  True], dtype=bool)

In [99]:
a[mask]

array([60, 70, 80, 90])

## 二维花式索引

In [100]:
a = array([[ 0, 1, 2, 3, 4, 5],
           [10,11,12,13,14,15],
           [20,21,22,23,24,25],
           [30,31,32,33,34,35],
           [40,41,42,43,44,45],
           [50,51,52,53,54,55]])
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

对于二维花式索引，我们需要给定 row 和 col 的值：

In [102]:
a[(1,3,4,5), (0,2,3,4)]

array([10, 32, 43, 54])

In [103]:
a[3:, [0,2,5]]

array([[30, 32, 35],
       [40, 42, 45],
       [50, 52, 55]])

也可以采用布尔数组

In [105]:
mask = array([1,0,1,0,0,1],
            dtype=bool)
a[mask, 2]

array([ 2, 22, 52])

与切片不同，花式索引返回的是原对象的一个**复制**而不是引用。

### “不完全”索引

In [107]:
y = a[:3]
y

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25]])

In [110]:
# 使用花式索引取出第2，3，5行
condition = array([0,1,1,0,1,0],
                 dtype=bool)
a[condition]

array([[10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [40, 41, 42, 43, 44, 45]])

### 三维花式索引

In [112]:
a = arange(64)
a.shape = (4, 4, 4)
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31]],

       [[32, 33, 34, 35],
        [36, 37, 38, 39],
        [40, 41, 42, 43],
        [44, 45, 46, 47]],

       [[48, 49, 50, 51],
        [52, 53, 54, 55],
        [56, 57, 58, 59],
        [60, 61, 62, 63]]])

In [113]:
y = a[:, :, [2, -1]]
y

array([[[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]],

       [[18, 19],
        [22, 23],
        [26, 27],
        [30, 31]],

       [[34, 35],
        [38, 39],
        [42, 43],
        [46, 47]],

       [[50, 51],
        [54, 55],
        [58, 59],
        [62, 63]]])

## where语句
    
    where(array)
    
where 函数会返回所有非零元素的索引。

### 一维数组

In [114]:
a = arange(5)
a

array([0, 1, 2, 3, 4])

In [115]:
a > 3

array([False, False, False, False,  True], dtype=bool)

In [116]:
where(a > 1)

(array([2, 3, 4], dtype=int64),)

注意到 where 的返回值是一个**元组**。

使用元组是由于 where 可以对多维数组使用，此时返回值就是多维的。

在使用的时候，我们可以这样：

In [120]:
indices = where(a > 1)
indices = indices[0]
indices

array([2, 3, 4], dtype=int64)

In [121]:
a[where(a > 1)]

array([2, 3, 4])

## 多维数组

In [122]:
a = array([[0, 12, 5, 20],
           [1, 2, 11, 15]])
loc = where(a > 10)
loc

(array([0, 0, 1, 1], dtype=int64), array([1, 3, 2, 3], dtype=int64))

In [123]:
a[loc] #得到的是一维的

array([12, 20, 11, 15])

In [125]:
rows, cols = loc
print(rows)
print(cols)

[0 0 1 1]
[1 3 2 3]


In [127]:
a[rows, cols]

array([12, 20, 11, 15])

In [128]:
a = arange(25)
a.shape = 5,5
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [129]:
where(a > 11)

(array([2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4], dtype=int64),
 array([2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4], dtype=int64))