| [03_data_science/02_Numpy索引.ipynb](https://github.com/shibing624/python-tutorial/blob/master/03_data_science/02_Numpy索引.ipynb)  | Numpy index索引  |[Open In Colab](https://colab.research.google.com/github/shibing624/python-tutorial/blob/master/03_data_science/02_Numpy索引.ipynb) |

# Numpy索引：index

In [1]:
import numpy as np

# 查看形状，会返回一个元组，每个元素代表这一维的元素数目：
a = np.array([1, 2, 3, 5])
# 1维数组，返回一个元组
a.shape

(4,)

In [2]:
# 查看元素数目：
a.size

4

使用fill方法设定初始值

可以使用 fill 方法将数组设为指定值：

In [3]:
print(a)
a.fill(-4)
print(a)

[1 2 3 5]
[-4 -4 -4 -4]


In [4]:
# 切片，支持负索引：
a = np.array([11, 12, 13, 14, 15])
print(a[1:-2])  # [12 13]

[12 13]


In [5]:
# 省略参数：
print(a[::2])  # [11 13 15]
print(a[-2:])  # array([14, 15])

[11 13 15]
[14 15]


假设我们记录一辆汽车表盘上每天显示的里程数：

In [6]:
rec = np.array([21000, 21180, 21240, 22100, 22400])
dist = rec[1:] - rec[:-1] # 后一天减去前一天的
dist

array([180,  60, 860, 300])

### 多维数组的索引

In [7]:
a = np.array([[1, 2, 3], [7, 8, 9]])
a

array([[1, 2, 3],
       [7, 8, 9]])

In [8]:
# 查看形状：
print(a.shape)

# 查看总的元素个数：
print(a.size)

# 查看维数：
print(a.ndim)

# 对于二维数组，可以传入两个数字来索引：
print(a[1, 1])

# 索引一整行内容：
print(a[0])

(2, 3)
6
2
8
[1 2 3]


多维数组的复杂一点的例子:

In [9]:
a = np.array([[0, 1, 2, 3, 4, 5],
               [10, 11, 12, 13, 14, 15],
               [20, 21, 22, 23, 24, 25],
               [30, 31, 32, 33, 34, 35],
               [40, 41, 42, 43, 44, 45],
               [50, 51, 52, 53, 54, 55]])

# 想得到第一行的第 4 和第 5 两个元素：
print(a[0, 3:5])  # [3 4]

# 得到最后两行的最后两列：
print(a[4:, 4:])  # [[44 45][54 55]]

# 得到第三列：
print(a[:, 2])  # [ 2 12 22 32 42 52]

[3 4]
[[44 45]
 [54 55]]
[ 2 12 22 32 42 52]


取出3，5行的奇数列：

In [10]:
b = a[2::2, ::2]
b

array([[20, 22, 24],
       [40, 42, 44]])

**切片在内存中使用的是引用机制**

引用机制意味着，Python并没有为 b 分配新的空间来存储它的值，
而是让 b 指向了 a 所分配的内存空间，因此，改变 b 会改变 a 的值：

In [11]:
a = np.array([0, 1, 2, 3, 4])
b = a[2:4]

b

array([2, 3])

In [12]:
b[0] = 10

b

array([10,  3])

In [13]:
a

array([ 0,  1, 10,  3,  4])

In [14]:
# 而这种现象在列表中并不会出现：
b = a[2:3]
b[0] = 12
print(a)

# 解决方法是使用copy()方法产生一个复制，这个复制会申请新的内存：
b = a[2:4].copy()
b[0] = 10
print(a, b)

[ 0  1 12  3  4]
[ 0  1 12  3  4] [10  3]


### 一维花式索引
与 range 函数类似，我们可以使用 arange 函数来产生等差数组。

In [15]:
a = np.arange(0, 80, 10)
a

array([ 0, 10, 20, 30, 40, 50, 60, 70])

In [16]:
# 花式索引需要指定索引位置：
indices = [1, 2, -3]
y = a[indices]

y

array([10, 20, 50])

In [17]:
# 还可以使用布尔数组来花式索引：
mask = np.array([0, 1, 1, 0, 0, 1, 0, 1], dtype=bool)
a[mask]  # [10 20 50 70]

array([10, 20, 50, 70])

选出了所有大于0.5的值：

In [18]:
from numpy.random import rand

a = rand(10)
a

array([0.68881917, 0.94978704, 0.20051132, 0.7950809 , 0.20974509,
       0.28850105, 0.48678931, 0.21979243, 0.22952482, 0.49433356])

In [19]:
mask = a > 0.5
a[mask]

array([0.68881917, 0.94978704, 0.7950809 ])

### “不完全”索引
只给定行索引的时候，返回整行：

In [20]:
a = np.array([[0, 1, 2, 3, 4, 5],
           [10, 11, 12, 13, 14, 15],
           [20, 21, 22, 23, 24, 25],
           [30, 31, 32, 33, 34, 35],
           [40, 41, 42, 43, 44, 45],
           [50, 51, 52, 53, 54, 55]])
b = a[:3]
b

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25]])

In [21]:
# 这时候也可以使用花式索引取出第2，3，5行：
condition = np.array([0, 1, 1, 0, 1, 0], dtype=bool)
c = a[condition]
c

array([[10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [40, 41, 42, 43, 44, 45]])

### where语句

where(array)

where 函数会返回所有非零元素的索引。

In [22]:
a = np.array([1, 2, 4, 6])
a > 2  # [False False  True  True]

array([False, False,  True,  True])

In [23]:
b = np.where(a > 2)
b # 返回的是索引位置

(array([2, 3]),)

In [24]:
# 注意到 where 的返回值是一个元组。
index = np.where(a > 2)[0]
print(index)  # [2 3]

# 可以直接用 where 的返回值进行索引：
loc = np.where(a > 2)
b = a[loc]
print(b)  # [4 6]

[2 3]
[4 6]


考虑二维数组：

In [25]:
a = np.array([[0, 12, 5, 20],
           [1, 2, 11, 15]])
loc = np.where(a > 10)
print(loc)  # (array([0, 0, 1, 1]), array([1, 3, 2, 3]))

# 也可以直接用来索引a：
b = a[loc]
print(b)  # [12 20 11 15]

(array([0, 0, 1, 1]), array([1, 3, 2, 3]))
[12 20 11 15]


或者可以这样：

In [26]:
rows, cols = np.where(a > 10)
print(rows)
print(cols)
print(a[rows, cols])

[0 0 1 1]
[1 3 2 3]
[12 20 11 15]


例子：

In [27]:
a = np.arange(20)
a.shape = 5, 4
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [28]:
a > 12

array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [29]:
b = np.where(a > 12)
b
# (array([3, 3, 3, 4, 4, 4, 4]), array([1, 2, 3, 0, 1, 2, 3]))

(array([3, 3, 3, 4, 4, 4, 4]), array([1, 2, 3, 0, 1, 2, 3]))

In [30]:
a[b]  # [13 14 15 16 17 18 19]

array([13, 14, 15, 16, 17, 18, 19])

本节完。