# Numpy 数组及其索引

In [71]:
import numpy as np

## 产生数组
生成list类型数据lst
生成numpy类型ａ

In [45]:
lst = [0, 1, 2, 3]
print(type(lst))
a = np.array(lst)
print(type(a))
b = np.array([[1.1,2,0],[3,4,0]])

<class 'list'>
<class 'numpy.ndarray'>


## 数组类型
查看数组中的数据类型
查看每个元素所占的字节

In [46]:
print(a.dtype)
print(b.dtype)
print(a.itemsize)

int64
float64
8


查看数组的形状  
a为１维数组  
b为２维数组

In [47]:
print(a.shape)
print(np.shape(a))
print(b.shape)
print(np.shape(b))

(4,)
(4,)
(2, 3)
(2, 3)


查看所有元素所占的空间

In [48]:
print(a.size)
print(b.size)
print(np.size(a))
print(np.size(b))

4
6
4
6


查看数组维数

In [49]:
print(a.ndim)
print(b.ndim)

1
2


## 使用fill方法将数组设为指定值
因为数组元素类型为int整形，所以赋值小数为转为整形

In [61]:
print(a.dtype)
a.fill(-3.2)
print(a)
print(b.dtype)
b.fill(-3.2)
print(b)

int64
[-3 -3 -3 -3]
float64
[[-3.2 -3.2 -3.2]
 [-3.2 -3.2 -3.2]]


## 索引与切片

In [64]:
a = np.array([1,2,3,4])
print(a)

[1 2 3 4]


修改元素值
numpy支持负索引

In [65]:
a[0] = 10.1
a[-3] = 5
print(a)

[10  5  3  4]


In [77]:
a = np.array([11,12,13,14,15])
print(a[1:3])
print(a[-4:3])
print(a[1:-2])

[12 13]
[12 13]
[12 13]


省略参数

In [86]:
print(a[::2])

[11 13 15]


数组从开始到结束以固定间隔索引  
在matlab中:start:interval:end  
在numpy中:start:end:interval


In [91]:
a = np.array(range(20))
print(a)
print(a[0:20:2])

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[ 0  2  4  6  8 10 12 14 16 18]


### 小实验
假设我们记录一辆车表盘上每天显示的里程数

In [93]:
s = np.array([1000, 1200, 1600, 1900])

可以这样计算每天的行程

In [95]:
dist = s[1:]-s[:-1]
print(dist)

[200 400 300]


## 多维数组及其属性
上面例子中我们展示使用array生产多维数组

In [115]:
a = np.array([[0,1,2,3],[4,5,6,7]])
print(a)

[[0 1 2 3]
 [4 5 6 7]]


实际上我们传入的是一个以列表为元素的列表，最终得到一个二维数组  
查看形状

In [116]:
print(a.shape)
print(np.shape(a))

(2, 4)
(2, 4)


显示为2行４列的一个数组  
查看元素个数

In [117]:
# 2*4 = 8
print(a.size)

8


## 多维数组索引
对于一个二维数组，可以使用一个二维坐标来进行索引

In [120]:
print(a[0,2])
print(a[-1,3])

2
7


可以使用索引进行赋值

In [119]:
a[0,0]=-1
print(a)

[[-1  1  2  3]
 [ 4  5  6  7]]


也可以索引整个若干行(列)

In [137]:
print(a[0])
# 第２列到第４列
print(a[:,1:3])

[0 1 2 3 4 5]
[[ 1  2]
 [11 12]
 [21 22]
 [31 32]
 [41 42]
 [51 52]]


## 多维数组的切片
多维数组也支持切片操作

In [132]:
a = np.array([[ 0, 1, 2, 3, 4, 5],
           [10,11,12,13,14,15],
           [20,21,22,23,24,25],
           [30,31,32,33,34,35],
           [40,41,42,43,44,45],
           [50,51,52,53,54,55]])
print(a)

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]


如果想得到某一区域的元素  
array[start:end,start:end]

In [136]:
#第３行到第４行的第３，４个元素
print(a[2:4,2:4])
#最后两行的最后两列
print(a[-2:,-2:])

[[22 23]
 [32 33]]
[[44 45]
 [54 55]]


## 注意:切片是引用
切片在内存中是引用机制，而不是将数据传入新配的内存

In [138]:
a = np.array(range(5))
b = a[2:4]
print(b)

[2 3]


引用只是将b指向了a的内存空间，因此改变b的等同于改变a的值

In [140]:
b[0] = 0
print(a)

[0 1 0 3 4]


但这种现象不会在列表中出现

In [145]:
a = [1,2,3,4,5]
b = a[2:4]
print(b)
b[0] = 0
print(b)
print(a)

[3, 4]
[0, 4]
[1, 2, 3, 4, 5]


这样做的好处是对于较大数据，不需要分配的内存减少了计算消耗，节省了内存空间。  
缺点在于多个数组可能指向同一数据，改变任意数组可能导致其他数组数据改变。  
解决方法,copy()，在赋值时给新数组分配新内存

In [154]:
a = np.array(range(7))
b = a[2:4].copy()
print(b)
b[0] = 0
print(a)
print(b)

[2 3]
[0 1 2 3 4 5 6]
[0 3]


## 花式索引
实现对任意位置的操作，需要花式索引
### 一维花式索引

In [157]:
a = np.arange(0, 100 ,10)
print(a)

[ 0 10 20 30 40 50 60 70 80 90]


花式索引需要指定索引的位置

In [159]:
indices = [1, 2, 5, -2 ,-1]
print(a[indices])

[10 20 50 80 90]


或者使用布尔数组进行索引，0表示忽略，1表示索引

In [162]:
mask = np.array([1,0,0,1,0,1,1,0,0,1],dtype=bool)
print(a[mask])

[ 0 30 50 60 90]


也可以使用bool表达式生成mask  
例如选取所有大于0.5的数字

In [170]:
a = np.random.rand(10)
print(a)

[ 0.96504598  0.15295698  0.26445384  0.4619709   0.52572226  0.51560983
  0.38841861  0.75424069  0.43369731  0.31252071]


In [176]:
mask = a > 0.5
print(mask)
print(a[mask])

[[False  True  True  True  True  True]
 [ True  True  True  True  True  True]
 [ True  True  True  True  True  True]
 [ True  True  True  True  True  True]
 [ True  True  True  True  True  True]
 [ True  True  True  True  True  True]]
[ 1  2  3  4  5 10 11 12 13 14 15 20 21 22 23 24 25 30 31 32 33 34 35 40 41
 42 43 44 45 50 51 52 53 54 55]


### 二维花式索引

In [252]:
a = np.array([[ 0, 1, 2, 3, 4, 5],
           [10,11,12,13,14,15],
           [20,21,22,23,24,25],
           [30,31,32,33,34,35],
           [40,41,42,43,44,45],
           [50,51,52,53,54,55]])
print(a)
print(a.shape)

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
(6, 6)


In [253]:
print(a[(1,2,3),(1,2,3)])
print(a[2:,[0,2,4]])

[11 22 33]
[[20 22 24]
 [30 32 34]
 [40 42 44]
 [50 52 54]]


## 注意
花式索引，是原对象的赋值，不是原对象的引用

In [199]:
a = np.array(range(6))
print(a)
print('------花式索引------')
y = a[[1,2,3]]
y.fill(-1)
print(y)
print(a)
print('------切片索引------')
y = a[1:4]
y.fill(-1)
print(y)
print(a)

[0 1 2 3 4 5]
------花式索引------
[-1 -1 -1]
[0 1 2 3 4 5]
------切片索引------
[-1 -1 -1]
[ 0 -1 -1 -1  4  5]


## where语句
where函数会返回所有非零元素的索引
### 一维数组

In [208]:
a = np.random.rand(4)
print(a)

[ 0.18276279  0.4748716   0.16517768  0.62557168]


数组中元素大于0.5的索引位置

In [216]:
print(a>0.5)
print(np.where(a>0.5))
print(type(np.where(a>0.5)))

[False False False  True]
(array([3]),)
<class 'tuple'>


注意到where返回的类型是一个元组turple  

In [222]:
indices = np.where(a>0.5)[0]
print(indices)
print(a[indices])

[3]
[ 0.62557168]


也可以使用where直接进行索引

In [225]:
location = np.where(a>0.5)
print(a[location])

[ 0.62557168]


## 多维数组

In [233]:
a = np.random.rand(4,5)
print(a)

[[ 0.03901135  0.15438678  0.44874162  0.46438602  0.74375583]
 [ 0.29772509  0.84149563  0.6893243   0.93644107  0.28812212]
 [ 0.64631469  0.06514558  0.17345463  0.65564309  0.34456764]
 [ 0.73624304  0.68655514  0.84729016  0.7118277   0.16397372]]


In [237]:
print(a>0.5)
print('----------------------------')
print(np.where(a>0.5))
print('----------------------------')
print(type(np.where(a>0.5)))

[[False False False False  True]
 [False  True  True  True False]
 [ True False False  True False]
 [ True  True  True  True False]]
----------------------------
(array([0, 1, 1, 1, 2, 2, 3, 3, 3, 3]), array([4, 1, 2, 3, 0, 3, 0, 1, 2, 3]))
----------------------------
<class 'tuple'>


返回的类型是元组turple,含有２个数组元素，第一数组保存行值，第二个数组保存列值。

In [241]:
t = np.where(a>0.5)
print(t[0])
print(t[1])

[0 1 1 1 2 2 3 3 3 3]
[4 1 2 3 0 3 0 1 2 3]


## 注意
where索引为花式索引，所以新的数据为原对象的复制而不是引用。

In [251]:
a = np.random.rand(3,3)
b = a[np.where(a>0.5)]
print(b)
b.fill(0)
print(b)
print(a)

[ 0.89366615  0.87535164  0.7845374   0.89471706  0.58197458  0.57773222]
[ 0.  0.  0.  0.  0.  0.]
[[ 0.89366615  0.87535164  0.27030508]
 [ 0.7845374   0.37279381  0.89471706]
 [ 0.58197458  0.57773222  0.40358351]]
