# 第12章 NumPy的高级应用

## ndarray对象的内部组成
- 一个指向数组（一个系统内存块）的指针
- dtype
- shape，一个表示数组形状的tuple
- 一个跨度tuple（stride）：其中的整数是指前进到当前维度下一个元素需要“跨过”的字节数

In [2]:
import numpy as np
np.ones([3,4,5],dtype=np.float64).strides # 3*4*5的float64(8个字节)数组，其跨度为(160,40,8)

(160, 40, 8)

## NumPy数据类型体系
dtype中每个大类都有很多小类，比如float类型有float16,float32,float64等等

![](http://opkojvmcy.bkt.clouddn.com/17-5-9/16644783-file_1494297850094_93db.png)

In [6]:
'''np.issubdtype()函数：判断是否属于该大类'''
arr_u=np.ones(10,dtype=np.uint16)
arr_f=np.ones(10,dtype=np.float32)
print(np.issubdtype(arr_u.dtype,np.integer))
print('------------------')
print(np.issubdtype(arr_f.dtype,np.floating))

True
------------------
True


In [7]:
'''dtype.mro()：查看其所有的父类'''
np.float64.mro()

[numpy.float64,
 numpy.floating,
 numpy.inexact,
 numpy.number,
 numpy.generic,
 float,
 object]

In [11]:
'''reshape()的参数形状的其中一维可以是-1'''
arr1=np.arange(12).reshape(3,-1) 
arr2=np.arange(12).reshape(-1,3)
print(arr1)
print(arr2)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [14]:
arr3=np.ones((3,4))
print(type(arr3.shape))
'''数组的shape属性是一个tuple，因此它可以被传入reshape()'''
print(arr2.reshape(arr3.shape))

<class 'tuple'>
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [17]:
'''扁平化(flattening)和散开(raveling)
    将多维数组转换为一维数组的运算过程，与reshape()相反的运算过程'''
arr4=np.arange(15).reshape((3,5))
print(arr4)
print(arr4.ravel()) #ravel不会产生源数据的副本
print(arr4.flatten()) #flatten总是返回数据的副本

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


## C顺序和Fortran顺序
默认情况下，NumPy数组是按行优先顺序创建的，即在一个二维数组中，每行中的数据项是被存放在相邻内存位置上的，这种顺序称为C顺序。

那么对于列优先顺序，每列中的数据项是被存放在相邻内存位置上的，也称为Fortran顺序

![](http://opkojvmcy.bkt.clouddn.com/17-5-9/49157095-file_1494309824544_aa1d.png)

In [42]:
'''np.concatenate()：数组的合并'''
arr5=np.array([[1,2,3],[4,5,6]])
arr6=np.array([[7,8,9],[10,11,12]])
'''2种相同的按行合并'''
print(np.vstack((arr5,arr6)))
print('--------------')
print(np.concatenate((arr5,arr6),axis=0))
print('--------------')
'''2种相同的按列合并'''
print(np.concatenate((arr5,arr6),axis=1))
print('--------------')
print(np.hstack((arr5,arr6)))

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
--------------
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
--------------
[[ 1  2  3  7  8  9]
 [ 4  5  6 10 11 12]]
--------------
[[ 1  2  3  7  8  9]
 [ 4  5  6 10 11 12]]


In [69]:
'''np.split()：数组的拆分'''
arr7=np.arange(10).reshape(5,2)
arr7
arr7_1,arr7_2,arr7_3=np.split(arr7,[1,3]) #参数[1,3]是指将数组分成[:1]、[1:3]、[3:]这3个部分
print(arr7_1)
print('--------------')
print(arr7_2)
print('--------------')
print(arr7_3)
#split的便捷化函数：hsplit(),vsplit(),dsplit()分别按轴0，轴1，轴2进行拆分

[[0 1]]
--------------
[[2 3]
 [4 5]]
--------------
[[6 7]
 [8 9]]


In [56]:
'''堆叠辅助类：r_和c_'''
arr8=np.arange(6)
arr8_re=arr8.reshape(3,2)
arr9=np.random.randn(3,2)
print(np.r_[arr8_re,arr9])
print('--------------')
print(np.c_[np.r_[arr8_re,arr9],arr8])

[[ 0.          1.        ]
 [ 2.          3.        ]
 [ 4.          5.        ]
 [-0.62619418  1.6035784 ]
 [-0.15972855 -0.56991538]
 [-1.29111223 -0.86017288]]
--------------
[[ 0.          1.          0.        ]
 [ 2.          3.          1.        ]
 [ 4.          5.          2.        ]
 [-0.62619418  1.6035784   3.        ]
 [-0.15972855 -0.56991538  4.        ]
 [-1.29111223 -0.86017288  5.        ]]


In [75]:
'''repeat()：元素的重复操作'''
arr10=np.arange(3)
#repeat()对数组各元素重复一定次数
print(arr10.repeat(4))
print(arr10.repeat([1,2,3]))

arr11=np.random.randn(2,2)
print(arr11)
print(arr11.repeat([1,2],axis=0))
print(arr11.repeat([2,3],axis=1))

[0 0 0 0 1 1 1 1 2 2 2 2]
[0 1 1 2 2 2]
[[ 0.88012001  0.4575871 ]
 [-1.13368118  0.17692973]]
[[ 0.88012001  0.4575871 ]
 [-1.13368118  0.17692973]
 [-1.13368118  0.17692973]]
[[ 0.88012001  0.88012001  0.4575871   0.4575871   0.4575871 ]
 [-1.13368118 -1.13368118  0.17692973  0.17692973  0.17692973]]


In [80]:
'''tile()：元素的堆叠操作'''
print(np.tile(arr10,3))
print(np.tile(arr10,[3,2])) #3行，每行堆叠2次

[0 1 2 0 1 2 0 1 2]
[[0 1 2 0 1 2]
 [0 1 2 0 1 2]
 [0 1 2 0 1 2]]


In [88]:
'''take()和put()：花式索引'''
arr12=np.arange(10)*100
ind1=[7,1,2,6]
print(arr12.take(ind))
arr12.put(ind,42)
print(arr12)
arr12.put(ind,[40,41,42,43])
print(arr12)
print('-------------')
arr13=np.arange(8).reshape(2,4)
print(arr13)
ind2=[2,0,2,1]
print(arr13.take(ind2,axis=1))

[700 100 200 600]
[  0  42  42 300 400 500  42  42 800 900]
[  0  41  42 300 400 500  43  40 800 900]
-------------
[[0 1 2 3]
 [4 5 6 7]]
[[2 0 2 1]
 [6 4 6 5]]


## 广播
一维数组在轴0上的广播

![](http://opkojvmcy.bkt.clouddn.com/17-5-9/99123301-file_1494320019173_e2fb.png)

二维数组在轴1上的广播

![](http://opkojvmcy.bkt.clouddn.com/17-5-9/67068264-file_1494320023356_fb08.png)

三维数组在轴0上的广播

![](http://opkojvmcy.bkt.clouddn.com/17-5-9/19394498-file_1494320027218_5b45.png)

In [103]:
arr14=np.arange(12).reshape(4,3)
print(arr14)
print('------------')
print(arr14.mean(0))
print(arr14.mean(1)) #mean(0)表示按列求均值，mean(1)表示按行求均值
print('------------')
print(arr14-arr14.mean(1).reshape(4,1))

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
------------
[ 4.5  5.5  6.5]
[  1.   4.   7.  10.]
------------
[[-1.  0.  1.]
 [-1.  0.  1.]
 [-1.  0.  1.]
 [-1.  0.  1.]]


In [113]:
'''二维数组转换为三维数组：通过np.newaxis属性和"全"切片来插入新轴'''
arr15=np.ones((4,4))
arr15_3d=arr15[:,np.newaxis,:]
arr15_3d.shape

(4, 1, 4)

In [114]:
col=np.array([0,0,0,0])
arr15[:]=col[:,np.newaxis]
arr15

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

## ufunc高级应用
以下的ufunc函数都是位于np.add、np.subtract、np.multiply等函数中

![](http://opkojvmcy.bkt.clouddn.com/17-5-9/29589870-file_1494321821790_86d.png)

In [117]:
'''np.add.reduce()：求和'''
arr16=np.arange(10)
print(np.add.reduce(arr16))
print(arr16.sum())

45
45


In [118]:
'''np.add.accumulate()功能上和cumsum()很像'''
arr17=np.arange(15).reshape(3,5)
np.add.accumulate(arr17,axis=1)

array([[ 0,  1,  3,  6, 10],
       [ 5, 11, 18, 26, 35],
       [10, 21, 33, 46, 60]], dtype=int32)

In [137]:
'''reduceat()用于计算"局部约简"，对数据各切片进行数据聚合  '''
arr18=np.arange(10)
np.multiply.reduceat(arr18,[0,5,8]) #在[0:5]、[5:8]、[8:]上元素执行乘积

array([  0, 210,  72], dtype=int32)

## 自定义ufunc
- numpy.frompyfunc
- numpy.vectorize

这两种函数在计算每个元素的时候都要执行一次Python函数调用，速度上比MunPy自带的基于C的ufunc慢很多。

In [140]:
def add_ufunc(x,y):
    return x+y
add_fpyf=np.frompyfunc(add_ufunc,2,1) #2表示输入2个参数，1表示输出1个参数
add_fpyf([1,2,3,4,5],[6,7,8,9,10])

array([7, 9, 11, 13, 15], dtype=object)

In [142]:
add_vec=np.vectorize(add_ufunc,otypes=[np.float64])
add_vec([1,2,3,4,5],[6,7,8,9,10])

array([  7.,   9.,  11.,  13.,  15.])

## 间接排序
给定一个或多个键，可以得到一个由整数组成的索引数组
- argsort()
- lexsort():可以一次性对多个键数组执行间接排序

通过kind参数设置排序算法

![](http://opkojvmcy.bkt.clouddn.com/17-5-9/40246873-file_1494337467683_96ac.png)

In [144]:
arr19=np.array([5,0,1,3,2])
ind3=arr19.argsort()
print(ind3) #索引值是数据在新顺序下的位置
print(arr19[ind3])

[1 2 4 3 0]
[0 1 2 3 5]


In [149]:
first_name=np.array(['Bob','Jane','Steve','Bill','Barbara'])
last_name=np.array(['Jones','Arnold','Arnold','Jones','Walters'])
sort_name=np.lexsort((first_name,last_name))
for i in zip(last_name[sort_name],first_name[sort_name]):
    print(i)

('Arnold', 'Jane')
('Arnold', 'Steve')
('Jones', 'Bill')
('Jones', 'Bob')
('Walters', 'Barbara')


In [150]:
'''np.searchsorted()：在有序数组中执行二分查找'''
arr20=np.array([0,1,7,12,15])
arr20.searchsorted(9)

3

In [151]:
arr20.searchsorted([0,2,8,11,14])

array([0, 2, 3, 3, 4], dtype=int64)

In [None]:
'''NumPy的matrix类'''
#x[1,:]选取1行
#x[:,1]选取1列 

## 性能建议
- 尽量使用广播
- 避免复制数据，尽量使用数组视图（即切片）
- 利用ufunc及其各种方法
- 将Python循环和条件逻辑转换为数组运算和布尔数组运算 

## 连续内存的重要性
数组的内存布局可以对计算速度造成极大的影响，运算过程中访问连续内存块（以C顺序存储的数组的行求和）一般是最快的

默认情况下，NumPy数组是以C型连续的方式创建的

In [153]:
arr_c=np.ones((5,5),order='c')
arr_c.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  UPDATEIFCOPY : False

In [154]:
arr_f=np.ones((5,5),order='f')
arr_f.flags

  C_CONTIGUOUS : False
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  UPDATEIFCOPY : False