<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#NumPy高级应用" data-toc-modified-id="NumPy高级应用-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>NumPy高级应用</a></span><ul class="toc-item"><li><span><a href="#NumPy数据类型体系" data-toc-modified-id="NumPy数据类型体系-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>NumPy数据类型体系</a></span></li><li><span><a href="#高级数组操作" data-toc-modified-id="高级数组操作-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>高级数组操作</a></span><ul class="toc-item"><li><span><a href="#数组重塑" data-toc-modified-id="数组重塑-1.2.1"><span class="toc-item-num">1.2.1&nbsp;&nbsp;</span>数组重塑</a></span></li><li><span><a href="#C和Fortran顺序" data-toc-modified-id="C和Fortran顺序-1.2.2"><span class="toc-item-num">1.2.2&nbsp;&nbsp;</span>C和Fortran顺序</a></span></li><li><span><a href="#数组的组合和拆分" data-toc-modified-id="数组的组合和拆分-1.2.3"><span class="toc-item-num">1.2.3&nbsp;&nbsp;</span>数组的组合和拆分</a></span><ul class="toc-item"><li><span><a href="#堆叠辅助类:-r_和c_" data-toc-modified-id="堆叠辅助类:-r_和c_-1.2.3.1"><span class="toc-item-num">1.2.3.1&nbsp;&nbsp;</span>堆叠辅助类: r_和c_</a></span></li></ul></li><li><span><a href="#元素的重复操作:-tile和repeat" data-toc-modified-id="元素的重复操作:-tile和repeat-1.2.4"><span class="toc-item-num">1.2.4&nbsp;&nbsp;</span>元素的重复操作: tile和repeat</a></span></li><li><span><a href="#花式索引的等价函数:-take和put" data-toc-modified-id="花式索引的等价函数:-take和put-1.2.5"><span class="toc-item-num">1.2.5&nbsp;&nbsp;</span>花式索引的等价函数: take和put</a></span></li></ul></li><li><span><a href="#广播" data-toc-modified-id="广播-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>广播</a></span><ul class="toc-item"><li><span><a href="#通过广播设置数组的值" data-toc-modified-id="通过广播设置数组的值-1.3.1"><span class="toc-item-num">1.3.1&nbsp;&nbsp;</span>通过广播设置数组的值</a></span></li></ul></li><li><span><a href="#ufunc高级应用" data-toc-modified-id="ufunc高级应用-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>ufunc高级应用</a></span><ul class="toc-item"><li><span><a href="#ufunc实例方法" data-toc-modified-id="ufunc实例方法-1.4.1"><span class="toc-item-num">1.4.1&nbsp;&nbsp;</span>ufunc实例方法</a></span></li><li><span><a href="#自定义ufunc" data-toc-modified-id="自定义ufunc-1.4.2"><span class="toc-item-num">1.4.2&nbsp;&nbsp;</span>自定义ufunc</a></span></li></ul></li></ul></li></ul></div>

In [1]:
# 科学计算用
import numpy as np
from pandas import Series,DataFrame
import pandas as pd

# NumPy高级应用

## NumPy数据类型体系

偶尔需要检查数组中所包含的是否是整数, 浮点数, 字符串或python对象. 

因为浮点数的种类很多, 判断dtype是否属于某个大类的工作非常繁琐. 

幸运的是, dtype都有一个超类, 它们可以跟np.issubdtype函数结合使用:

In [2]:
ints = np.ones(10, dtype=np.uint16)
floats = np.ones(10, dtype=np.float32)

In [3]:
np.issubdtype(ints.dtype, np.integer)    # 返回True

True

In [4]:
np.issubdtype(floats.dtype, np.floating)    # 返回True

True

In [5]:
# 调用dtype的mro方法可以查看其所有的父类
np.float64.mro()

[numpy.float64,
 numpy.floating,
 numpy.inexact,
 numpy.number,
 numpy.generic,
 float,
 object]

## 高级数组操作

除花式索引, 切片, bool条件取子集等操作外, 数组的操作方式还有很多. 

虽然pandas中的高级函数可以处理数据分析工作中的许多重型任务, 但有时还是需要编写一些在现有库中找不到的数据算法.

### 数组重塑

鉴于已经学习了有关Numpy数组的知识, 只需向数组的实例方法reshape传入一个表示新形状的元组，即可实现数组从一个形状转换为另一个形状.

In [6]:
# 假设有一个一维数组, 希望将其重新排列为一个矩阵:
arr = np.arange(8)
arr.reshape((4, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [7]:
# 多维数组也可以重塑
arr.reshape((4, 2)).reshape((2, 4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [8]:
# 作为参数的形状的其中一维可以是-1, 表示该维度的大小有数据本身推断而来
arr = np.arange(15)
arr.reshape((5, -1))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [9]:
# 数组的shape属性是一个元组, 因此它也可以被传入reshape
other_arr = np.ones((3, 5))
arr.reshape(other_arr.shape)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

与reshape将一维数组转换为多维数组的运算过程相反的运算，通常称为扁平化(flattening)或散开(raveling):

In [10]:
arr = np.arange(15).reshape((5, 3))
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [11]:
# 如果没有必要, ravel不会产生副本. flatten方法的行为和ravel类似, 只是它总是返回数据的副本:
arr.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### C和Fortran顺序

与其他科学计算环境相反(如R或MATLAB), Numpy允许你更为灵活地控制数据在内存中的布局. 

默认情况下, Numpy数组是按行优先顺序创建的. 在空间方面, 这就意味着, 对于一个二维数组, 每行中的数据项是被存放在相邻的内存位置上的. 

另一种顺序是列优先顺序, 它意味着每列中的数据项是被存放在相邻内存位置上的.

像reshape和reval这样的函数, 都可以接受一个表示数组数据存放顺序的order参数. 一般可以是'C'或'F':

In [12]:
arr = np.arange(12).reshape((3, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [13]:
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [14]:
arr.ravel('F')

array([ 0,  4,  8,  1,  5,  9,  2,  6, 10,  3,  7, 11])

<img src='pic\按C或F顺序进行重塑.png' width = 50%>

### 数组的组合和拆分

numpy.concatenate可以按指定轴，将一个由数组组成的序列(如元组, 列表等)连接到一起:

In [15]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[7, 8, 9], [10, 11, 12]])

In [16]:
np.concatenate([arr1, arr2], axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [17]:
np.concatenate([arr1, arr2], axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [18]:
# 常见的连接操作, Numpy提供了一些较为方便的方法
np.vstack((arr1, arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [19]:
np.hstack((arr1, arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [20]:
# 与此相反, split用于将一个数组沿着指定轴拆分为多个数组
arr = np.random.randn(5, 2)
first, second, third = np.split(arr, [1, 3])

In [21]:
arr

array([[ 0.64665482,  0.61791312],
       [ 1.4868348 ,  1.15727568],
       [ 0.73211512, -0.87646589],
       [-2.73713506,  2.83094618],
       [ 0.03733766, -0.15158783]])

In [22]:
first

array([[0.64665482, 0.61791312]])

In [23]:
second

array([[ 1.4868348 ,  1.15727568],
       [ 0.73211512, -0.87646589]])

In [24]:
third

array([[-2.73713506,  2.83094618],
       [ 0.03733766, -0.15158783]])

<img src='pic\数组连接函数.png'>

#### 堆叠辅助类: r\_和c\_

In [25]:
# Numpy明明空间中有两个特殊的对象: r_和 c_, 它们可以使数组的堆叠操作更为简洁:
arr = np.arange(6)
arr1 = arr.reshape((3, 2))
arr2 = np.random.randn(3, 2)
np.r_[arr1, arr2]

array([[ 0.        ,  1.        ],
       [ 2.        ,  3.        ],
       [ 4.        ,  5.        ],
       [ 1.29187739, -1.27957634],
       [ 0.56625057, -0.9250551 ],
       [ 0.18208191,  0.30008062]])

In [26]:
np.c_[np.r_[arr1, arr2], arr]

array([[ 0.        ,  1.        ,  0.        ],
       [ 2.        ,  3.        ,  1.        ],
       [ 4.        ,  5.        ,  2.        ],
       [ 1.29187739, -1.27957634,  3.        ],
       [ 0.56625057, -0.9250551 ,  4.        ],
       [ 0.18208191,  0.30008062,  5.        ]])

In [27]:
# 将切片翻译成数组
np.c_[1:6, -10:-5]

array([[  1, -10],
       [  2,  -9],
       [  3,  -8],
       [  4,  -7],
       [  5,  -6]])

### 元素的重复操作: tile和repeat

对数组进行重复以产生更大数组的工具主要是repeat和tile两个函数.

repeat会将数组中的各个元素重复一定次数, 从而产生一个更大的数组:

In [28]:
arr = np.arange(3)
arr.repeat(3) # 默认情况下, 如果传入的是一个整数, 则各个元素都会重复那么多次. 

array([0, 0, 0, 1, 1, 1, 2, 2, 2])

In [29]:
# 如果传入的是一个数组, 则各个元素就可以重复不同的次数
arr.repeat([2, 3, 4])

array([0, 0, 1, 1, 1, 2, 2, 2, 2])

In [30]:
# 对于多维数组, 还可以让它们的元素沿指定轴重复
arr = np.random.randn(2, 2)
arr.repeat(2, axis=0)    # 注意, 如果未指定轴, 数据将会扁平化

array([[-0.46895585, -0.00266972],
       [-0.46895585, -0.00266972],
       [-0.26513008,  2.22460992],
       [-0.26513008,  2.22460992]])

In [31]:
# 同样可以对多维数组传入数组, 对各个元素进行不同次数的重复
arr.repeat([2, 3], axis=0)

array([[-0.46895585, -0.00266972],
       [-0.46895585, -0.00266972],
       [-0.26513008,  2.22460992],
       [-0.26513008,  2.22460992],
       [-0.26513008,  2.22460992]])

In [32]:
arr.repeat([2, 3], axis=1)

array([[-0.46895585, -0.46895585, -0.00266972, -0.00266972, -0.00266972],
       [-0.26513008, -0.26513008,  2.22460992,  2.22460992,  2.22460992]])

tile的功能是沿指定轴堆叠数组的副本. 可以把它想象成"铺瓷砖"

In [33]:
np.tile(arr, 2)    # 第二个参数是数量.

array([[-0.46895585, -0.00266972, -0.46895585, -0.00266972],
       [-0.26513008,  2.22460992, -0.26513008,  2.22460992]])

In [34]:
# 对于标量, 瓷砖是水平铺设的, 而不是垂直的. 它可以是一个表示"铺设"布局的元组
np.tile(arr, (2, 1))

array([[-0.46895585, -0.00266972],
       [-0.26513008,  2.22460992],
       [-0.46895585, -0.00266972],
       [-0.26513008,  2.22460992]])

In [35]:
np.tile(arr, (3, 2))

array([[-0.46895585, -0.00266972, -0.46895585, -0.00266972],
       [-0.26513008,  2.22460992, -0.26513008,  2.22460992],
       [-0.46895585, -0.00266972, -0.46895585, -0.00266972],
       [-0.26513008,  2.22460992, -0.26513008,  2.22460992],
       [-0.46895585, -0.00266972, -0.46895585, -0.00266972],
       [-0.26513008,  2.22460992, -0.26513008,  2.22460992]])

### 花式索引的等价函数: take和put

第四章的时候讲过, 获取和设置数组子集的一个办法是通过整数数组使用花式索引:

In [36]:
arr = np.arange(10) * 100
arr

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [37]:
inds = [7, 1, 2, 6]
arr[inds]

array([700, 100, 200, 600])

In [38]:
# ndarray有2个方法专门用于获取和设置单个轴上的选区
arr.take(inds)

array([700, 100, 200, 600])

In [39]:
arr.put(inds, 42, mode='clip')

In [40]:
arr

array([  0,  42,  42, 300, 400, 500,  42,  42, 800, 900])

In [41]:
arr.put(inds, [40, 41, 42, 43])

In [42]:
arr

array([  0,  41,  42, 300, 400, 500,  43,  40, 800, 900])

In [43]:
# 在其他轴上使用take, 需要传入axis=1
inds = [2, 0, 2, 1]
arr = np.random.randn(2, 4)
arr

array([[-0.90342222, -0.05058794,  0.52071372,  0.48771673],
       [-1.28098135, -0.21970055, -0.69282462, -0.68136657]])

In [44]:
arr.take(inds, axis=1)

array([[ 0.52071372, -0.90342222,  0.52071372, -0.05058794],
       [-0.69282462, -1.28098135, -0.69282462, -0.21970055]])

put不接受axis参数, 它只会在数组的扁平化版本上进行索引. 因此, 在需要用其他轴上的索引设置元素时, 最好使用花式索引

## 广播

广播(broadcasting)指的是不同形状的数组之间的算术运算的执行方式.

它是一种非常强大的功能, 但也容易令人误解, 即使是经验丰富的老手也是如此.

将标量值跟数组合并时就会发生最简单的广播:

In [45]:
arr = np.arange(5)
arr * 4 # 这里, 标量值4被广播到了其他所有元素上.

array([ 0,  4,  8, 12, 16])

还可以通过减去列平均值的方式对数组的每一列进行距平化处理:

In [46]:
arr = np.random.randn(4, 3)
demeaned = arr - arr.mean(axis = 0)
demeaned

array([[ 1.13565435, -1.1861969 ,  0.90768698],
       [ 0.78912535,  0.40146557, -0.34616621],
       [-1.48844256,  0.55828244, -0.95761459],
       [-0.43633715,  0.22644889,  0.39609382]])

In [47]:
demeaned.mean(axis = 0).astype(np.int32)

array([0, 0, 0])

<img src='pic\一维数组在轴0上的广播.png' width = 50%>
<img src='pic\广播的原则.png' width = 50%>

由于arr.mean(0)的长度为3, 所以它可以在0轴上进行广播: 因为arr的后缘维度为3, 所以它们是兼容的.

根据该原则, 要在轴1上做减法, 较小的那个数组的形状必须是(4, 1):

In [48]:
row_means = arr.mean(1)
row_means.reshape((4, 1))

array([[ 0.1240123 ],
       [ 0.11977239],
       [-0.79096075],
       [-0.09963399]])

In [49]:
demeaned = arr - row_means.reshape((4, 1))
demeaned.mean(1).astype(np.int32)

array([0, 0, 0, 0])

<img src='pic\二维数组在轴1上的广播.png' width = 50%>
<img src='pic\三维数组在轴0上的广播.png' width = 50%>

### 通过广播设置数组的值

In [50]:
arr = np.zeros((4, 3))
arr[:] = 5
arr

array([[5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.]])

In [51]:
col = np.array([1.28, -0.42, 0.44, 1.6])
arr[:] = col[:, np.newaxis] # np.newaxis 在使用和功能上等价于 None，其实就是 None 的一个别名。
arr

array([[ 1.28,  1.28,  1.28],
       [-0.42, -0.42, -0.42],
       [ 0.44,  0.44,  0.44],
       [ 1.6 ,  1.6 ,  1.6 ]])

In [52]:
arr[:2] = [[-1.37], [0.509]]
arr

array([[-1.37 , -1.37 , -1.37 ],
       [ 0.509,  0.509,  0.509],
       [ 0.44 ,  0.44 ,  0.44 ],
       [ 1.6  ,  1.6  ,  1.6  ]])

## ufunc高级应用

虽然许多Numpy用户只会用到通用函数所提供的快速的元素级运算, 

但通用函数实际上还有一些高级用法能使用户丢开循环而编写出更简洁的代码.

### ufunc实例方法

ufunc函数: ufunc是universal function（通用函数）的缩写，它是一种能对数组的每个元素进行操作的函数。

NumPy内置的许多ufunc函数都是在C语言级别实现的，因此它们的计算速度非常快。

Numpy的各个二元ufunc都有一些用于执行特定矢量化运算的特殊方法.

In [53]:
# reduce接受一个数组参数, 并通过一系列的二元运算对其值进行聚合, 
# 例如: 利用np.add.reduce对数组中各个元素进行求和
arr = np.arange(10)
np.add.reduce(arr)

45

In [54]:
arr.sum()

45

起始值取决于ufunc(对于add的情况, 默认是0). 如果设置了轴, 简约运算就会沿轴执行. 这就使得能用一种比较简洁的方式得到某些问题的答案. 

In [55]:
# 下面用np.logical_and检查数组各行中的值是否是有序的:
arr = np.random.randn(5, 5)
arr[::2].sort(1) # 对部分行进行排序

In [56]:
arr[:, :-1] < arr[:, 1:]

array([[ True,  True,  True,  True],
       [False,  True, False,  True],
       [ True,  True,  True,  True],
       [False,  True,  True, False],
       [ True,  True,  True,  True]])

In [57]:
np.logical_and.reduce(arr[:, :-1] < arr[:, 1:], axis=1)    # 和all方法是等价的

array([ True, False,  True, False,  True])

accumulate跟reduce的关系就像cumsum跟sum的关系. 它产生一个跟原数组大小相同的中间"累计"值数组:

In [58]:
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [59]:
np.add.accumulate(arr, axis=1)

array([[ 0,  1,  3,  6, 10],
       [ 5, 11, 18, 26, 35],
       [10, 21, 33, 46, 60]], dtype=int32)

outer用于计算两个数组的叉积:

In [60]:
arr = np.arange(3).repeat([1, 2, 2])
arr

array([0, 1, 1, 2, 2])

In [61]:
np.multiply.outer(arr, np.arange(5))

array([[0, 0, 0, 0, 0],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 2, 4, 6, 8],
       [0, 2, 4, 6, 8]])

In [62]:
# outer输出的结果的维度是两个输入数据的维度之和
from numpy.random import randn
result = np.subtract.outer(randn(3, 4), randn(5))
result.shape

(3, 4, 5)

最后一个方法reduceat用于计算"局部约简", 其实就是一个对数据各切片进行聚合的groupby操作. 

虽然灵活性不如pandas的groupby功能, 但它在适当的情况下运算非常快. 

它接受一组用于指示如何对值进行拆分和聚合的"面元边界":

In [63]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [64]:
np.add.reduceat(arr, [0, 5, 8]) # 最终结果是在arr[0:5]、arr[5:8]以及arr[8:]上执行的约简。

array([10, 18, 17], dtype=int32)

In [65]:
# 跟其他方法一样，这里也可以传入一个axis参数：
arr = np.multiply.outer(np.arange(4), np.arange(5))

In [66]:
arr

array([[ 0,  0,  0,  0,  0],
       [ 0,  1,  2,  3,  4],
       [ 0,  2,  4,  6,  8],
       [ 0,  3,  6,  9, 12]])

In [67]:
np.add.reduceat(arr, [0, 2, 4], axis=1)

array([[ 0,  0,  0],
       [ 1,  5,  4],
       [ 2, 10,  8],
       [ 3, 15, 12]], dtype=int32)

<img src='pic\ufunc的方法.png'>

### 自定义ufunc

有2个工具可以让你将自定义函数像ufunc那样使用. 

np.frompyfunc接受一个python函数以及两个分别表示输入输出参数数量的整数.

In [68]:
# 例如，下面是一个能够实现元素级加法的简单函数：
def add_elements(x, y):
    return x + y

In [69]:
add_them = np.frompyfunc(add_elements, 2, 1)    # 用frompyfunc返回的总是python的对象数组

In [70]:
add_them(np.arange(8), np.arange(8))

array([0, 2, 4, 6, 8, 10, 12, 14], dtype=object)

还有另一个办法(np.vectorize), 它没有frompyfunc强大, 但是更智能一些:

In [71]:
add_them = np.vectorize(add_elements, otypes=[np.float64])
add_them(np.arange(8), np.arange(8))

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.])

虽然这2个函数提供了一种创建ufunc型函数的手段, 但它们非常慢, 

因为它们在计算每个元素时都要执行一次python函数调用, 

这自然比numpy自带的基于C的ufunc慢很多:

In [72]:
arr = randn(10000)
%timeit add_them(arr, arr)

3.71 ms ± 189 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [73]:
%timeit np.add(arr, arr)

14.9 µs ± 3.73 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)
