# Lec08 Numpy II：数组通用函数 Arrays ufunc

In [2]:
import numpy as np
np.random.seed(0)

## 8.1 数学函数 math functions

### 8.1.1 数组运算

In [None]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2)  # floor division

In [None]:
print("-x     = ", -x)
print("x ** 2 = ", x ** 2)  # exponentiation
print("x % 2  = ", x % 2)   # modulus

你可以任意组合这些运算。当让要注意运算的优先级，例如:

In [None]:
-(0.5*x + 1) ** 2

这些运算符，实际上都是Numpy内置的一个函数，例如``+`` 运算符就是``add`` 函数。

In [None]:
x + 2

In [None]:
np.add(x, 2)

| Operator	    | Equivalent ufunc    | Description                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Addition (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Subtraction (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Unary negation (e.g., ``-2``)          |
|``*``          |``np.multiply``      |Multiplication (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Division (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Floor division (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Exponentiation (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Modulus/remainder (e.g., ``9 % 4 = 1``)|

### 8.1.2 绝对值

Numpy可以理解Python的内置函数

In [None]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

与之对应的ufunc为``np.absolute``或 ``np.abs``

In [None]:
np.absolute(x)

In [None]:
np.abs(x)

### 8.1.3 三角函数

In [None]:
theta = np.linspace(0, np.pi, 3)

In [None]:
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

In [None]:
x = [-1, 0, 1]
print("x         = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x))

### 8.1.4 指对数

In [None]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))

In [None]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

In [None]:
x = [0, 0.001, 0.01, 0.1]
print("exp(x) - 1 =", np.expm1(x))
print("log(1 + x) =", np.log1p(x))

### 8.1.5 近似 Rounding

In [5]:
x = np.random.randn(3)
x

array([ 2.2408932 ,  1.86755799, -0.97727788])

``round``函数会返回最近的整数。

In [6]:
np.round(x)

array([ 2.,  2., -1.])

或者，声明保留小数点后的精度后，再做近似。

In [7]:
np.round(x, 2)

array([ 2.24,  1.87, -0.98])

``floor``函数会返回后续最小的整数，``ceil``函数会返回之前最大的整数。

In [10]:
np.floor(x)

array([ 2.,  1., -1.])

In [11]:
np.ceil(x)

array([ 3.,  2., -0.])

### 8.1.6 缺失值 NaN

In [12]:
x = np.random.rand(4)
x[1] = np.NaN
x

array([0.43758721,        nan, 0.96366276, 0.38344152])

In [16]:
np.isnan(x)

array([False,  True, False, False])

``NoN``(Not a Number)是Numpy中的缺失值。

| 一元函数 | 说明 |
| ------ | ------- |
| abs、fabs   | 绝对值，对于非实数，可以用更快的fabs | 
| sqrt        | 平方根 | 
| square      | 平方 | 
| exp         | 指数 | 
| log、log10、log2、log1p         | 对数，分别是自然对数、底数为10、底数为2和log(1+x) | 
| sign        | 计算正负号 |
| round       | 最近整数 |
| ceil        | ceiling值，大于等于该数的最小整数 |
| floor       | floor值，小于等于该数的最大整数 |
| rint        | 四舍五入取最接近的整数 | 
| modf        | 将整数和小数部分，以两个独立数组的形式返回 | 
| isnan       | 返回“哪些值不是NaN(Not a Number)” | 
| isfinite、isinf | 返回哪些是有限的，哪些是无限的 | 
| cos、cosh、sin、sinh、tan、tanh | 三角函数和双曲型三角函数 | 
| arccos、arccosh、arsin、arcsinh、arctan、arctanh | 反三角函数 | 

| 二元函数 | 说明 |
| ------ | ------- |
| add           | 相加 | 
| subtract      | 相减 | 
| multiply      | 相乘 | 
| divide、floor_divide         | 除法、整除（舍弃余数） | 
| power         | 乘方 | 
| maximum、fmax        | 最大值，famx忽略NaN |
| minimum、fmin        | 最小值，fmin忽略NaN |
| mod           | 求模（除法的余数） |
| copysign      | 将第二个数组的符号，复制给第一个数组 | 
| greater、greater_equal、less、less_equal、not_equal        | 比较运算 | 
| logical_and、logical_or、logical_xor      | 真值运算 | 

### 8.1.5 高级通用函数操作

有时候指定一个用于存放运算结果的变量是十分有用的。那么如何指定输出位置？

In [None]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out=y)
y

下面的例子可以将结果每隔一个元素存入相应位置。

In [None]:
y = np.zeros(10)
np.power(2, x, out=y[::2])
print(y)

## 8.2 聚合 Aggregations

### 8.2.1 数组求和

In [None]:
L = np.random.random(100)
sum(L)

In [None]:
np.sum(L)

你也想想问，Python内置的``sum``函数和Numpy的``np.sum``的区别在哪里？区别是对于大数据运算时，后者更快。

In [None]:
big_array = np.random.rand(1000000)
%timeit sum(big_array)
%timeit np.sum(big_array)

### 8.2.2 最大值和最小值

In [None]:
min(big_array), max(big_array)

Numpy也有相应的功能，同样运算速度更快

In [None]:
np.min(big_array), np.max(big_array)

同样可以调用相应的method实现这些操作

In [None]:
print(big_array.min(), big_array.max(), big_array.sum())

### 8.2.3 多维数组的聚合

In [None]:
M = np.random.random((3, 4))
print(M)

In [None]:
M.sum()

怎么理解``axis=0``？

第一种理解方法。  
这里的``axis=0``指的是沿着哪个轴做运算。例如向量（3，4），3指的是行，行的刻度坐标在y轴上，所有``axis=0``这的就是编号0的分量所在的y轴运算。


第二种理解方法。  
这里的``axis=0``指的是这个轴被保留，其他的轴被折叠。x轴是编号0的轴，所有x轴（横向）被保留，y轴（纵向）被压缩。

In [None]:
M.min(axis=0)  # 保留x轴，沿着y轴(纵轴)的方向运算

In [None]:
M.max(axis=1) # 保留y轴，沿着x轴(横轴)的方向运算

### 8.2.4 统计

In [None]:
np.mean(M)

In [None]:
M.mean()

In [None]:
M.argmax()

In [None]:
np.var(M, axis=0)

### 8.2.5 累计运算

In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [None]:
arr.cumprod()

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr

In [None]:
arr.cumsum(axis=0)

In [None]:
arr.cumprod(axis=1)

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

### 8.2.6 忽略缺失值的函数

下面介绍一些忽略缺失值的函数，NaN-safe Version

In [17]:
x = np.random.rand(4)
x[1] = np.NaN
x

array([0.79172504,        nan, 0.56804456, 0.92559664])

In [18]:
np.sum(x)

nan

In [20]:
np.nansum(x)

2.285366237469258

In [21]:
np.nansum(x) / sum(x[np.logical_not(np.isnan(x))])

1.0

In [25]:
np.nansum(x) / sum(1-np.isnan(x)) # nanmean

0.761788745823086

In [30]:
np.max(x), np.argmax(x)

(nan, 1)

In [31]:
np.nanmax(x), np.nanargmax(x)

(0.925596638292661, 3)

### 8.2.7 通用函数的聚合运算

``reduce``方法可以数组内部对元素重复某个操作，直到得到一个数

In [None]:
x = np.arange(1, 6)
print(np.sum(x))
print(np.add.reduce(x))

In [None]:
print(np.prod(x))
print(np.multiply.reduce(x))

``accumulate``则可以保留中间步骤

In [None]:
print(np.cumsum(x))
print(np.add.accumulate(x))

In [None]:
print(np.cumprod(x))
print(np.multiply.accumulate(x))

## 8.3 集合运算

在使用集合运算前，想要保证元素的唯一性。

In [None]:
a = np.unique([1, 2, 3, 3])
b = np.unique([2, 3, 4, 4, 5, 6, 5])

``np.in1d``可以查看一个集合是否包含在另一个集合之中

In [None]:
np.in1d(a, b)

如果想验证a是b子集，则

In [None]:
np.all(np.in1d(a, b))

``np.union1d``、``np.intersect1d``和``np.setdiff1d``提供了集合的并、交和差运算

In [None]:
np.union1d(a, b)

In [None]:
np.intersect1d(a, b)

In [None]:
np.setdiff1d(b, a)

| 函数    | 说明            |
| ------- | ------|
| unique  | 创建元素唯一的新数组 | 
| in1d   | 检查每个元素是否在另一个数组中 | 
| union1d   | 以数组形式返回并集元素 | 
| interset1d  | 以数组形式返回交集元素 | 
| setdiff1d  | 以数组形式返回差集元素 | 
| setxor1d  | 以数组形式返回对称差集元素 | 