<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=1">

*This notebook contains an excerpt from the [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) by Jake VanderPlas; the content is available [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*

*The text is released under the [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is released under the [MIT license](https://opensource.org/licenses/MIT). If you find this content useful, please consider supporting the work by [buying the book](http://shop.oreilly.com/product/0636920034919.do)!*

<!--NAVIGATION-->
< [The Basics of NumPy Arrays](02.02-The-Basics-Of-NumPy-Arrays.ipynb) | [Contents](Index.ipynb) | [Aggregations: Min, Max, and Everything In Between](02.04-Computation-on-arrays-aggregates.ipynb) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/02.03-Computation-on-arrays-ufuncs.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


# 在Numpy陣列的運算: Universal Functions (通用函數)

接下來將深入探討為什麼Numpy在Python的資料科學中是那麼重要。因為Numpy可以提供一個簡單而彈性的介面，讓陣列中的資料可以使用最佳的方式進行計算。

要讓Numpy快速運算的關鍵在於使用**向量化**的操作，通常是透過Numpy的Universal Functions (ufuncs)進行，可以讓陣列中的元素進行重複性計算時更有效率。(相較於迴圈冗長緩慢的運算要來的快得多)

入門的通用函數（或以運算符型式採用）可以輕鬆處理數值陣列，並適用所有的陣列

## 介紹UFuncs

Numpy提供一個方便的介面，用在此種固定型態以及以編譯的程序，也就是所謂的*向量化*操作.

向量化是被設計用來把迴圈推送到在Numpy中的已編譯層，好讓執行的速度更快。

In [6]:
len(values)

5

In [5]:
np.empty(len(values))

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [4]:
values

array([6, 1, 4, 4, 8])

In [None]:
range(len(values))

range(0, 5)

In [3]:
import numpy as np
np.random.seed(0)

# 求倒數
def compute_reciprocals(values):
    output = np.empty(len(values)) # np.empty:傳回給定形狀的數字。
    for i in range(len(values)):
        output[i] = 1.0 / values[i] # 取value的第0~4位到output的第0~4位
    return output
        
values = np.random.randint(1, 10, size=5) # 6,1,4,4,8
compute_reciprocals(values) # 1/6, 1/1, 1/4, 1/4, 1/8

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [None]:
# 迴圈運算
big_array = np.random.randint(1, 100, size=1000000)
%timeit compute_reciprocals(big_array)

1 loop, best of 5: 2.15 s per loop


In [None]:
# Numpy運算
print(compute_reciprocals(values))
print(1.0 / values)

[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


In [None]:
%timeit (1.0 / big_array) # 比前面的迴圈運行時間快上許多

100 loops, best of 5: 2.1 ms per loop


透過ufuncs在Numpy中進行向量化運算，主要的目的就是快速的執行在Numpy陣列值的相關操作。
ufuncs非常具有彈性，之前看到的是在陣列和純量之間的運算，也可以在兩個陣列之間進行操作。

In [None]:
np.arange(5) / np.arange(1, 6)
# array([0, 1, 2, 3, 4])/array([1, 2, 3, 4, 5])

array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

ufuncs也不受限於一維陣列，也可以在多維陣列中運作得很好:

In [None]:
x = np.arange(9).reshape((3, 3)) # array([0, 1, 2, 3, 4, 5, 6, 7, 8])
2 ** x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]])

透過ufuncs對於向量化的值進行運算，幾乎總是比使用Python的迴圈來的有效率，尤其是當陣列成長到更大的時候。

任何時候當你看到在Python程式碼中的迴圈時，就應該考慮是否要使用向量化的表達來取代。

## 探索Numpy的Ufuncs

### 陣列的算數

就.....跟一般的數學運算表示一樣

In [None]:
x = np.arange(4) # arange([start,] stop[, step,], dtype=None)，array([0, 1, 2, 3])
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2)  # 向下取整除法，只取整數值

x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]


In [None]:
# array([0, 1, 2, 3])
print("-x     = ", -x)
print("x ** 2 = ", x ** 2) # 指數
print("x % 2  = ", x % 2) # 餘數

-x     =  [ 0 -1 -2 -3]
x ** 2 =  [0 1 4 9]
x % 2  =  [0 1 0 1]


也可以把這些運算串起來，也遵循標準的運算優先順序

In [None]:
# array([0, 1, 2, 3])
-(0.5*x + 1) ** 2

array([-1.  , -2.25, -4.  , -6.25])

所有的算術運算子都被很方便的包裝到指定的函式放在Numpy裡;例如`+` 其實是包裝成`add`函式:

In [None]:
# array([0, 1, 2, 3])
np.add(x, 2)

array([2, 3, 4, 5])

在Numpy中可以使用的算術運算子:

| Operator	    | Equivalent ufunc    | Description                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Addition (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Subtraction (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Unary negation (e.g., ``-2``)          |
|``*``          |``np.multiply``      |Multiplication (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Division (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Floor division (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Exponentiation (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Modulus/remainder (e.g., ``9 % 4 = 1``)|



### 絕對值



相對應的Numpy ufunc是`np.absolute`也可以用`np.abs`

In [None]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

array([2, 1, 0, 1, 2])

In [None]:
np.absolute(x)

array([2, 1, 0, 1, 2])

In [None]:
np.abs(x)

array([2, 1, 0, 1, 2])

可以處理複數，其絕對值會傳回它的大小

In [None]:
x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 0 + 1j])
np.abs(x)

array([ 5.,  5.,  2.,  1.])

### 三角函數

Numpy提供非常大量有用的ufuncs，其中在資料科學上最常用的是三角函數。

In [None]:
theta = np.linspace(0, np.pi, 3) # 在0和圓周率間均勻產生間隔等距三個點

In [None]:
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta      =  [ 0.          1.57079633  3.14159265]
sin(theta) =  [  0.00000000e+00   1.00000000e+00   1.22464680e-16]
cos(theta) =  [  1.00000000e+00   6.12323400e-17  -1.00000000e+00]
tan(theta) =  [  0.00000000e+00   1.63312394e+16  -1.22464680e-16]


也可使用反三角函數:

In [None]:
x = [-1, 0, 1]
print("x         = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x))

x         =  [-1, 0, 1]
arcsin(x) =  [-1.57079633  0.          1.57079633]
arccos(x) =  [ 3.14159265  1.57079633  0.        ]
arctan(x) =  [-0.78539816  0.          0.78539816]


### 指數和對數

In [None]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))

x     = [1, 2, 3]
e^x   = [  2.71828183   7.3890561   20.08553692]
2^x   = [ 2.  4.  8.]
3^x   = [ 3  9 27]


In [None]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

x        = [1, 2, 4, 10]
ln(x)    = [ 0.          0.69314718  1.38629436  2.30258509]
log2(x)  = [ 0.          1.          2.          3.32192809]
log10(x) = [ 0.          0.30103     0.60205999  1.        ]


有一些特定的版本，在輸入值非常小時，可以用來維持精準度:

In [None]:
# 資料平滑處理，確保資料的精確度
x = [0, 0.001, 0.01, 0.1]
print("exp(x) - 1 =", np.expm1(x))
print("log(1 + x) =", np.log1p(x))

exp(x) - 1 = [0.         0.0010005  0.01005017 0.10517092]
log(1 + x) = [0.         0.0009995  0.00995033 0.09531018]


當`x`非常小時，這些函式會提供比原始的`np.log`或`np.exp`更精確的數值

### 特殊的ufuncs

NumPy還有許多ufuncs可以使用，像是雙曲線函數、位元運算、比較運算等等。有需求的同學可以再去Google搜尋`scipy.special`或gamma function python就好。

## 進階的Ufunc函數

### 設定輸出

對於所有的ufuncs，可以加上`out`參數來做到"做完大量計算，計算完畢的結果暫時儲存在某一個陣列用"

In [8]:
x = np.arange(5) # array([0, 1, 2, 3, 4])
y = np.empty(5) # 隨意創建數值的陣列
np.multiply(x, 10, out=y)
z = 10 * x
print(y)
print(z)

[ 0. 10. 20. 30. 40.]
[ 0 10 20 30 40]


In [None]:
from google.colab import drive
drive.mount('/content/drive')

也可以使用陣列的檢視方式進行操作，例如:把計算的結果，寫到某一個指定陣列，以每隔一個位置的方式來放置:

In [None]:
y = np.zeros(10) # array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
np.power(2, x, out=y[::2]) # 2的x次方，並輸出成間隔為2的陣列
print(y)

[ 1.  0.  2.  0.  4.  0.  8.  0. 16.  0.]


如果使用`y[::2] = 2 ** x`進行同樣的操作，此方法會先建立一個暫時性的陣列用來放置 `2 ** x`的結果, 接著再進行第二次操作把這些結果複製到`y`陣列中。

對於少量運算並不會有太大的差異，但如果陣列非常大，使用`out`所節省的記憶體就非常明顯了。

### 聚合

可以用`reduce`重複應用一個給定的運算到陣列中的每一個元素，直到剩下一個結果為止。簡單講就是將結果濃縮成長度為1

In [None]:
x = np.arange(1, 6) # array([1, 2, 3, 4, 5])
np.add.reduce(x) # 傳回所有元素加總結果

15

In [None]:
np.multiply.reduce(x) # 傳回所有元素的乘積

120

儲存所有中間運算的結果，可以使用`accumulate`取代

In [None]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

In [None]:
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120])