# Numpy學習筆記

In [1]:
import numpy as np
np.__version__

'1.15.3'

## Numpy 陣列中的計算

在 Numpy 的計算可以非常快速，也可能會非常慢。

要讓計算速度快速的關鍵在於**向量化**，主要是使用 Numpy 的 ufuncs 進行，在重複性計算可以加快效率。

### 迴圈緩慢因素

python 是動態性直譯器的本質，所以有相當的彈性，但是也造成運算順序無法像 C 或 Java 一樣可以被編譯成機器碼再加以執行。

所以有很多專案來彌補這項缺失，像是 Cython, PyPy 以及 Numba，但使用人數還是無法超越 CPython。

In [14]:
np.random.seed(0)

def loop_test(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1/values[i]
    return output

values = np.random.randint(1,10,10000000)
loop_test(values)

array([0.16666667, 1.        , 0.25      , ..., 0.125     , 0.5       ,
       0.5       ])

In [15]:
# 看一下 loop 所花費的運算時間
%timeit loop_test(values)

3.67 s ± 184 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


跑迴圈用 for 來寫是相當直觀的寫法，但這種寫法有一個缺點，就是每一次跑 loop 都要進行函式的派送，

所以每次都會浪費一些時間在做函式的動態查找，最後造成整體的運算速度下降~

因此如果我們使用**編譯過**的函式，那麼計算速度就會快很多了~

### 使用 UFuncs

透過 UFunncs 在 Numpy 中進行向量化運算

#### 一維運算

In [17]:
np.arange(5)/np.arange(1,6)

array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

#### 二維運算

In [22]:
x = np.arange(9).reshape(3,3)
x**2

array([[ 0,  1,  4],
       [ 9, 16, 25],
       [36, 49, 64]], dtype=int32)

#### 基本運算

In [33]:
x = np.arange(5)

# +-*/
print("x  :\t",x)
print("x+5:\t",x+5)   # 加
print("x-5:\t",x-5)   # 減
print("x*5:\t",x*5)   # 乘
print("x/5:\t",x/5)   # 除
print("x**5:\t",x**2) # 次方
print("x%5:\t",x%2)   # 取餘數

x  :	 [0 1 2 3 4]
x+5:	 [5 6 7 8 9]
x-5:	 [-5 -4 -3 -2 -1]
x*5:	 [ 0  5 10 15 20]
x/5:	 [0.  0.2 0.4 0.6 0.8]
x**5:	 [ 0  1  4  9 16]
x%5:	 [0 1 0 1 0]


In [35]:
x = np.arange(5)

# +-*/ 函式版
print("x  :\t",x)
print("x+5:\t",np.add(x,5))   # 加
print("x-5:\t",np.subtract(x,5))   # 減
print("x*5:\t",np.multiply(x,5))   # 乘
print("x/5:\t",np.divide(x,5))   # 除
print("x**5:\t",np.power(x,2)) # 次方
print("x%5:\t",np.mod(x,2))   # 取餘數

x  :	 [0 1 2 3 4]
x+5:	 [5 6 7 8 9]
x-5:	 [-5 -4 -3 -2 -1]
x*5:	 [ 0  5 10 15 20]
x/5:	 [0.  0.2 0.4 0.6 0.8]
x**5:	 [ 0  1  4  9 16]
x%5:	 [0 1 0 1 0]


#### 絕對值

In [31]:
x = np.arange(-2,3)

# 絕對值
print("x   :\t",x)
print("abs :\t",abs(x))

x   :	 [-2 -1  0  1  2]
abs :	 [2 1 0 1 2]


#### 三角函數

In [46]:
# 先定義想要看的角度 30、60、90
theta = np.linspace(0,np.pi,3)  

# 看三角函數( sin, cos, tan )
print("theta  :\t",theta)
print("sin(theta):\t",np.sin(theta))
print("cos(theta):\t",np.cos(theta))
print("tan(theta):\t",np.tan(theta))

theta  :	 [0.         1.57079633 3.14159265]
sin(theta):	 [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta):	 [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta):	 [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [48]:
x = [-1,0,1]

# 看反三角函數( sin, cos, tan )
print("x        :\t",x)
print("arcsin(x):\t",np.arcsin(x))
print("arccos(x):\t",np.arccos(x))
print("arctan(x):\t",np.arctan(x))

x        :	 [-1, 0, 1]
arcsin(x):	 [-1.57079633  0.          1.57079633]
arccos(x):	 [3.14159265 1.57079633 0.        ]
arctan(x):	 [-0.78539816  0.          0.78539816]


#### 指數

In [49]:
x = [1,2,3]
print("x    :\t",x)
print("e^x  :\t",np.exp(x))
print("2^x  :\t",np.exp2(x))
print("3^x  :\t",np.power(3,x))

x    :	 [1, 2, 3]
e^x  :	 [ 2.71828183  7.3890561  20.08553692]
2^x  :	 [2. 4. 8.]
3^x  :	 [ 3  9 27]


#### 對數

In [50]:
x = [1,2,3,4]
print("x       :\t",x)
print("ln(x)   :\t",np.log(x))
print("log2(x) :\t",np.log2(x))
print("log10(x):\t",np.log10(x))

x       :	 [1, 2, 3, 4]
ln(x)   :	 [0.         0.69314718 1.09861229 1.38629436]
log2(x) :	 [0.        1.        1.5849625 2.       ]
log10(x):	 [0.         0.30103    0.47712125 0.60205999]


### 進階的 UFuncs

#### 設定輸出

In [51]:
x = np.arange(5)
ans = np.empty(5)

np.multiply(x,10,out=ans)
print(ans)

[ 0. 10. 20. 30. 40.]


In [54]:
# 將輸出的運算結果插入在 ans 的偶數位
x   = np.ones(5)
ans = np.zeros(10)

np.add(x,1,out=ans[::2]) 
print(ans)

[2. 0. 2. 0. 2. 0. 2. 0. 2. 0.]


這種設定輸出的方式，運算的過程為 先建立一個暫時性的陣列運算完成，再進行第二次操作把結果安插在 ans 的設定位置上

在小型資料的運算可能沒甚麼，但在大量資料運算時，就能夠節省記憶體的用量，省下一些空間

#### 聚合

In [59]:
x = np.arange(1,6)
print("x        :",x)
print("總和     :",np.add.reduce(x))       # 1+2+3+4+5
print("總乘積   :",np.multiply.reduce(x))  # 1*2*3*4*5
print("元素遞減 :",np.subtract.reduce(x))  # 1-2-3-4-5

x        : [1 2 3 4 5]
總和     : 15
總乘積   : 120
元素遞減 : -13


In [63]:
# 想要儲存中間每一個運算過程
print("x        :",x)
print("總和     :",np.add.accumulate(x))       # 1+2+3+4+
print("總乘積   :",np.multiply.accumulate(x))  # 1*2*3*4*5
print("元素遞減 :",np.subtract.accumulate(x))  # 1-2-3-4-5

x        : [1 2 3 4 5]
總和     : [ 1  3  6 10 15]
總乘積   : [  1   2   6  24 120]
元素遞減 : [  1  -1  -4  -8 -13]


#### 聚合進階

In [68]:
L = np.random.random(100)
print("sum:    ",sum(L))
print("np.sum: ",np.sum(L))
print("min:    ",min(L))
print("np.min: ",np.min(L))
print("max:    ",max(L))
print("np.max: ",np.max(L))

sum:     47.981182005647064
np.sum:  47.98118200564708
min:     0.0008473944078550844
np.min:  0.0008473944078550844
max:     0.9784662184384482
np.max:  0.9784662184384482


In [67]:
# 看比較
big_array = np.random.randn(np.power(10,6))
%timeit sum(big_array)
%timeit np.sum(big_array)

86.3 ms ± 1.56 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
1.26 ms ± 20.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


#### 其他聚合函式

In [75]:
np.sum(L)           # 所有元素加總            
np.prod(L)          # 所有元素乘積
np.mean(L)          # 所有元素平均值
np.std(L)           # 所有元素標準差
np.var(L)           # 所有元素變異值
np.min(L)           # 所有元素最小值
np.max(L)           # 所有元素最大值
np.argmin(L)        # 所有元素最小值索引
np.argmax(L)        # 所有元素最大值索引
np.median(L)        # 所有元素的中位數
np.percentile(L,50) # 所有元素中的第 x 分位數  (第50百分位數)

a = np.array([1,2,3])
b = np.array([4,2,4])
np.any(a==b)           # 所有元素有任一值是 True,回傳 True
np.all(a==b)           # 所有元素全部的值是 True,回傳 True

False

### 陣列上的計算: Broadcasting

broadcasting 可以看做是使用 binary ufuncs (加減乘除等) 在不同大小的陣列上進行運算

#### binary 運算

In [76]:
a = np.array([1,2,3])
b = np.array([4,5,6])
a+b

array([5, 7, 9])

#### broadcasting 運算

In [77]:
a+5

array([6, 7, 8])

可以想像乘將 5 拉長為 [5,5,5] 來做運算

一維陣列也可以轉換成二維陣列去做運算

In [79]:
c = np.zeros((3,3))
c+a

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

#### broadcasting 示意圖

In [80]:
# jupyte notebook 秀出圖片的方法
from IPython.display import Image
path = "https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png"
Image(url=path,width = 500)