### 理解 NumPy 陣列的廣播規則(broadcasting)
#### 向量化運算：不用迴圈、直接讓陣列彼此相加、相乘

In [35]:
import numpy as np
# 建立 shape 為 (3, 1) 的 array_a 與 (1, 4) 的 array_b
array_a = np.ones((3, 1))
array_b = np.ones((1, 4))

# 相加後，打印出結果的矩陣形狀 shape ，應為 (3, 4)
array_c = array_a + array_b
print(f"相加後的矩陣形狀（列數、行數）")
print(np.shape(array_c))

相加後的矩陣形狀（列數、行數）
(3, 4)


#### 廣播並延展陣列

In [36]:
import numpy as np
# 建立 shape 為 (3, 1) 的 array_a 與 (1, 4) 的 array_b
array_a = np.array([[1], [2], [3]])
array_b = np.array([[10, 20, 30, 40]])

# 確認兩個 array 的內容，並使用 np.broadcast_to 顯示延展結果
broadcast_a = np.broadcast_to(array_a, (3, 4))
broadcast_b = np.broadcast_to(array_b, (3, 4))

# 印出延展前後的內容
print(f"橫向延展_column複製")
print(array_a)
print(broadcast_a)
print()

print(f"縱向延展_row複製")
print(array_b)
print(broadcast_b)
print()

# 兩個 array 是先透過延展再相加
array_c = array_a + array_b
c = broadcast_a + broadcast_b
print(f"延展並相加結果")
print(c)
print()

print(f"直接相加結果")
print(array_c)

橫向延展_column複製
[[1]
 [2]
 [3]]
[[1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]]

縱向延展_row複製
[[10 20 30 40]]
[[10 20 30 40]
 [10 20 30 40]
 [10 20 30 40]]

延展並相加結果
[[11 21 31 41]
 [12 22 32 42]
 [13 23 33 43]]

直接相加結果
[[11 21 31 41]
 [12 22 32 42]
 [13 23 33 43]]


#### 遮罩與條件篩選

In [37]:
import numpy as np

# 建立一個隨機陣列，包含十個數字
arr = np.random.rand(10)
print(arr)
print()

# 篩選條件：數字必須大於 0.5 ，符合者標為 True ，其餘為 False
arr_compare = arr > 0.5
print(arr_compare)
print()

# 使用 np.where，數字必須大於 0.5 ；符合條件者標記為 1 ；否則為 0 。
# 編按：另類的四捨五入操作？
arr_compare_2 = np.where(arr > 0.5, 1, 0)
print(arr_compare_2)

[0.5672697  0.76733469 0.46338782 0.3028645  0.58490495 0.62829314
 0.28310148 0.59839204 0.67205316 0.36798716]

[ True  True False False  True  True False  True  True False]

[1 1 0 0 1 1 0 1 1 0]


### 條件計算 + reshape

In [38]:
import numpy as np
arr = np.random.randint(0, 100, size = (4, 5))
print(arr)
print()

# 找出每一列的最大值
print(f"找出每一列的最大值")
for i in range(0, 4):
    arr_max = np.max(arr[i, ])
    print(f"第{i + 1}列的最大值：{arr_max}")
print()

# 調整 array 的形狀 (your_array.reshape(rows, columns))
rearr_1 = arr.reshape(20, )
print(rearr_1)
print(f"第一次轉換形狀：{np.shape(rearr_1)}")
print()

rearr_2 = rearr_1.reshape(5, 4)
print(rearr_2)
print(f"第二次轉換形狀：{np.shape(rearr_2)}")
print()

rearr_3 = rearr_2.reshape(2, 10)
print(rearr_3)
print(f"第三次轉換形狀：{np.shape(rearr_3)}")

[[95 44  2 16 60]
 [28 28 14 10 14]
 [54 93 35 89 25]
 [53 57 38 25 71]]

找出每一列的最大值
第1列的最大值：95
第2列的最大值：28
第3列的最大值：93
第4列的最大值：71

[95 44  2 16 60 28 28 14 10 14 54 93 35 89 25 53 57 38 25 71]
第一次轉換形狀：(20,)

[[95 44  2 16]
 [60 28 28 14]
 [10 14 54 93]
 [35 89 25 53]
 [57 38 25 71]]
第二次轉換形狀：(5, 4)

[[95 44  2 16 60 28 28 14 10 14]
 [54 93 35 89 25 53 57 38 25 71]]
第三次轉換形狀：(2, 10)


### 應用：模擬基因資料

In [41]:
import numpy as np
expr = np.random.rand(100)

labels = np.where(expr > 0.8, "High", np.where(expr < 0.2, "Low", "Mid"))

print(expr)
print(labels)
print(np.shape(labels))


[0.59003522 0.16530461 0.84135499 0.98478163 0.93419723 0.37898249
 0.45047991 0.82883862 0.22175936 0.78088689 0.78821161 0.97200457
 0.36388144 0.58815738 0.58610491 0.62695171 0.3760732  0.48323549
 0.5877107  0.56152663 0.12216467 0.04300691 0.56010189 0.17231641
 0.853698   0.02378113 0.13198753 0.87926666 0.8291946  0.01863869
 0.70379205 0.46843055 0.56647677 0.87675004 0.68109403 0.48363941
 0.77307031 0.72288486 0.66993933 0.50755514 0.48704623 0.16702818
 0.1363372  0.24766592 0.54210375 0.48642137 0.299787   0.53534534
 0.2032776  0.85807839 0.27915473 0.29534938 0.21450584 0.3184781
 0.16642494 0.91518112 0.84497624 0.88158262 0.45019092 0.00352695
 0.19755686 0.37889954 0.10904678 0.95470236 0.11849645 0.09983377
 0.6849913  0.60084803 0.59149845 0.76581871 0.63445527 0.10380605
 0.18124584 0.42498518 0.38910458 0.33570512 0.57197529 0.7300346
 0.75290243 0.6118628  0.54808168 0.63913522 0.87251115 0.80308468
 0.52161633 0.21745469 0.95969348 0.73542833 0.08721218 0.387264

#### 補充：向量跟for迴圈的效率差異

In [42]:
import numpy as np
import time

start = time.time()
a = np.ones(10000000)
b = np.arange(1, 10000001)
print(a.dot(b))
end_1 = time.time()
total = 0
for i in range(1, 10000001):
    total += i
print(total)
end_2 = time.time()

print(f"向量運算秒數：{round(end_1 - start, 5)}")
print(f"迴圈運算秒數：{round(end_2 - end_1, 5)}")    

50000005000000.0
50000005000000
向量運算秒數：0.48712
迴圈運算秒數：1.77775
