# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [1]:
import numpy as np

# 成績陣列
grades = np.array([77, 85, 56, 90, 66])

# 計算平均值與總和
average = np.mean(grades)
total_sum = np.sum(grades)

print(f"average = {average:.2f}, sum = {total_sum}")

average = 74.80, sum = 374


### 【示範】陣列導向

In [2]:
# 計算最大值
np.max(grades)

90

最大值

In [3]:
# 計算標準差
np.std(grades)

12.416118556135006

標準差

In [6]:
# 計算標準差
np.std(grades)

12.416118556135006

### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [None]:
prices = [1096.95, 596.95, 896.95]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [5]:
# 定義價格與匯率
prices = np.array([1096.95, 596.95, 896.95])  # 美金價格
exchange_rate = 31.71  # 匯率

# 計算台幣價格
prices_in_twd = prices * exchange_rate
print(prices_in_twd)

[34784.2845 18929.2845 28442.2845]


哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [17]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

In [8]:
import numpy as np

grades = np.array([85, 70, 80])
weights = np.array([0.2, 0.35, 0.45])


### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [20]:
# 直接用 np.dot 計算加權總成績
final_score = np.dot(grades, weights)
final_score


77.5

### 【技巧】 一行完成成績計算

In [9]:
# 或者一步完成成績的計算（可用單行函式）
np.dot(grades, weights)


77.5

## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [29]:
import numpy as np

A = np.random.rand(50)  # 生成包含50個隨機數的array
A


array([0.7372234 , 0.6126442 , 0.27626397, 0.28984569, 0.4988311 ,
       0.42021495, 0.4515489 , 0.15328583, 0.93455268, 0.23537373,
       0.24761985, 0.41945762, 0.44871061, 0.66726833, 0.15622678,
       0.70315927, 0.98138833, 0.8233088 , 0.85394749, 0.14797509,
       0.32816167, 0.64607213, 0.96849395, 0.90799427, 0.19579351,
       0.35618479, 0.30311169, 0.32568614, 0.66885309, 0.67844806,
       0.18201376, 0.69592441, 0.11077285, 0.22884185, 0.29488536,
       0.90457337, 0.19872841, 0.38361489, 0.35731267, 0.76200102,
       0.92178147, 0.44190395, 0.07941469, 0.03253205, 0.44805018,
       0.38885104, 0.15473767, 0.55240742, 0.80182196, 0.70921062])

In [12]:
import numpy as np
A = np.random.rand(50)  # 生成包含50個隨機數的array
A[0]




0.6731598391861541

### 【技巧】 檢查 A 的 `shape`

In [13]:
A.shape


(50,)

### 【技巧】 更改 A 的 shape

In [2]:
import numpy as np
A = np.random.rand(50)  # 生成包含50個隨機數的array
A[0]
A.shape = (10, 5)

### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [3]:
import numpy as np
A = np.random.rand(50)  # 生成包含50個隨機數的array
A[0]
A_reshaped = A.reshape(5, 10)  # 把 A 的 shape 改成 5 行 10 列

### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [4]:
A_flattened = A.ravel()

## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [5]:
zeros_array = np.zeros((3, 4))  # 生成 3 行 4 列的全零陣列

### 【技巧】 都是 1 的 array

In [6]:
zeros_like_A = np.zeros(A.shape)  # 生成與 A 形狀一致的全零陣列

### 【技巧】單位矩陣

In [7]:
identity_matrix = np.eye(5)

### 【技巧】給定範圍均勻生出 n 個點

In [8]:
linspace_array = np.linspace(0, 5, 100).reshape(10, 10)  # 將其重塑為 10x10 的矩陣

### 【技巧】`range` 的 array 版

就是 `arange`。

In [9]:
arange_array = np.arange(1, 10, 0.2).reshape(5, 9)

## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

In [10]:
axis_array = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]])

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

In [11]:
column_sum = np.sum(axis_array, axis=0)

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

In [12]:
row_sum = np.sum(axis_array, axis=1)

### 【提示】當然也有可能全部算

In [54]:
A.sum()

45

## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [55]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [56]:
c = np.array([True,False,False,True,True,False])

這是做啥呢? 我們可以瞬間...

In [15]:
L = np.array([3, -2, -1, 5, 7, -3])  # 定義數組 L
c = np.array([True, False, False, True, True, False])  # 定義布林條件
filtered_array = L[c]  # 使用布林條件篩選 L

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

In [16]:
print(c)

[ True False False  True  True False]


這有點強, 我們還可以一次到位!

In [18]:
filtered_array = L[c]

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

In [19]:
array_1d = np.arange(10)  # 生成 0 到 9 的一維數組

In [20]:
sliced_1d = array_1d[3:7]  # 切出索引 3 到索引 6 的元素（不包含索引 7）

### 【技巧】2維陣列切法

記得先列後行!

In [21]:
array_2d = np.array([[0, 1, 2, 3, 4], 
                     [5, 6, 7, 8, 9]])  # 定義 2x5 的二維陣列
sliced_columns = array_2d[:, 1:4]  # 切出所有 row，第 1 到第 3 列（索引從 0 開始）

要所有的row, 切出行 1-3 位置。

In [22]:
sliced_rows = array_2d[0:2, 1]  # 切出第 0 到第 1 行（不包括第 2 行），第 1 列的元素

要所有的行col, 切出第 1 列row!

In [23]:
row_1 = array_2d[1, :]  # 提取第 1 行（索引從 0 開始）的所有列

## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [72]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [25]:
x = np.array([1, 2, 3, 4])
y = np.array([5, 6, 7, 8])
zipped_array = np.array(list(zip(x, y)))  # 壓縮 x 和 y 為二維數組


In [27]:
unzipped_x, unzipped_y = np.array(list(zip(*zipped_array)))  # 使用 * 解壓縮

### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [28]:
print("Unzipped x:", unzipped_x)
print("Unzipped y:", unzipped_y)

Unzipped x: [1 2 3 4]
Unzipped y: [5 6 7 8]


In [29]:
print("x equals unzipped_x:", np.array_equal(x, unzipped_x))
print("y equals unzipped_y:", np.array_equal(y, unzipped_y))

x equals unzipped_x: True
y equals unzipped_y: True


In [30]:
recompressed = np.array(list(zip(unzipped_x, unzipped_y)))
print("Recompressed array:", recompressed)


Recompressed array: [[1 5]
 [2 6]
 [3 7]
 [4 8]]


In [31]:
stacked = np.vstack((unzipped_x, unzipped_y)).T
print("Stacked array:", stacked)


Stacked array: [[1 5]
 [2 6]
 [3 7]
 [4 8]]
