# NumPy 和陣列導向的程式設計

`NumPy` 可以說是 Python 中最最標準的科學計算、數據分析套件。也因為 `NumPy` 的出現, 讓 Python 有了非常好的數據分析基礎, 一直到現在成為數據分析覇主。

## 1. 陣列導向 101

科學計算一個很核心的概念叫 "array oriented" 的寫法。Array 是 `numpy` 標準的資料結構, 和 list 很像, 但就差了那麼一點點。而這一點點讓我們在計算上是無比的方便。

### 【暖身】 計算平均

某位同學期中考各科成績如下, 請幫他計算成績。

    grades = [77, 85, 56, 90, 66]
    
請計算平均。

In [4]:
import numpy as np
grades = [77, 85, 56, 90, 66]
average = np.mean(grades)

print(f"平均成績為: {average}")

平均成績為: 74.8


### 【示範】陣列導向

In [6]:
import numpy as np

grades = [77, 85, 56, 90, 66]

grades_array = np.array(grades)

# 平均值
mean = np.mean(grades_array)

# 最大值
maximum = np.max(grades_array)

# 最小值
minimum = np.min(grades_array)

# 標準差
std_dev = np.std(grades_array)

# 中位數
median = np.median(grades_array)

print("平均值:", mean)
print("最大值:", maximum)
print("最小值:", minimum)
print("標準差:", std_dev)
print("中位數:", median)

平均值: 74.8
最大值: 90
最小值: 56
標準差: 12.416118556135006
中位數: 77.0


最大值

In [7]:
import numpy as np

grades = [77, 85, 56, 90, 66]

grades_array = np.array(grades)

# 平均值
mean = np.mean(grades_array)

# 最大值
maximum = np.max(grades_array)

# 最小值
minimum = np.min(grades_array)

# 標準差
std_dev = np.std(grades_array)

# 中位數
median = np.median(grades_array)

print("平均值:", mean)
print("最大值:", maximum)
print("最小值:", minimum)
print("標準差:", std_dev)
print("中位數:", median)

平均值: 74.8
最大值: 90
最小值: 56
標準差: 12.416118556135006
中位數: 77.0


標準差

In [9]:
import numpy as np

grades = [77, 85, 56, 90, 66]
grades_array = np.array(grades)

# 平均值
mean = np.mean(grades_array)

# 最大值
maximum = np.max(grades_array)

# 最小值
minimum = np.min(grades_array)

# 標準差
std_dev = np.std(grades_array)

# 中位數
median = np.median(grades_array)

# 變異數
variance = np.var(grades_array)

# 總和
total = np.sum(grades_array)

# 百分位數
percentile_25 = np.percentile(grades_array, 25)
percentile_50 = np.percentile(grades_array, 50)
percentile_75 = np.percentile(grades_array, 75)

# 最大值與最小值的差距
ptp_range = np.ptp(grades_array)

# 輸出結果
print("平均值:", mean)
print("最大值:", maximum)
print("最小值:", minimum)
print("標準差:", std_dev)
print("中位數:", median)
print("變異數:", variance)
print("總和:", total)
print("25百分位數:", percentile_25)
print("50百分位數 (中位數):", percentile_50)
print("75百分位數:", percentile_75)
print("最大最小差距 (ptp):", ptp_range)

平均值: 74.8
最大值: 90
最小值: 56
標準差: 12.416118556135006
中位數: 77.0
變異數: 154.16
總和: 374
25百分位數: 66.0
50百分位數 (中位數): 77.0
75百分位數: 85.0
最大最小差距 (ptp): 34


### 【暖身】 換算匯率

假設今天我想查查號稱 Pentax 三公主的 31mm, 43mm, 77mm 三隻 limited 鏡頭在美國賣多少。於是我去 B&H 查了他們的價格分別是:

    prices = [1096.95, 596.95, 896.95]
    
我又查了 Google 匯率 1 美金為 31.71 元。請把三支鏡頭的價格換算為台幣。

In [2]:
import numpy as np

prices = [1096.95, 596.95, 896.95]
TWD_ExchangeRate = 31.71

USD_prices = np.array(prices)
TWD_prices = USD_prices * TWD_ExchangeRate

print(f"台幣價格為: {TWD_prices}")


台幣價格為: [34784.2845 18929.2845 28442.2845]


先不管這實在有夠醜的數字, 我們要記得在科學計算中:

### 儘可能不要使用迴圈

這可能嗎?

### 【示範】陣列換算匯率

In [3]:
import numpy as np

prices = [1096.95, 596.95, 896.95]
TWD_ExchangeRate = 31.71

USD_prices = np.array(prices)
TWD_prices = USD_prices * TWD_ExchangeRate

print(f"台幣價格為: {TWD_prices}")


台幣價格為: [34784.2845 18929.2845 28442.2845]


哦哦, 傑克, 這太神奇了!

## 2. 其實 array 還有很多功能

### 【練習】 成績計算

一位老師成績這樣算的:

* 平時成績 20%
* 期中考   35%
* 期未考   45%

有位同學

* 平時成績 85 分
* 期中 70 分
* 期末 80 分

這位同學的學期成績是多少?

In [17]:
grades = np.array([85,70,80])
weights = np.array([0.2, 0.35, 0.45])

這還不是我們要的最終成績啊!

array([17. , 24.5, 36. ])

### 【提示】 array 還有很多函數可以用

可以先打入

    weighted_grades.
    
先不要按 `enter` 或 `shift-enter`, 而是按 `tab`...


In [4]:
import numpy as np

grades = np.array([85, 70, 80])
weights = np.array([0.2, 0.35, 0.45])

result = np.dot(grades, weights)
print(f"學期成績: {result}")

學期成績: 77.5


### 【技巧】 一行完成成績計算

In [5]:
import numpy as np

grades = np.array([85, 70, 80])
weights = np.array([0.2, 0.35, 0.45])

result = np.sum(grades * weights)
print(f"學期成績: {result}")

學期成績: 77.5


## 3. 重要的 array 大變身!

我們在數據分析, 常常要改 array 的型式。

### 【練習】 一個 50 個數字的 array

先想辦法、用亂數做出 50 個數字的 array, 叫做 A 好了。

In [6]:
import numpy as np

# 產生 50 個介於 0 到 100 的整數亂數
random_array = np.random.randint(0, 101, size=50)
print(f"random_array: {random_array}")

# 產生 50 個 0 到 1 之間的浮點亂數
float_array = np.random.rand(50)
print(f"float_array: {float_array}")

random_array: [ 86  98   1  86  98  69  88  45   1  41  33  56  82  22  66  89  85  13
  46   6  44  74   8  15  27  56  89  46  54   0  71  47  66  49  60  94
 100   6  54  50  79  30  83  31  45  21  25  28  59  67]
float_array: [0.5510754  0.23188913 0.17071446 0.68382165 0.56889083 0.66780154
 0.92186873 0.67036017 0.82395953 0.32431    0.06740179 0.65099833
 0.23435067 0.18513193 0.62184397 0.11417146 0.038531   0.92764984
 0.80331586 0.15949528 0.611954   0.6520041  0.23078384 0.10740319
 0.21866301 0.34930691 0.50809242 0.45421996 0.1332643  0.01452537
 0.52354089 0.4500186  0.34982834 0.75200667 0.89737342 0.86579398
 0.02563666 0.34198452 0.23331686 0.30296688 0.08453778 0.86130151
 0.43852902 0.89142386 0.99134717 0.18956879 0.70307262 0.81949149
 0.05908994 0.81657256]


### 【技巧】 檢查 A 的 `shape`

In [8]:
Shape = float_array.shape
print(f"維度形狀: {Shape}")

維度形狀: (50,)


### 【技巧】 更改 A 的 shape

In [9]:
row = 5
column = 10
float_array.shape = (row,column)

print(float_array)
Shape = float_array.shape
print(f"新維度形狀: {Shape}")

[[0.5510754  0.23188913 0.17071446 0.68382165 0.56889083 0.66780154
  0.92186873 0.67036017 0.82395953 0.32431   ]
 [0.06740179 0.65099833 0.23435067 0.18513193 0.62184397 0.11417146
  0.038531   0.92764984 0.80331586 0.15949528]
 [0.611954   0.6520041  0.23078384 0.10740319 0.21866301 0.34930691
  0.50809242 0.45421996 0.1332643  0.01452537]
 [0.52354089 0.4500186  0.34982834 0.75200667 0.89737342 0.86579398
  0.02563666 0.34198452 0.23331686 0.30296688]
 [0.08453778 0.86130151 0.43852902 0.89142386 0.99134717 0.18956879
  0.70307262 0.81949149 0.05908994 0.81657256]]
新維度形狀: (5, 10)


### 【技巧】 也可以用 `reshape`

但要注意, reshape 並沒有改原來的陣列。

In [10]:
print(f"Reshape維度形狀: {float_array.reshape(row,column).shape}")

Reshape維度形狀: (5, 10)


### 【技巧】 拉平 `ravel`

雖然你想一想就知道可以用 `shape` 或 `reshape` 把多維陣列拉成一維。不過用 `ravel` 很潮。

In [11]:
# 拉平為一維陣列(ravel)
print(f"float_array after ravel: {float_array}")
print(f"Reshape維度形狀: {float_array.ravel().shape}")

float_array after ravel: [[0.5510754  0.23188913 0.17071446 0.68382165 0.56889083 0.66780154
  0.92186873 0.67036017 0.82395953 0.32431   ]
 [0.06740179 0.65099833 0.23435067 0.18513193 0.62184397 0.11417146
  0.038531   0.92764984 0.80331586 0.15949528]
 [0.611954   0.6520041  0.23078384 0.10740319 0.21866301 0.34930691
  0.50809242 0.45421996 0.1332643  0.01452537]
 [0.52354089 0.4500186  0.34982834 0.75200667 0.89737342 0.86579398
  0.02563666 0.34198452 0.23331686 0.30296688]
 [0.08453778 0.86130151 0.43852902 0.89142386 0.99134717 0.18956879
  0.70307262 0.81949149 0.05908994 0.81657256]]
Reshape維度形狀: (50,)


## 4. 快速 array 生成法

### 【技巧】 都是 0 的 array

In [12]:
row = 5
column = 10

# 快速生成都是0的陣列
ZeroArray = np.zeros((row,column))
print(f"這是{row}x{column}的ZeroArray: {ZeroArray}")

這是5x10的ZeroArray: [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]


### 【技巧】 都是 1 的 array

In [13]:
row = 3
column = 4

# 快速生成都是1的陣列
OnesArray = np.ones((row,column))
print(f"這是{row}x{column}的OnesArray: {OnesArray}")

這是3x4的OnesArray: [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


### 【技巧】單位矩陣

In [16]:
# np.eye(N, M=None, k=0, dtype=float)
# N：矩陣的列數（rows）
# M：矩陣的欄數（columns），預設與 N 相同，形成方陣
# k：對角線的偏移量（預設為 0）
# k=0：主對角線
# k>0：上方對角線
# k<0：下方對角線
# dtype：資料型別（例如 int, float）

# 建立 3x3 的單位矩陣
# np.eye(3)
print(f"建立 3x3 的單位矩陣:\n {np.eye(3)}")
# 建立 3x4 的矩陣，主對角線偏移到上方一格
# np.eye(3, 4, k=1)
print(f"建立 3x4 的矩陣，主對角線偏移到上方一格:\n {np.eye(3, 4, k=1)}")

建立 3x3 的單位矩陣:
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
建立 3x4 的矩陣，主對角線偏移到上方一格:
 [[0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


### 【技巧】給定範圍均勻生出 n 個點

In [17]:
#建立等差數列
# np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

# start：起始值
# stop：終止值
# num：要產生的數值個數（預設是 50）
# endpoint：是否包含終止值 stop（預設為 True）
# retstep：是否回傳間距（如果設為 True，會回傳 (array, step)）
# dtype：資料型別（例如 float, int）

# 建立從 0 到 10 個數 = 100 的等差數列
Start = 0
Stop = 10
N = 100
ArithmeticSequenceArray = np.linspace(Start, Stop, N)
print(f"從0到10, 個數=100 的等差數列:\n {ArithmeticSequenceArray}")

從0到10, 個數=100 的等差數列:
 [ 0.          0.1010101   0.2020202   0.3030303   0.4040404   0.50505051
  0.60606061  0.70707071  0.80808081  0.90909091  1.01010101  1.11111111
  1.21212121  1.31313131  1.41414141  1.51515152  1.61616162  1.71717172
  1.81818182  1.91919192  2.02020202  2.12121212  2.22222222  2.32323232
  2.42424242  2.52525253  2.62626263  2.72727273  2.82828283  2.92929293
  3.03030303  3.13131313  3.23232323  3.33333333  3.43434343  3.53535354
  3.63636364  3.73737374  3.83838384  3.93939394  4.04040404  4.14141414
  4.24242424  4.34343434  4.44444444  4.54545455  4.64646465  4.74747475
  4.84848485  4.94949495  5.05050505  5.15151515  5.25252525  5.35353535
  5.45454545  5.55555556  5.65656566  5.75757576  5.85858586  5.95959596
  6.06060606  6.16161616  6.26262626  6.36363636  6.46464646  6.56565657
  6.66666667  6.76767677  6.86868687  6.96969697  7.07070707  7.17171717
  7.27272727  7.37373737  7.47474747  7.57575758  7.67676768  7.77777778
  7.87878788  7.97979798  8.0

### 【技巧】`range` 的 array 版

就是 `arange`。

In [18]:
# np.arange() 是 NumPy 中用來建立等差數列的函數，功能類似 Python 的內建 range()，
# 但它可以產生 浮點數，並回傳的是 NumPy 陣列，非常適合用在數值計算、資料分析、繪圖等場景。

# np.arange([start,] stop[, step], dtype=None)
# start：起始值（預設為 0）
# stop：終止值（不包含這個值）
# step：步長（預設為 1）
# dtype：資料型別（例如 int, float）

# 建立從 0 到 9 的整數陣列
print(np.arange(10))
# 從 2 到 10，每隔 2 個數字
print(np.arange(2, 10, 2))
# 建立浮點數序列
print(np.arange(0, 1, 0.2))


# 函數	        控制方式	         是否包含終點	    適合用途
#--------------------------------------------------------------
# np.arange	    控制「步長」	     不包含終點	    精確控制間距
# np.linspace	控制「點的數量」	 可選擇包含終點	精確控制點的個數

[0 1 2 3 4 5 6 7 8 9]
[2 4 6 8]
[0.  0.2 0.4 0.6 0.8]


## 5. 超重要 `axis` 觀念

初學 `numpy` 很多人有點弄不清楚 `axis` 概念。其實掌握矩陣, 或很像矩陣的陣列都是「先列後行」就可以!

我們先弄個 array 來練習。

### 【重點】 一列一列算下來是 `axis=0`

![axis=0](images/axis0.png)

### 【重點】 一行一行算過去是 `axis=1`

![axis=1](images/axis1.png)

### 【提示】當然也有可能全部算

In [20]:
# 建立一個 3x4 的陣列
a = np.arange(12).reshape(3, 4)
print(a)
AllSum = np.sum(a)          # 結果是 66（全部加總）
print(f"全部加總: {AllSum}")
RowSum = np.sum(a, axis=0) # 結果是 [12 15 18 21]（By column加總）
print(f"每一row加總（By column加總）: {RowSum}")
ColumnSum = np.sum(a, axis=1)  # 結果是 [ 6 22 38]（By row加總）
print(f"每一column加總（By row加總）: {ColumnSum}")


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
全部加總: 66
每一row加總（By column加總）: [12 15 18 21]
每一column加總（By row加總）: [ 6 22 38]


## 6. array 過濾器

篩出我們要的資料, 這樣的技巧非常重要!

### 【例子】篩出大於 0 的數

我們有個陣列, 想找出大於 0 的數。<br>
L = np.array([3, -2, -1, 5, 7, -3])

In [55]:
L = np.array([3, -2, -1, 5, 7, -3])

我們可以很白痴的自己判斷...<br>
c = np.array([True,False,False,True,True,False])

In [21]:
# 在 NumPy 中，過濾器（或稱布林索引）是一種非常強大的工具，
# 可以用來從陣列中選出符合條件的元素。

# 篩選陣列中所有 > 0 的值
# 建立一個 NumPy 陣列
SampleArr = np.array([-3, 0, 2, 5, -1, 7])
# 使用布林條件建立過濾器
filter = SampleArr > 0
# 套用過濾器
PositiveNumber = SampleArr[filter]
print(f"範例陣列中的正數為: {PositiveNumber}")  

範例陣列中的正數為: [2 5 7]


這是做啥呢? 我們可以瞬間...

除了自己做很白痴, 這看來很厲害!

事實上我們可以叫 `numpy` 做!

這有點強, 我們還可以一次到位!

## 7. 次元切割刀

`numpy` 中 array 的切割法和 list 很像。

### 【技巧】2維陣列切法

記得先列後行!

要所有的row, 切出行 1-3 位置。

要所有的行col, 切出第 1 列row!

In [2]:
import numpy as np

# 1. 基本切割：array[start:stop:step]
# 適用於一維或多維陣列。
# start：起始索引（包含）
# stop：結束索引（不包含）
# step：步長（可省略）
a = np.array([10, 20, 30, 40, 50])
print(a[1:4])       # [20 30 40]
print(a[::2])       # [10 30 50]

# 2. 多維陣列切割：使用逗號分隔各維度
# 語法結構 b[行索引, 列索引]
# 0:2 - 行索引範圍
# 從索引 0 開始（第1行）
# 到索引 2 之前結束（不包含第3行）
# 所以選取第1行和第2行
# --------------------
# 1: - 列索引範圍
# 從索引 1 開始（第2列）
# 到結尾（沒有指定結束位置）
# 所以選取第2列和之後的所有列

b = np.arange(1,10).reshape(3,3)
# b = np.array([[1, 2, 3],
#               [4, 5, 6],
#               [7, 8, 9]])
print(b[0:2, 1:])   # [[2 3]
                   #  [5 6]]
print(b[0:2, 0:2])   # [[1 2]   前兩行，前兩列
                     #  [4 5]]

print(b[:, 1])       # [2 5 8]  所有行，第1列

print(b[1:, :2])     # [[4 5]   從第1行開始，前兩列
                     #  [7 8]]
####################################################
# 選取方式是範圍,非元素本身,有點像snipping tool
####################################################
# 3. 使用 : 取得整個維度
print(b[:, 1])      # 第二欄所有值 → [2 5 8]
print(b[1, :])      # 第二列所有值 → [4 5 6]

[20 30 40]
[10 30 50]
[[2 3]
 [5 6]]
[[1 2]
 [4 5]]
[2 5 8]
[[4 5]
 [7 8]]
[2 5 8]
[4 5 6]


## 8. `NumPy` 的 `zip` 和 `unzip`

之前我們介紹 list 可以用 `zip` 和 `unzip` (其實還是 `zip`) 做到的資料格式變換, 在 array 中怎麼做呢?

![zip and unzip](images/zip.png)

### 【重點】array 的 `zip`

![array zip](images/arrzip.png)

In [72]:
x = np.array([1,2,3,4])
y = np.array([5,6,7,8])

In [4]:
# "拼接"一維陣列
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
result = np.r_[a, b]
print(result)
# Output: array([1, 2, 3, 4, 5])

# "建立"連續數列（類似 arange）
seq = np.r_[0:5:1]
print(seq)
# Output: array([0, 1, 2, 3, 4])

[1 2 3 4 5 6 7 8]
[0 1 2 3 4]


### 【重點】array 的 `unzip`

這裡其實只需要用到 array 的切割法...

![array zip](images/arrunzip.png)

In [7]:
print(a[0:])   

[1 2 3 4]
