In [None]:
%%capture
%pip install wget

In [None]:
import wget
wget.download("https://github.com/roberthsu2003/machine_learning/raw/refs/heads/main/source_data/ChineseFont.ttf")

# numpy在機器學習中,常用的操作方式

NumPy (Numerical Python) 是 Python 語言的一個擴充程式庫，支援高階大量的維度陣列與矩陣運算，此外也針對陣列運算提供大量的數學函式庫。在機器學習領域，NumPy 被廣泛用於數據處理、特徵工程以及演算法實現。本章節將介紹數個 NumPy 在機器學習中常用的操作方式與數據集範例，並結合 Scikit-learn 的數據集或 Kaggle 數據集，以及 Matplotlib 進行視覺化。

## Matplotlib使用中文字型

為了在 Matplotlib 圖表中正確顯示中文，我們需要下載並設定中文字型。以下程式碼會下載 'ChineseFont.ttf' 並設定 Matplotlib 的全域字型參數。

In [None]:
%pip install wget

import wget
wget.download("https://github.com/roberthsu2003/machine_learning/raw/refs/heads/main/source_data/ChineseFont.ttf")

import matplotlib as mpl
from matplotlib.font_manager import fontManager

fontManager.addfont("ChineseFont.ttf")
mpl.rc('font', family="ChineseFont")

## 範例：Forge 數據集 (mglearn)

`make_forge` 是 `mglearn` 套件中一個用於產生小型合成二元分類數據集的函式。這個數據集包含兩個特徵，通常用於視覺化分類演算法的決策邊界。

- **用途**：主要用於教學和視覺化，展示分類問題的基本概念。
- **特點**：數據點少，特徵維度低 (2D)，方便繪製散佈圖。

### forge(真偽數據集)

- two-class classification(2個種類的分類)

## 使用mglearn產生的圖表

In [None]:
import mglearn
import matplotlib.pyplot as plt
import matplotlib as mpl
from matplotlib.font_manager import fontManager

# 設定中文字型
try:
    fontManager.addfont("ChineseFont.ttf")
    mpl.rc('font', family="ChineseFont")
except Exception as e:
    print(f"中文字型設定失敗: {e}")

X, y = mglearn.datasets.make_forge()
#print(X, y)
mglearn.discrete_scatter(X[:,0],X[:,1],y)
plt.legend(["類別 0", "類別 1"], loc=4)
plt.xlabel("第一個特徵")
plt.ylabel("第二個特徵")
plt.title("Forge 數據集散佈圖 (mglearn)")
print("X.shape:{}".format(X.shape))

## 使用matplotlib產生的圖表

In [None]:
import mglearn
import matplotlib.pyplot as plt
import numpy as np
import matplotlib as mpl
from matplotlib.font_manager import fontManager

# 設定中文字型
try:
    fontManager.addfont("ChineseFont.ttf")
    mpl.rc('font', family="ChineseFont")
except Exception as e:
    print(f"中文字型設定失敗: {e}")

# Generate the dataset
X, y = mglearn.datasets.make_forge()

# Separate data points by class
class_0_indices = np.where(y == 0)
class_1_indices = np.where(y == 1)

#print(class_0_indices)

X_class_0 = X[class_0_indices]
X_class_1 = X[class_1_indices]

# Create the scatter plot using plt.scatter
plt.scatter(X_class_0[:, 0], X_class_0[:, 1], label="類別 0", marker='o', s=70)
plt.scatter(X_class_1[:, 0], X_class_1[:, 1], label="類別 1", marker='^', s=70)

# Add labels and legend
plt.xlabel("第一個特徵")
plt.ylabel("第二個特徵")
plt.title("Forge 數據集散佈圖 (Matplotlib)")
plt.legend(loc=4)  # Lower right corner

# Display the plot
plt.show()

print("X.shape:{}".format(X.shape))

## 範例：Wave 數據集 (mglearn)

`make_wave` 是 `mglearn` 套件中用於產生小型合成迴歸數據集的函式。這個數據集通常包含一個輸入特徵和一個目標變數，用於視覺化迴歸演算法的擬合情況。

- **用途**：主要用於教學和視覺化，展示迴歸問題的基本概念。
- **特點**：數據點少，通常只有一個輸入特徵，方便繪製 2D 圖形。

## Wave

- regression 迴歸的演算法
- X:1個feature
- y:1個label

In [None]:
import mglearn # mglearn 已經在前面 import 過，但為了儲存格獨立性可保留
import matplotlib.pyplot as plt
import matplotlib as mpl
from matplotlib.font_manager import fontManager

# 設定中文字型
try:
    fontManager.addfont("ChineseFont.ttf")
    mpl.rc('font', family="ChineseFont")
except Exception as e:
    print(f"中文字型設定失敗: {e}")

X, y = mglearn.datasets.make_wave(n_samples=40)
plt.plot(X, y, 'o')
plt.ylim(-3, 3)
plt.xlabel("特徵")
plt.ylabel("目標")
plt.title("Wave 數據集")
plt.show()

## 範例：威斯康辛州乳癌數據集 (Scikit-learn)

`load_breast_cancer` 是 Scikit-learn 提供的一個經典的真實世界二元分類數據集。它包含了從乳腺腫塊細針穿刺 (FNA) 數位化影像中計算出的特徵，目標是預測腫瘤是惡性 (malignant) 還是良性 (benign)。

- **用途**：常用於測試和比較各種分類演算法的性能。
- **特點**：
    - 包含 30 個數值型特徵。
    - 兩個類別：惡性 (malignant) 和良性 (benign)。
    - 數據相對乾淨，不需要太多預處理。

### Wisconsin Breast Cancer dataset(威斯康辛州乳癌資料集)

In [None]:
from sklearn.datasets import load_breast_cancer
import numpy as np # np.bincount 需要 numpy

cancer = load_breast_cancer()
print("cancer.keys():\n{}".format(cancer.keys()))
print("Shape of cancer data:{}".format(cancer.data.shape))
print("Sample counts per class:\n{}".format(
    {n:v for n, v in zip(cancer.target_names, np.bincount(cancer.target))}
))
print("Feature names:\n{}".format(cancer.feature_names))

## 範例：加州房價數據集 (Scikit-learn) 與 Ames 房價數據集 (OpenML)

這兩個都是常用於迴歸分析的房價預測數據集。

### 加州房價數據集 (`fetch_california_housing`)
- **來源**：基於1990年加州人口普查數據。
- **目標**：預測加州各區域的房價中位數。
- **特徵**：包含收入中位數、房屋年齡中位數、平均房間數、平均臥室數、區域人口、平均入住率、緯度、經度等。

### Ames 房價數據集 (`fetch_openml(name="house_prices")`)
- **來源**：愛荷華州艾姆斯市的房產銷售數據 (2006-2010年)。
- **目標**：預測房屋的最終售價。
- **特徵**：非常豐富，包含約80個特徵，涵蓋房屋的各種屬性，如地段、大小、建築年份、房間數量、設施質量、外部條件等，包含數值型和類別型特徵。
- **注意**：透過 `fetch_openml` 獲取，可能需要網路連線。

## california

In [None]:
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing()
print(f"California housing data shape: {housing.data.shape}")

# Example of loading the Ames housing dataset:
from sklearn.datasets import fetch_openml
housing_ames = fetch_openml(name="house_prices", as_frame=True, parser='auto') 
print(f"Ames housing data shape: {housing_ames.data.shape}")

## 範例1：NumPy 陣列的建立與基本操作，並使用 Matplotlib 繪圖

這個範例展示如何使用 NumPy 建立陣列、進行基本操作，並使用 Matplotlib 繪製一個簡單的函數圖形。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
from matplotlib.font_manager import fontManager

# 設定中文字型 (雖然前面有全域設定，但為了儲存格獨立執行性，可再次設定)
try:
    fontManager.addfont("ChineseFont.ttf")
    mpl.rc('font', family="ChineseFont")
except Exception as e:
    print(f"中文字型設定失敗: {e}")

# 1. 建立 NumPy 陣列
# 從 Python 列表建立
arr1 = np.array([1, 2, 3, 4, 5])
print("從列表建立的陣列 arr1:", arr1)

# 建立一個等差序列
arr2 = np.arange(0, 10, 2) # 從 0 開始，到 10 結束 (不包含10)，間隔為 2
print("等差序列 arr2:", arr2)

# 建立一個全為 0 的陣列
arr_zeros = np.zeros((2, 3)) # 2x3 的零矩陣
print("全為 0 的陣列 arr_zeros:\n", arr_zeros)

# 建立一個全為 1 的陣列
arr_ones = np.ones((3, 2)) # 3x2 的一矩陣
print("全為 1 的陣列 arr_ones:\n", arr_ones)

# 建立一個單位矩陣
arr_eye = np.eye(3) # 3x3 的單位矩陣
print("單位矩陣 arr_eye:\n", arr_eye)

# 建立隨機陣列
arr_random = np.random.rand(2, 2) # 2x2 的隨機矩陣 (0到1之間)
print("隨機陣列 arr_random:\n", arr_random)

# 2. 陣列基本操作
print("\n陣列基本操作:")
print("arr1 + 5 =", arr1 + 5)
print("arr1 * 2 =", arr1 * 2)
print("arr1 的平方 =", arr1 ** 2)
print("arr1 和 arr2 (長度需相同或可廣播) 的和:", np.array([1,3,5,7,9]) + arr2) # 假設長度相同

# 3. 使用 Matplotlib 繪製函數圖形
x = np.linspace(-np.pi, np.pi, 100) # 在 -pi 到 pi 之間產生 100 個點
y_sin = np.sin(x)
y_cos = np.cos(x)

plt.figure(figsize=(8, 5))
plt.plot(x, y_sin, label='sin(x)')
plt.plot(x, y_cos, label='cos(x)')
plt.title('sin(x) 與 cos(x) 函數圖形')
plt.xlabel('x 軸')
plt.ylabel('y 軸')
plt.legend()
plt.grid(True)
plt.show()

## 範例2：使用 Scikit-learn 的 Iris 數據集進行數據選擇與切片

這個範例將載入 Scikit-learn 內建的 Iris (鳶尾花) 數據集，並使用 NumPy 的索引和切片功能來選擇數據的子集，最後使用 Matplotlib 視覺化不同類別鳶尾花的特徵分佈。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
import matplotlib as mpl
from matplotlib.font_manager import fontManager

# 設定中文字型
try:
    fontManager.addfont("ChineseFont.ttf")
    mpl.rc('font', family="ChineseFont")
except Exception as e:
    print(f"中文字型設定失敗: {e}")

# 1. 載入 Iris 數據集
iris = load_iris()
X = iris.data # 特徵數據 (Numpy array)
y = iris.target # 目標變數 (Numpy array)
feature_names = iris.feature_names
target_names = iris.target_names

print("特徵數據 X 的前5筆:\n", X[:5])
print("目標變數 y 的前5筆:", y[:5])
print("特徵名稱:", feature_names)
print("類別名稱:", target_names)

# 2. NumPy 數據選擇與切片
# 選擇第一個特徵 (花萼長度 sepal length) 和第三個特徵 (花瓣長度 petal length)
X_selected_features = X[:, [0, 2]]
print("\n選擇花萼長度和花瓣長度的前5筆數據:\n", X_selected_features[:5])

# 選擇屬於類別 0 (setosa) 的所有數據
X_setosa = X[y == 0]
print("\n屬於 setosa 類別的前5筆數據:\n", X_setosa[:5])

# 選擇花瓣長度 (第三個特徵) 大於 5.0 的數據
X_petal_length_gt_5 = X[X[:, 2] > 5.0]
print("\n花瓣長度大於 5.0 的前5筆數據:\n", X_petal_length_gt_5[:5] if X_petal_length_gt_5.shape[0] > 0 else "無符合條件的數據")

# 3. 使用 Matplotlib 視覺化特徵分佈 (花萼長度 vs 花瓣長度)
plt.figure(figsize=(10, 6))
colors = ['navy', 'turquoise', 'darkorange']

for i, color, target_name in zip(range(len(target_names)), colors, target_names):
    plt.scatter(X[y == i, 0], X[y == i, 2], color=color, alpha=.8, lw=2,
                label=target_name)

plt.title('Iris 數據集：花萼長度 vs 花瓣長度')
plt.xlabel(feature_names[0]) # feature_names 本身是英文，若要改中文需手動對應
plt.ylabel(feature_names[2]) # 例如：plt.xlabel('花萼長度 (cm)')
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.grid(True)
plt.show()

## 範例3：使用 Kaggle 薪資數據集進行基本統計與視覺化

這個範例將使用一個常見的 Kaggle 數據集 `Salary_Data.csv` (假設已存在於 `source_data/Salary_Data.csv`)。我們將用 NumPy 讀取數據 (雖然 Pandas 更常用於 CSV，這裡為了演示 NumPy 的能力，會用 `np.genfromtxt` 或手動處理)，進行基本的統計分析，並用 Matplotlib 繪製年資與薪資的散佈圖。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import csv # 用於讀取 CSV
import matplotlib as mpl
from matplotlib.font_manager import fontManager

# 設定中文字型
try:
    fontManager.addfont("ChineseFont.ttf")
    mpl.rc('font', family="ChineseFont")
except Exception as e:
    print(f"中文字型設定失敗: {e}")

# 數據集路徑
file_path = 'source_data/Salary_Data.csv'

# 1. 使用 NumPy (或 csv 模組輔助) 讀取 CSV 數據
# Pandas 是更專業的CSV處理工具，但這裡為了展示NumPy，我們用 genfromtxt
# genfromtxt 對於有表頭的 CSV 處理較為繁瑣，這裡我們跳過表頭
try:
    # delimiter=',' 指定分隔符為逗號
    # skip_header=1 跳過第一行表頭
    # filling_values=np.nan 如果有缺失值，用nan填充
    data = np.genfromtxt(file_path, delimiter=',', skip_header=1, filling_values=np.nan)
    
    # 檢查是否有成功讀取數據
    if data.ndim == 1 and data.shape[0] == 0: # 如果是空的一維陣列
        print(f"使用 np.genfromtxt 讀取 '{file_path}' 失敗或檔案為空/格式不符，嘗試手動讀取。")
        raise ValueError("genfromtxt failed")
        
    years_experience = data[:, 0]
    salary = data[:, 1]
    print(f"成功使用 np.genfromtxt 從 '{file_path}' 讀取數據。")

except (IOError, ValueError) as e:
    print(f"讀取 '{file_path}' 發生錯誤: {e}。嘗試手動讀取...")
    years_experience_list = []
    salary_list = []
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            reader = csv.reader(f)
            next(reader) # 跳過表頭
            for row in reader:
                try:
                    years_experience_list.append(float(row[0]))
                    salary_list.append(float(row[1]))
                except ValueError:
                    print(f"警告: 跳過無法轉換的行: {row}")
                    continue
        years_experience = np.array(years_experience_list)
        salary = np.array(salary_list)
        if years_experience.size == 0:
            print(f"手動讀取後 '{file_path}' 數據仍然為空。請檢查檔案內容和路徑。")
            # 產生一些假數據以繼續範例
            years_experience = np.array([1.1, 1.3, 1.5, 2.0, 2.2, 2.9, 3.0, 3.2, 3.2, 3.7])
            salary = np.array([39343.00, 46205.00, 37731.00, 43525.00, 39891.00, 56642.00, 60150.00, 54445.00, 64445.00, 57189.00])
            print("已產生範例數據以繼續執行。")
        else:
            print(f"成功手動從 '{file_path}' 讀取數據。")
    except Exception as e_manual:
        print(f"手動讀取 '{file_path}' 也失敗: {e_manual}。請檢查檔案是否存在且格式正確。")
        # 產生一些假數據以繼續範例
        years_experience = np.array([1.1, 1.3, 1.5, 2.0, 2.2, 2.9, 3.0, 3.2, 3.2, 3.7])
        salary = np.array([39343.00, 46205.00, 37731.00, 43525.00, 39891.00, 56642.00, 60150.00, 54445.00, 64445.00, 57189.00])
        print("已產生範例數據以繼續執行。")

print("\n年資 (YearsExperience) 前5筆:", years_experience[:5])
print("薪資 (Salary) 前5筆:", salary[:5])

# 2. NumPy 基本統計分析
if years_experience.size > 0 and salary.size > 0:
    print("\n基本統計分析:")
    print(f"平均年資: {np.mean(years_experience):.2f} 年")
    print(f"年資中位數: {np.median(years_experience):.2f} 年")
    print(f"年資標準差: {np.std(years_experience):.2f} 年")
    print(f"最高年資: {np.max(years_experience):.2f} 年")
    print(f"最低年資: {np.min(years_experience):.2f} 年")

    print(f"\n平均薪資: {np.mean(salary):.2f}")
    print(f"薪資中位數: {np.median(salary):.2f}")
    print(f"薪資標準差: {np.std(salary):.2f}")
    print(f"最高薪資: {np.max(salary):.2f}")
    print(f"最低薪資: {np.min(salary):.2f}")

    # 計算相關係數
    correlation_matrix = np.corrcoef(years_experience, salary)
    correlation = correlation_matrix[0, 1]
    print(f"\n年資與薪資的相關係數: {correlation:.3f}")
else:
    print("\n數據為空，無法進行統計分析。")

# 3. 使用 Matplotlib 繪製散佈圖
if years_experience.size > 0 and salary.size > 0:
    plt.figure(figsize=(10, 6))
    plt.scatter(years_experience, salary, color='blue', alpha=0.7, edgecolors='w', linewidth=0.5)
    plt.title('年資與薪資關係圖')
    plt.xlabel('年資 (年)')
    plt.ylabel('薪資')
    plt.grid(True)
    plt.show()
else:
    print("數據為空，無法繪製散佈圖。")

## 範例4：NumPy 的廣播 (Broadcasting) 機制

廣播是 NumPy 中一個強大的機制，它允許 NumPy 在執行算術運算時處理不同形狀的陣列。如果兩個陣列的維度不完全相同，NumPy 會自動「廣播」較小的陣列到較大的陣列，以便它們具有兼容的形狀。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
from matplotlib.font_manager import fontManager

# 設定中文字型
try:
    fontManager.addfont("ChineseFont.ttf")
    mpl.rc('font', family="ChineseFont")
except Exception as e:
    print(f"中文字型設定失敗: {e}")

# 範例 1: 純量與陣列的廣播
array_a = np.array([1.0, 2.0, 3.0])
scalar_b = 2.0
result_ab = array_a * scalar_b # scalar_b 被廣播到 [2.0, 2.0, 2.0]
print("純量與陣列的廣播:")
print(f"{array_a} * {scalar_b} = {result_ab}")

# 範例 2: 不同形狀陣列的廣播
array_c = np.array([[0, 0, 0],
                    [10, 10, 10],
                    [20, 20, 20],
                    [30, 30, 30]]) # 形狀 (4, 3)
array_d = np.array([0, 1, 2])      # 形狀 (3,) -> 被視為 (1, 3)
result_cd = array_c + array_d      # array_d 被廣播到 array_c 的每一行
print("\n不同形狀陣列的廣播:")
print(f"array_c (shape {array_c.shape}):\n{array_c}")
print(f"array_d (shape {array_d.shape}): {array_d}")
print(f"array_c + array_d (result shape {result_cd.shape}):\n{result_cd}")

# 範例 3: 更複雜的廣播，用於網格計算 (常用於繪圖)
x_coords = np.arange(0, 5)     # [0 1 2 3 4], shape (5,)
y_coords = np.arange(0, 3)[:, np.newaxis] # [[0][1][2]], shape (3,1)
                                         # np.newaxis 增加一個新維度

# x_coords 被廣播成:
# [[0 1 2 3 4]
#  [0 1 2 3 4]
#  [0 1 2 3 4]]
# y_coords 被廣播成:
# [[0 0 0 0 0]
#  [1 1 1 1 1]
#  [2 2 2 2 2]]
grid_sum = x_coords + y_coords
print("\n網格計算中的廣播:")
print(f"x_coords (shape {x_coords.shape}): {x_coords}")
print(f"y_coords (shape {y_coords.shape}):\n{y_coords}")
print(f"x_coords + y_coords (result shape {grid_sum.shape}):\n{grid_sum}")

# 使用 Matplotlib 視覺化 grid_sum
plt.figure(figsize=(6,4))
plt.imshow(grid_sum, cmap='viridis', interpolation='nearest', origin='lower')
plt.colorbar(label='值 (Value)')
plt.xticks(ticks=np.arange(x_coords.size), labels=x_coords)
plt.yticks(ticks=np.arange(y_coords.size), labels=y_coords.flatten())
plt.xlabel('X 座標索引')
plt.ylabel('Y 座標索引')
plt.title('廣播機制計算的網格和')
plt.show()

## 範例5：NumPy 線性代數運算與 Scikit-learn 線性迴歸

NumPy 提供了強大的線性代數功能 (`numpy.linalg`)。這個範例將展示如何使用 NumPy 進行矩陣乘法，並結合 Scikit-learn 的線性迴歸模型，對簡單數據進行擬合，最後用 Matplotlib 繪製數據點和迴歸線。我們將使用範例3中的薪資數據 (如果成功載入)。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
import matplotlib as mpl
from matplotlib.font_manager import fontManager
import csv

# 設定中文字型
try:
    fontManager.addfont("ChineseFont.ttf")
    mpl.rc('font', family="ChineseFont")
except Exception as e:
    print(f"中文字型設定失敗: {e}")

# 1. 準備數據 (沿用範例3的薪資數據)
file_path = 'source_data/Salary_Data.csv'
try:
    data = np.genfromtxt(file_path, delimiter=',', skip_header=1, filling_values=np.nan)
    if data.ndim == 1 and data.shape[0] == 0: raise ValueError("genfromtxt failed")
    X_salary = data[:, 0].reshape(-1, 1) # 年資 (特徵)，需要是 2D array
    y_salary = data[:, 1]                # 薪資 (目標)
    print(f"成功從 '{file_path}' 讀取薪資數據。")
except (IOError, ValueError):
    print(f"讀取薪資數據 '{file_path}' 失敗，將使用範例數據。")
    # 如果 Salary_Data.csv 不可用，使用一些簡單的線性相關數據
    rng = np.random.RandomState(1)
    X_salary = 10 * rng.rand(30, 1)
    y_salary = 2 * X_salary.flatten() + 1 + rng.randn(30) * 2 # y = 2x + 1 + noise

# 2. NumPy 矩陣運算 (簡單示例)
matrix_A = np.array([[1, 2], [3, 4]])
matrix_B = np.array([[5, 6], [7, 8]])

# 矩陣乘法
matrix_product_dot = np.dot(matrix_A, matrix_B)
matrix_product_matmul = matrix_A @ matrix_B # Python 3.5+
print("\nNumPy 矩陣乘法:")
print(f"Matrix A:\n{matrix_A}")
print(f"Matrix B:\n{matrix_B}")
print(f"A dot B:\n{matrix_product_dot}")
print(f"A @ B:\n{matrix_product_matmul}")

# 矩陣的轉置
transpose_A = matrix_A.T
print(f"\nMatrix A 的轉置:\n{transpose_A}")

# 矩陣的逆 (如果可逆)
try:
    inv_A = np.linalg.inv(matrix_A)
    print(f"\nMatrix A 的逆矩陣:\n{inv_A}")
    # 驗證: A @ inv_A 應該接近單位矩陣
    print(f"A @ inv_A:\n{matrix_A @ inv_A}")
except np.linalg.LinAlgError:
    print("\nMatrix A 不可逆。")

# 3. 使用 Scikit-learn 進行線性迴歸
if X_salary.size > 0 and y_salary.size > 0:
    model = LinearRegression()
    model.fit(X_salary, y_salary)

    # 獲取模型參數
    slope = model.coef_[0]
    intercept = model.intercept_
    print(f"\n線性迴歸模型:")
    print(f"斜率 (Coefficient): {slope:.2f}")
    print(f"截距 (Intercept): {intercept:.2f}")

    # 進行預測
    X_test_points = np.array([[0], [5], [10], [12]]) # 假設一些新的年資點
    y_pred = model.predict(X_test_points)
    print("\n對新的年資點進行預測:")
    for i in range(len(X_test_points)):
        print(f"年資 {X_test_points[i,0]} 年 -> 預測薪資: {y_pred[i]:.2f}")

    # 4. 使用 Matplotlib 視覺化數據點和迴歸線
    plt.figure(figsize=(10, 6))
    plt.scatter(X_salary, y_salary, color='blue', alpha=0.7, label='實際數據點', edgecolors='w', linewidth=0.5)
    
    # 繪製迴歸線
    x_fit = np.linspace(X_salary.min(), X_salary.max(), 100).reshape(-1, 1)
    y_fit = model.predict(x_fit)
    plt.plot(x_fit, y_fit, color='red', linewidth=2, label=f'迴歸線: y = {slope:.2f}x + {intercept:.2f}')
    
    plt.title('年資與薪資的線性迴歸分析')
    plt.xlabel('年資 (年)')
    plt.ylabel('薪資')
    plt.legend()
    plt.grid(True)
    plt.show()
else:
    print("\n薪資數據為空，無法進行線性迴歸分析。")

希望這些範例能幫助您和您的學生更好地理解 NumPy 在機器學習中的應用！