# 過度擬合

## 目標
在本實驗中，你將探索：
- 過度擬合（overfitting）可能發生的情境
- 一些常見的解決方法

In [None]:
import sys, os
import numpy as np
from pathlib import Path

try:
    %matplotlib widget
except:
    %matplotlib inline
    print("Colab not support matplotlib widget")
import matplotlib.pyplot as plt
from ipywidgets import Output

#region load data
def find_repo_root(marker="README.md"):
    cur = Path.cwd()
    while cur != cur.parent:  # 防止無限迴圈，到達檔案系統根目錄就停
        if (cur / marker).exists():
            return cur
        cur = cur.parent
    return None


def import_data_from_github():
    import os, urllib.request, pathlib, shutil
    
    def isRunningInColab() -> bool:
        return "google.colab" in sys.modules

    def isRunningInJupyterLab() -> bool:
        try:
            import jupyterlab
            return True
        except ImportError:
            return False
        
    def detect_env():
        from IPython import get_ipython
        if isRunningInColab():
            return "Colab"
        elif isRunningInJupyterLab():
            return "JupyterLab"
        elif "notebook" in str(type(get_ipython())).lower():
            return "Jupyter Notebook"
        else:
            return "Unknown"
        
    def get_utils_dir(env): 
        if env == "Colab": 
            if "/content" not in sys.path:
                sys.path.insert(0, "/content")
            return "/content/utils"
        else:
            return Path.cwd() / "utils"

    env = detect_env()
    UTILS_DIR = get_utils_dir(env)
    REPO_DIR = "Machine-Learning-Lab"

    #shutil.rmtree(UTILS_DIR, ignore_errors=True)
    os.makedirs(UTILS_DIR, exist_ok=True)

    BASE = f"https://raw.githubusercontent.com/mz038197/{REPO_DIR}/main"
    urllib.request.urlretrieve(f"{BASE}/utils/plt_overfit.py", f"{UTILS_DIR}/plt_overfit.py")
    urllib.request.urlretrieve(f"{BASE}/utils/lab_utils_common_classification.py", f"{UTILS_DIR}/lab_utils_common_classification.py")
    urllib.request.urlretrieve(f"{BASE}/utils/deeplearning.mplstyle", f"{UTILS_DIR}/deeplearning.mplstyle")


repo_root = find_repo_root()

if repo_root is None:
    import_data_from_github()
    repo_root = Path.cwd()
    

os.chdir(repo_root)
print(f"✅ 切換工作目錄至 {Path.cwd()}")
sys.path.append(str(repo_root)) if str(repo_root) not in sys.path else None
print(f"✅ 加入到系統路徑")

from utils.plt_overfit import overfit_example, output

plt.style.use('utils/deeplearning.mplstyle')
print("✅ 匯入模組及設定繪圖樣式")
#endregion


<br>

# 過度擬合
本週課程介紹了過度擬合可能出現的情況。請執行下方的程式碼儲存格以產生互動式圖表，讓你實際探索過度擬合；更多操作說明在圖表下方。

In [None]:
plt.close("all")
display(output)
ofit = overfit_example(False)

在上方圖表中，你可以：
- 在 Regression 與 Categorization 範例之間切換
- 新增資料點
- 選擇模型的多項式階數（degree）
- 將模型擬合到資料上  

你可以嘗試以下操作：
- 使用 degree = 1 來擬合資料，觀察「欠擬合（underfitting）」
- 使用 degree = 6 來擬合資料，觀察「過度擬合（overfitting）」
- 調整 degree，找出「最佳擬合（best fit）」
- 新增資料點：
    - 若新增的是極端值（可能是離群值 outliers），可能會加劇過度擬合
    - 若新增的是一般／代表性資料點，可能有助於減少過度擬合
- 在 `Regression` 與 `Categorical` 之間切換，兩種範例都試試看。

若要重置圖表，請重新執行該程式碼儲存格。請放慢點擊速度，讓圖表有時間更新，再進行下一次點擊。

實作備註：
- 圖中的「理想曲線」代表資料生成（generator）模型；資料集是由理想模型加入雜訊（noise）後得到
- 為了加快速度，這裡的 `fit` 並未使用純粹的梯度下降（gradient descent）來改善參數；這些方法可用在較小的資料集上

## 恭喜！
你已建立一些關於過度擬合成因與解法的直覺。下一個實驗將探討一個非常常見的解法：正則化（Regularization）。