In [3]:
def simple_gradient_descent():
    # เริ่มที่ x=10 (ห่างจากคำตอบที่ถูกคือ x=0)
    x = 10
    learning_rate = 0.1  # ขนาดของการก้าว

    print("เริ่มการเดินทางลงจากภูเขา...")

    for step in range(20):
        # 1. คำนวณความชัน (gradient) ที่จุดปัจจุบัน
        # สำหรับ y = x^2, gradient = 2x
        gradient = 2 * x

        # 2. ก้าวไปในทิศตรงข้ามกับความชัน
        # ถ้าความชันเป็นบวก = ลาดขึ้น -> เราเดินลง
        x = x - learning_rate * gradient

        # 3. คำนวณค่า loss (ความสูงจากพื้น)
        loss = x ** 2

        print(f"Step {step+1} ตำแหน่ง x={x:.3f}, ความสูง={loss:.3f}")

        # ถ้าใกล้พื้นมากแล้ว (loss < 0.001) ให้หยุด
        if loss < 0.001:
            print("ถึงจุดต่ำสุดแล้ว!")
            break

    return x

final_position = simple_gradient_descent()

เริ่มการเดินทางลงจากภูเขา...
Step 1 ตำแหน่ง x=8.000, ความสูง=64.000
Step 2 ตำแหน่ง x=6.400, ความสูง=40.960
Step 3 ตำแหน่ง x=5.120, ความสูง=26.214
Step 4 ตำแหน่ง x=4.096, ความสูง=16.777
Step 5 ตำแหน่ง x=3.277, ความสูง=10.737
Step 6 ตำแหน่ง x=2.621, ความสูง=6.872
Step 7 ตำแหน่ง x=2.097, ความสูง=4.398
Step 8 ตำแหน่ง x=1.678, ความสูง=2.815
Step 9 ตำแหน่ง x=1.342, ความสูง=1.801
Step 10 ตำแหน่ง x=1.074, ความสูง=1.153
Step 11 ตำแหน่ง x=0.859, ความสูง=0.738
Step 12 ตำแหน่ง x=0.687, ความสูง=0.472
Step 13 ตำแหน่ง x=0.550, ความสูง=0.302
Step 14 ตำแหน่ง x=0.440, ความสูง=0.193
Step 15 ตำแหน่ง x=0.352, ความสูง=0.124
Step 16 ตำแหน่ง x=0.281, ความสูง=0.079
Step 17 ตำแหน่ง x=0.225, ความสูง=0.051
Step 18 ตำแหน่ง x=0.180, ความสูง=0.032
Step 19 ตำแหน่ง x=0.144, ความสูง=0.021
Step 20 ตำแหน่ง x=0.115, ความสูง=0.013


In [4]:
def problem_local_minima():
    import numpy as np

    # สร้าง loss function ที่มีหลายหลุม
    def complex_loss(x):
        return x**4 - 4*x**3 + 4*x**2 + x

    def complex_gradient(x):
        # Gradient ของ complex loss
        return 4*x**3 - 12*x**2 + 8*x + 1

    # ลองเริ่มจากหลายจุด
    starting_points = [-1, 0, 1, 3]
    results = []

    for start_x in starting_points:
        x = start_x
        lr = 0.01

        # Train 100 steps
        for _ in range(100):
            x = x - lr * complex_gradient(x)

        final_loss = complex_loss(x)
        results.append((start_x, x, final_loss))

        print(f"Start: x={start_x:4.1f} → End: x={x:6.3f}, Loss={final_loss:6.3f}")

    # หา global minimum
    best_result = min(results, key=lambda r: r[2])
    worst_result = max(results, key=lambda r: r[2])

    print(f"Best  Start={best_result[0]}, Final Loss={best_result[2]:.3f}")
    print(f"Worst Start={worst_result[0]}, Final Loss={worst_result[2]:.3f}")
    print(f"Difference {worst_result[2] - best_result[2]:.3f}")

problem_local_minima()

Start: x=-1.0 → End: x=-0.107, Loss=-0.056
Start: x= 0.0 → End: x=-0.107, Loss=-0.056
Start: x= 1.0 → End: x=-0.107, Loss=-0.056
Start: x= 3.0 → End: x= 1.841, Loss= 1.927
Best  Start=0, Final Loss=-0.056
Worst Start=3, Final Loss=1.927
Difference 1.983


In [5]:
def implement_step_decay():
    import math

    def step_decay_schedule(epoch):
        initial_lr = 0.1

        # ลด LR ลง 50% ทุกๆ 20 epochs เหมือนลงบันไดทีละชั้น
        drop = 0.5
        epochs_drop = 20  # ลดทุกกี่ epochs

        # คำนวณว่าอยู่ขั้นที่เท่าไหร่
        # math.floor(3.7) จะได้ 3
        step_num = math.floor(epoch / epochs_drop)

        # คำนวณ LR ใหม่
        lr = initial_lr * math.pow(drop, step_num)

        return lr

    # จำลองการ train 100 epochs
    for epoch in range(0, 101, 10):
        lr = step_decay_schedule(epoch)
        step = epoch // 20
        print(f"Epoch {epoch:3} (Step {step}): LR = {lr:.6f}")

    print("\nจุดเปลี่ยนสำคัญ")
    print("Epoch  0-19 LR = 0.100000 (เรียนรู้เร็ว)")
    print("Epoch 20-39 LR = 0.050000 (เริ่มชะลอ)")
    print("Epoch 40-59 LR = 0.025000 (fine-tuning)")
    print("Epoch 60-79 LR = 0.012500 (ปรับละเอียด)")
    print("Epoch 80-99 LR = 0.006250 (จบอย่างนุ่มนวล)")

implement_step_decay()

Epoch   0 (Step 0): LR = 0.100000
Epoch  10 (Step 0): LR = 0.100000
Epoch  20 (Step 1): LR = 0.050000
Epoch  30 (Step 1): LR = 0.050000
Epoch  40 (Step 2): LR = 0.025000
Epoch  50 (Step 2): LR = 0.025000
Epoch  60 (Step 3): LR = 0.012500
Epoch  70 (Step 3): LR = 0.012500
Epoch  80 (Step 4): LR = 0.006250
Epoch  90 (Step 4): LR = 0.006250
Epoch 100 (Step 5): LR = 0.003125

จุดเปลี่ยนสำคัญ
Epoch  0-19 LR = 0.100000 (เรียนรู้เร็ว)
Epoch 20-39 LR = 0.050000 (เริ่มชะลอ)
Epoch 40-59 LR = 0.025000 (fine-tuning)
Epoch 60-79 LR = 0.012500 (ปรับละเอียด)
Epoch 80-99 LR = 0.006250 (จบอย่างนุ่มนวล)


In [6]:
def implement_exponential_decay():
    import math

    def exponential_decay_schedule(epoch):
        initial_lr = 0.01
        decay_rate = 0.1 # ยิ่งมาก ยิ่งลดเร็ว

        new_lr = initial_lr * math.exp(-decay_rate * epoch)

        return new_lr

    for epoch in [0, 10, 20, 50, 100]:
        lr = exponential_decay_schedule(epoch)
        print(f"Epoch {epoch:3}: LR = {lr:.6f}")

    return exponential_decay_schedule

scheduler_exp = implement_exponential_decay()

Epoch   0: LR = 0.010000
Epoch  10: LR = 0.003679
Epoch  20: LR = 0.001353
Epoch  50: LR = 0.000067
Epoch 100: LR = 0.000000


In [7]:
import numpy as np
import plotly.graph_objects as go

def simple_cosine_annealing_schedule(epoch, total_epochs, initial_lr, min_lr=0):
    # สูตร Cosine Annealing
    # (1 + cos(pi * t/T)) / 2 จะให้ค่าจาก 1 ถึง 0
    cosine_value = 0.5 * (1 + np.cos(np.pi * epoch / total_epochs))

    # ปรับ scale ค่า cosine ให้อยู่ในช่วง [min_lr, initial_lr]
    new_lr = min_lr + (initial_lr - min_lr) * cosine_value

    return new_lr

# ตัวอย่างการใช้งานและแสดงผล
total_epochs = 100
initial_lr = 0.01
min_lr = 0.0001 # กำหนด LR ต่ำสุด

epochs_range = list(range(total_epochs)) # Plotly ต้องการ list หรือ array
lrs = [simple_cosine_annealing_schedule(e, total_epochs, initial_lr, min_lr) for e in epochs_range]

# แสดงตัวอย่าง LR ในบาง epoch
for epoch in [0, 25, 50, 75, 99]:
    lr = simple_cosine_annealing_schedule(epoch, total_epochs, initial_lr, min_lr)
    print(f"Epoch {epoch:2} {lr:.6f}")

fig = go.Figure(data=go.Scatter(x=epochs_range, y=lrs, mode='lines'))
fig.update_layout(
    title='Simple Cosine Annealing Learning Rate Schedule',
    xaxis_title='Epoch',
    yaxis_title='Learning Rate',
    hovermode='x unified' # แสดงค่าบนเส้นเมื่อ hover
)
fig.show()

Epoch  0 0.010000
Epoch 25 0.008550
Epoch 50 0.005050
Epoch 75 0.001550
Epoch 99 0.000102


In [8]:
import numpy as np
import plotly.graph_objects as go

def simple_warm_restart_schedule(epoch, initial_lr, min_lr, cycle_length, cycle_mult=2):
    # หาว่าตอนนี้อยู่ในรอบที่เท่าไหร่ และ epoch ที่เท่าไหร่ในรอบนั้น
    current_cycle = 0
    epoch_in_cycle = epoch
    current_cycle_length = cycle_length

    while epoch_in_cycle >= current_cycle_length:
        epoch_in_cycle -= current_cycle_length
        current_cycle += 1
        current_cycle_length *= cycle_mult # รอบถัดไปยาวขึ้น

    # คำนวณ LR ในรอบปัจจุบันโดยใช้ Cosine Annealing ภายในรอบนั้น
    progress_in_cycle = epoch_in_cycle / current_cycle_length
    cosine_value = 0.5 * (1 + np.cos(np.pi * progress_in_cycle))

    # ปรับ scale ค่า cosine ให้อยู่ในช่วง [min_lr, initial_lr] ของรอบปัจจุบัน
    new_lr = min_lr + (initial_lr - min_lr) * cosine_value

    return new_lr

# ตัวอย่างการใช้งานและแสดงผล
total_epochs = 120
initial_lr = 0.1
min_lr = 0.0001
cycle_length = 30 # ความยาวเริ่มต้นของรอบแรก
cycle_mult = 2 # รอบถัดไปยาวเป็น 2 เท่า

epochs_range = list(range(total_epochs))
lrs = [simple_warm_restart_schedule(e, initial_lr, min_lr, cycle_length, cycle_mult) for e in epochs_range]

# แสดงตัวอย่าง LR ในบาง epoch
for epoch in [0, 15, 30, 45, 60, 90, 119]:
    lr = simple_warm_restart_schedule(epoch, initial_lr, min_lr, cycle_length, cycle_mult)
    print(f"Epoch {epoch:3}: {lr:.6f}")

fig = go.Figure(data=go.Scatter(x=epochs_range, y=lrs, mode='lines'))
fig.update_layout(
    title='Simple Warm Restart Learning Rate Schedule',
    xaxis_title='Epoch',
    yaxis_title='Learning Rate',
    hovermode='x unified' # แสดงค่าบนเส้นเมื่อ hover
)
fig.show()

Epoch   0: 0.100000
Epoch  15: 0.050050
Epoch  30: 0.100000
Epoch  45: 0.085370
Epoch  60: 0.050050
Epoch  90: 0.100000
Epoch 119: 0.086282


In [9]:
import numpy as np
import plotly.graph_objects as go

def narrow_valley_loss(x, y):
    # ฟังก์ชัน Loss ที่มีลักษณะเป็นหุบเขาแคบ (ความชันในแกน x สูงกว่าในแกน y)
    return (10 * x)**2 + y**2

x_range = np.linspace(-1, 1, 50)
y_range = np.linspace(-1, 1, 50)
X, Y = np.meshgrid(x_range, y_range)
Z = narrow_valley_loss(X, Y)

fig = go.Figure(data=[go.Surface(z=Z, x=X, y=Y)])

fig.update_layout(
    title='Loss Function with a Narrow Valley',
    scene = dict(
        xaxis_title='Parameter 1 (X)',
        yaxis_title='Parameter 2 (Y)',
        zaxis_title='Loss Value'
    ),
    autosize=False,
    width=800,
    height=700,
    margin=dict(l=65, r=50, b=65, t=90)
)

fig.show()

In [10]:
import math, numpy as np, tensorflow as tf
import matplotlib.pyplot as plt

tf.random.set_seed(42)
np.random.seed(42)

In [11]:
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.fashion_mnist.load_data()
# normalize to [0,1] และเพิ่ม channel dim สำหรับ CNN
x_train = (x_train.astype("float32") / 255.0)[..., None]
x_test  = (x_test.astype("float32")  / 255.0)[..., None]

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
[1m29515/29515[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
[1m26421880/26421880[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
[1m5148/5148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
[1m4422102/4422102[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 0us/step


In [12]:
num_train = int(len(x_train) * 0.9)
x_tr, y_tr = x_train[:num_train], y_train[:num_train]
x_val, y_val = x_train[num_train:], y_train[num_train:]

In [13]:
BATCH_SIZE = 128
EPOCHS = 12

ds_train = tf.data.Dataset.from_tensor_slices((x_tr, y_tr)).shuffle(10_000).batch(BATCH_SIZE).prefetch(tf.data.AUTOTUNE)
ds_val   = tf.data.Dataset.from_tensor_slices((x_val, y_val)).batch(BATCH_SIZE).prefetch(tf.data.AUTOTUNE)
ds_test  = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(BATCH_SIZE).prefetch(tf.data.AUTOTUNE)

steps_per_epoch = math.ceil(len(x_tr) / BATCH_SIZE)

In [14]:
def build_model():
    inputs = tf.keras.Input(shape=(28, 28, 1))
    x = tf.keras.layers.Conv2D(32, 3, padding="same", activation="relu")(inputs)
    x = tf.keras.layers.MaxPooling2D()(x)
    x = tf.keras.layers.Conv2D(64, 3, padding="same", activation="relu")(x)
    x = tf.keras.layers.MaxPooling2D()(x)
    x = tf.keras.layers.Flatten()(x)
    x = tf.keras.layers.Dense(128, activation="relu")(x)
    x = tf.keras.layers.Dropout(0.25)(x)
    outputs = tf.keras.layers.Dense(10, activation="softmax")(x)
    return tf.keras.Model(inputs, outputs)

In [15]:
def train_one_run(optimizer, label):
    model = build_model()
    model.compile(optimizer=optimizer,
                  loss="sparse_categorical_crossentropy",
                  metrics=["accuracy"])
    h = model.fit(ds_train,
                  validation_data=ds_val,
                  epochs=EPOCHS,
                  verbose=0)  # ลด log ให้สั้น
    test_loss, test_acc = model.evaluate(ds_test, verbose=0)
    return h.history, {"test_loss": test_loss, "test_acc": test_acc, "label": label}

In [16]:
runs = []

# SGD + fixed LR
opt_sgd = tf.keras.optimizers.SGD(learning_rate=0.01)
hist_sgd, res_sgd = train_one_run(opt_sgd, "SGD (lr=0.01)")
runs.append(("SGD (lr=0.01)", hist_sgd, res_sgd))

In [17]:
# Adam + fixed LR
opt_adam = tf.keras.optimizers.Adam(learning_rate=0.001)
hist_adam, res_adam = train_one_run(opt_adam, "Adam (lr=0.001)")
runs.append(("Adam (lr=0.001)", hist_adam, res_adam))

In [18]:
# Adam + Cosine Annealing (CosineDecay ต่อ step)
total_steps = steps_per_epoch * EPOCHS
lr_schedule = tf.keras.optimizers.schedules.CosineDecay(
    initial_learning_rate=0.001,
    decay_steps=total_steps,
    alpha=0.0  # ปลายโค้งลดถึง 0 (ถ้าอยากไม่ถึง 0 ให้เพิ่ม alpha > 0)
)

In [19]:
opt_adam_cos = tf.keras.optimizers.Adam(learning_rate=lr_schedule)
hist_cos, res_cos = train_one_run(opt_adam_cos, "Adam + CosineDecay (base lr=0.001)")
runs.append(("Adam + CosineDecay (base lr=0.001)", hist_cos, res_cos))

In [20]:
print("Test Results")
for name, h, r in runs:
    print(f"{r['label']}: test_acc={r['test_acc']:.4f}, test_loss={r['test_loss']:.4f}")

Test Results
SGD (lr=0.01): test_acc=0.8567, test_loss=0.4076
Adam (lr=0.001): test_acc=0.9229, test_loss=0.2307
Adam + CosineDecay (base lr=0.001): test_acc=0.9149, test_loss=0.2322


In [21]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# สร้าง Subplots 1 แถว 2 คอลัมน์ สำหรับ Accuracy และ Loss
fig = make_subplots(rows=1, cols=2, subplot_titles=('Validation Accuracy vs Epoch', 'Validation Loss vs Epoch'))

# Plot Validation Accuracy
for name, h, r in runs:
    fig.add_trace(go.Scatter(y=h["val_accuracy"], mode='lines', name=name), row=1, col=1)

# Plot Validation Loss
for name, h, r in runs:
    fig.add_trace(go.Scatter(y=h["val_loss"], mode='lines', name=name, showlegend=False), row=1, col=2) # ซ่อน legend ซ้ำซ้อน

# อัปเดต Layout
fig.update_layout(
    title_text="Comparison of Optimizer Performance",
    height=500,  # ปรับความสูง
    width=1000,  # ปรับความกว้าง
    hovermode='x unified' # แสดงค่าบนเส้นเมื่อ hover
)

fig.update_xaxes(title_text="Epoch", row=1, col=1)
fig.update_yaxes(title_text="Val Accuracy", row=1, col=1)

fig.update_xaxes(title_text="Epoch", row=1, col=2)
fig.update_yaxes(title_text="Val Loss", row=1, col=2)


fig.show()