# ห้องปฏิบัติการเสริม: การถดถอยโลจิสติก (Logistic Regression) และฟังก์ชันการสูญเสียโลจิสติก (Logistic Loss)
ในห้องปฏิบัติการนี้ (ไม่ให้คะแนน) คุณจะ:

- สำรวจเหตุผลที่ฟังก์ชันการสูญเสียแบบกำลังสอง (squared error loss) ไม่เหมาะสำหรับการถดถอยโลจิสติก
- สำรวจฟังก์ชันการสูญเสียโลจิสติก (logistic loss function)




In [None]:
from google.colab import output
output.enable_custom_widget_manager()
try:
  %matplotlib widget
  print("widget is already installed")
except:
  print("widget is not been installed, install now..")
  !pip install ipympl

In [None]:
# prompt: import requsts and download from this github link : https://raw.githubusercontent.com/Smith-WeStrideTH/Machine_Learning_Course/main/work/deeplearning.mplstyle

import requests
from pathlib import Path

url = 'https://raw.githubusercontent.com/Smith-WeStrideTH/Machine_Learning_Course/main/work/deeplearning.mplstyle'
url2 = 'https://raw.githubusercontent.com/Smith-WeStrideTH/Machine_Learning_Course/main/work/plt_logistic_loss.py'
url3 = 'https://raw.githubusercontent.com/Smith-WeStrideTH/Machine_Learning_Course/main/work/lab_utils_common_c3.py'

response = requests.get(url)
with open('deeplearning.mplstyle', 'wb') as f:
  f.write(response.content)

response = requests.get(url2)
with open('plt_logistic_loss.py', 'wb') as f:
  f.write(response.content)

response = requests.get(url3)
with open('lab_utils_common.py', 'wb') as f:
  f.write(response.content)

In [1]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from plt_logistic_loss import  plt_logistic_cost, plt_two_logistic_loss_curves, plt_simple_example
from plt_logistic_loss import soup_bowl, plt_logistic_squared_error
plt.style.use('./deeplearning.mplstyle')

## Squared error for logistic regression?
<img align="left" src="./images/C1_W3_SqErrorVsLogistic_v1.png"     style=" width:400px; padding: 10px; " > การใช้ฟังก์ชันค่าใช้จ่ายแบบ Squared Error **ในการถดถอยเชิงเส้น (Linear Regression)**
ในการถดถอยเชิงเส้น เราได้ใช้ **ฟังก์ชันค่าใช้จ่ายแบบ Squared Error (Squared Error Cost Function)**

สมการของฟังก์ชันค่าใช้จ่ายแบบ Squared Error สำหรับตัวแปรเดียวคือ:




  $$J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 \tag{1}$$ 
 
โดยที่ 
  $$f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{2}$$


การลดค่าใช้จ่ายแบบ Squared Error มีคุณสมบัติที่ดีอย่างหนึ่งคือการไล่ตามอนุพันธ์ของค่าใช้จ่ายจะนำไปสู่ค่าใช้จ่ายที่ต่ำที่สุด

In [2]:
soup_bowl()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

ฟังก์ชันต้นทุนที่ใช้ได้ดีสำหรับการถดถอยเชิงเส้น (linear regression) ก็สามารถนำมาใช้สำหรับการถดถอยโลจิสติก (logistic regression) ได้เช่นกัน

อย่างไรก็ตาม ดังที่สไลด์ก่อนหน้านี้ชี้ให้เห็นว่า  $f_{wb}(x)$   ในตอนนี้มีองค์ประกอบที่ไม่เป็นเชิงเส้น (non-linear) ซึ่งก็คือฟังก์ชันซิกมอยด์ (sigmoid function):  $f_{w,b}(x^{(i)}) = sigmoid(wx^{(i)} + b )$.   ลองใช้ค่าความผิดพลาดกำลังสอง (squared error cost) กับตัวอย่างจากการทดลองก่อนหน้านี้ ซึ่งตอนนี้รวมฟังก์ชันซิกมอยด์ด้วย

นี่คือข้อมูลการฝึกของเรา:


In [3]:
x_train = np.array([0., 1, 2, 3, 4, 5],dtype=np.longdouble)
y_train = np.array([0,  0, 0, 1, 1, 1],dtype=np.longdouble)
plt_simple_example(x_train, y_train)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

ตอนนี้ มาสร้างแผนภาพพื้นผิว (surface plot) ของค่าใช้จ่ายโดยใช้ *squared error cost*:


  $$J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 $$ 
 
โดยที่ 
  $$f_{w,b}(x^{(i)}) = sigmoid(wx^{(i)} + b )$$


In [4]:
plt.close('all')
plt_logistic_squared_error(x_train,y_train)
plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

แม้ว่ากราฟที่ได้จะน่าสนใจ แต่พื้นผิวของกราฟ (surface) นั้นไม่เรียบเท่า "ชามซุป" ที่ได้จากการถดถอยเชิงเส้น (linear regression)!

    

การถดถอยโลจิสติก (Logistic Regression) ต้องใช้ฟังก์ชันต้นทุน (Cost Function) ที่เหมาะสมกับลักษณะที่ไม่เป็นเชิงเส้น (non-linear) ของมัน ฟังก์ชันต้นทุนนี้เรียกว่า Loss Function


## Logistic Loss Function
<img align="left" src="./images/C1_W3_LogisticLoss_a_v1.png"     style=" width:250px; padding: 2px; " >
<img align="left" src="./images/C1_W3_LogisticLoss_b_v1.png"     style=" width:250px; padding: 2px; " >
<img align="left" src="./images/C1_W3_LogisticLoss_c_v1.png"     style=" width:250px; padding: 2px; " > 

การถดถอยโลจิสติก (Logistic Regression) ใช้ฟังก์ชันการสูญเสีย (loss function) ที่เหมาะสมสำหรับงานการจัดประเภท (categorization) โดยที่เป้าหมาย (target) มีค่า 0 หรือ 1 แทนที่จะเป็นตัวเลขใดๆ

>**คำจำกัดความ:**   
**Loss** คือการวัดความแตกต่างระหว่างตัวอย่างเดียวกับค่าเป้าหมายของมัน  
**Cost** คือการวัดการสูญเสียทั้งหมดในชุดข้อมูลฝึก (training set)


นิยามของฟังก์ชันการสูญเสีย:
* $loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)})$ คือค่าการสูญเสียสำหรับข้อมูลจุดเดียว ซึ่งมีนิยามดังนี้:

\begin{equation}
  loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) = \begin{cases}
    - \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) & \text{if $y^{(i)}=1$}\\
    - \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) & \text{if $y^{(i)}=0$}
  \end{cases}
\end{equation}


*  $f_{\mathbf{w},b}(\mathbf{x}^{(i)})$ คือการทำนายของโมเดล ขณะที่ $y^{(i)}$  คือค่าเป้าหมาย
*  $f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = g(\mathbf{w} \cdot\mathbf{x}^{(i)}+b)$ โดยที่ฟังก์ชัน $g$ คือฟังก์ชันซิกมอยด์ (sigmoid function)

ลักษณะเฉพาะของฟังก์ชันการสูญเสีย:

- ฟังก์ชันการสูญเสียนี้มีลักษณะเฉพาะคือใช้เส้นโค้งสองเส้นแยกกัน เส้นหนึ่งสำหรับกรณีที่เป้าหมายเป็นศูนย์ $(y=0)$และอีกเส้นหนึ่งสำหรับกรณีที่เป้าหมายเป็นหนึ่ง $(y=1)$
- เมื่อรวมกัน เส้นโค้งทั้งสองนี้จะแสดงพฤติกรรมที่เหมาะสมสำหรับฟังก์ชันการสูญเสีย คือ มีค่าเป็นศูนย์เมื่อการทำนายตรงกับเป้าหมาย และเพิ่มขึ้นอย่างรวดเร็วเมื่อการทำนายแตกต่างจากเป้าหมาย





In [5]:
plt_two_logistic_loss_curves()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

เมื่อรวมเส้นโค้งทั้งสองแล้ว จะคล้ายกับเส้นโค้งกำลังสองของค่าใช้จ่าย (squared error loss)
แกน X คือ $f_{\mathbf{w},b}$ ซึ่งเป็นผลลัพธ์ของฟังก์ชันซิกมอยด์ (sigmoid)
ผลลัพธ์ของฟังก์ชันซิกมอยด์จะอยู่ระหว่าง 0 ถึง 1 เท่านั้น




การเขียนสมการ Loss Function ใหม่ให้ใช้งานง่ายขึ้น, สมการ Loss Function ด้านบนสามารถเขียนใหม่ได้ดังนี้:
    $$loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) = (-y^{(i)} \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - y^{(i)}\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)$$
  
สมการนี้ดูซับซ้อน แต่จะง่ายขึ้นเมื่อพิจารณาว่า  $y^{(i)}$ มีค่าได้เพียงสองค่า คือ 0 และ 1:  
กรณี  $ y^{(i)} = 0$, เทอมทางซ้ายถูกตัดทิ้ง:
$$
\begin{align}
loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), 0) &= (-(0) \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - 0\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) \\
&= -\log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)
\end{align}
$$

กรณี  $ y^{(i)} = 1$, เทอมทางขวาถูกตัดทิ้ง:
$$
\begin{align}
  loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), 1) &=  (-(1) \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - 1\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)\\
  &=  -\log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)
\end{align}
$$

ด้วยฟังก์ชันการสูญเสียแบบ Logistic (Logistic Loss Function) เราสามารถสร้างฟังก์ชันต้นทุนที่รวมการสูญเสียจากตัวอย่างทั้งหมดได้หัวข้อต่อไปใน Lab จะพูดถึงเรื่องนี้
ในตอนนี้ มาดูตัวอย่างง่ายๆ ที่เราเคยพิจารณากันก่อนหน้านี้: กราฟค่าใช้จ่ายเทียบกับพารามิเตอร์

In [None]:
plt.close('all')
cst = plt_logistic_cost(x_train,y_train)
cst

กราฟนี้เหมาะสำหรับการไล่ระดับ (gradient descent)
ข้อสังเกต:

- กราฟนี้ไม่มีที่ราบสูง (plateaus) จุดต่ำสุดท้องถิ่น (local minima) หรือการขาดต่อเนื่อง (discontinuities)
- แตกต่างจากกรณีของข้อผิดพลาดกำลังสอง (squared error): กราฟของข้อผิดพลาดกำลังสองจะมีรูปร่างคล้ายชาม (bowl)
- การพล็อตทั้งค่าใช้จ่ายและล็อกของค่าใช้จ่าย: ช่วยให้เห็นได้ชัดเจนว่าเมื่อค่าใช้จ่ายมีขนาดเล็ก กราฟจะมีความลาดชันและยังคงลดลงต่อไป

**หมายเหตุ:** คุณสามารถหมุนกราฟเหล่านี้ได้โดยใช้เมาส์ของคุณ





## ยินดีด้วย!
คุณได้:
- ตระหนักว่าฟังก์ชันการสูญเสียแบบกำลังสอง (squared error loss function) ไม่เหมาะสำหรับงานการจำแนกประเภท (classification tasks)
- พัฒนาและตรวจสอบฟังก์ชันการสูญเสียแบบโลจิสติก (logistic loss function) ซึ่ง เหมาะ สำหรับงานการจำแนกประเภท



