# แล็บเสริม: การถดถอยเชิงเส้นโดยใช้ Scikit-Learn

มีเครื่องมือเรียนรู้ของเครื่องแบบโอเพนซอร์สที่สามารถใช้ในเชิงพาณิชย์ได้ ชื่อว่า  [scikit-learn](https://scikit-learn.org/stable/index.html)    เครื่องมือชุดนี้ประกอบด้วยการใช้งานของอัลกอริทึมหลายอย่างที่คุณจะได้ทำงานด้วยในหลักสูตรนี้


## เป้าหมาย
ในห้องปฏิบัติการนี้ คุณจะ:
- ใช้งาน scikit-learn เพื่อนำไปใช้ในการถดถอยเชิงเส้น (linear regression) โดยใช้คำตอบแบบปิด (closed form solution) основанный на уравнении нормальном (based on the normal equation)

## เครื่องมือ
คุณจะใช้ฟังก์ชันจาก scikit-learn เช่นเดียวกับ matplotlib และ NumPy

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from lab_utils_multi import load_house_data
plt.style.use('./deeplearning.mplstyle')
np.set_printoptions(precision=2)

<a name="toc_40291_2"></a>
# การถดถอยเชิงเส้น (Linear Regression) แบบมีสูตรปิด (closed-form solution)
Scikit-learn มีโมเดลการถดถอยเชิงเส้น (linear regression model)  [linear regression model](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression) ที่ใช้สูตรปิด (closed-form)

มาใช้ข้อมูลจาก lab ก่อนหน้านี้กัน  บ้านหลังหนึ่งขนาด 1000 ตารางฟุต ขายไปในราคา \\300,000 ดอลลาร์  และบ้านอีกหลังขนาด 2000 ตารางฟุต ขายไปในราคา \\500,000 ดอลลาร์









| Size (1000 sqft)     | Price (1000s of dollars) |
| ----------------| ------------------------ |
| 1               | 300                      |
| 2               | 500                      |


### โหลด data set

In [None]:
X_train = np.array([1.0, 2.0])   #features
y_train = np.array([300, 500])   #target value

### สร้างและปรับโมเดล (Create and fit the model)
โค้ดด้านล่างนี้ดำเนินการการถดถอย (regression) โดยใช้ scikit-learn

ขั้นตอนแรกคือการสร้างออบเจ็กต์ (object) สำหรับการถดถอย

ขั้นตอนที่สองคือการใช้หนึ่งในเมธอด (method) ที่เกี่ยวข้องกับออบเจ็กต์นั้น ซึ่งคือ `fit` เมธอดนี้ทำการถดถอย โดยปรับพารามิเตอร์ให้เหมาะสมกับข้อมูลอินพุต เครื่องมือคาดหวังให้มีเมทริกซ์ X สองมิติ

In [None]:
linear_model = LinearRegression()
#X must be a 2-D Matrix
linear_model.fit(X_train.reshape(-1, 1), y_train) 

### ดูพารามิเตอร์
พารามิเตอร์  $\mathbf{w}$ และ $\mathbf{b}$ เรียกว่า 'สัมประสิทธิ์' และ 'ค่าตัดแกน' ใน scikit-learn ตามลำดับ

In [None]:
b = linear_model.intercept_
w = linear_model.coef_
print(f"w = {w:}, b = {b:0.2f}")
print(f"'manual' prediction: f_wb = wx+b : {1200*w + b}")

### ทำนายข้อมูล (Make Predictions)
การเรียกใช้ฟังก์ชัน `predict` จะสร้างการทำนาย (predictions)









In [None]:
y_pred = linear_model.predict(X_train.reshape(-1, 1))

print("Prediction on training set:", y_pred)

X_test = np.array([[1200]])
print(f"Prediction for 1200 sqft house: ${linear_model.predict(X_test)[0]:0.2f}")

## ตัวอย่างที่สอง: การเปรียบเทียบกับผลลัพธ์ก่อนหน้า
ตัวอย่างที่สองนี้เป็นตัวอย่างจากการทดลองก่อนหน้านี้ซึ่งมีหลายฟีเจอร์ (features) ค่าพารามิเตอร์สุดท้ายและการทำนายที่ได้ใกล้เคียงมากกับผลลัพธ์จากการวิ่งแบบ "long-run" ที่ไม่ได้ปรับมาตรฐาน (un-normalized) จากการทดลองนั้น

การวิ่งแบบ "long-run" ที่ไม่ได้ปรับมาตรฐาน (un-normalized) ใช้เวลานานหลายชั่วโมงในการสร้างผลลัพธ์ในขณะที่วิธีการแก้ปัญหาแบบ closed-form นั้นเกือบจะทันที. วิธีการแก้ปัญหาแบบ closed-form เป็นวิธีการที่รวดเร็วและเหมาะสำหรับชุดข้อมูลขนาดเล็ก 
> วิธีการแก้ปัญหาแบบ closed-form ไม่จำเป็นต้องปรับมาตรฐานข้อมูล (normalization)


In [None]:
# load the dataset
X_train, y_train = load_house_data()
X_features = ['size(sqft)','bedrooms','floors','age']

In [None]:
linear_model = LinearRegression()
linear_model.fit(X_train, y_train) 

In [None]:
b = linear_model.intercept_
w = linear_model.coef_
print(f"w = {w:}, b = {b:0.2f}")

In [None]:
print(f"Prediction on training set:\n {linear_model.predict(X_train)[:4]}" )
print(f"prediction using w,b:\n {(X_train @ w + b)[:4]}")
print(f"Target values \n {y_train[:4]}")

x_house = np.array([1200, 3,1, 40]).reshape(-1,4)
x_house_predict = linear_model.predict(x_house)[0]
print(f" predicted price of a house with 1200 sqft, 3 bedrooms, 1 floor, 40 years old = ${x_house_predict*1000:0.2f}")

## ยินดีด้วย!
ในห้องปฏิบัติการนี้ คุณได้:
- ใช้ Scikit-learn ซึ่งเป็นเครื่องมือการเรียนรู้ของเครื่องแบบโอเพนซอร์ส
- นำการถดถอยเชิงเส้น (linear regression) มาใช้โดยใช้วิธีการแก้ปัญหาแบบ closed-form จากเครื่องมือดังกล่าว






