ปฏิบัติการครั้งที่ 4 กระบวนวิชา 229351 Statistical Learning for Data Science

คำชี้แจง

ให้เริ่มทำปฏิบัติการจาก colab notebook ที่กำหนดให้ จากนั้น share แล้วส่ง link ใน mango.cmu.ac.th

ดาวน์โหลดข้อมูลรถยนต์ชนิดต่างใน link ข้างล่างนี้ หรือรันโค้ดข้างล่าง
https://donlapark.pages.dev/229351/data/Auto.csv  

In [None]:
!wget https://donlapark.pages.dev/229351/data/Auto.csv

In [None]:
# import module ที่ต้องใช้
import numpy as np
import pandas as pd
from scipy import stats

In [None]:
# อ่านไฟล์ csv ก่อนเพื่อหา missing values
auto_df = pd.read_csv('Auto.csv',na_values=["?"])

# ลบแถวที่มี missing values
auto_df = auto_df.dropna()
auto_df.head()

In [None]:
auto_df.info()

* Predictor: `horsepower` $X = [x_1,x_2,\ldots,x_n]$
* Response: `mpg` $y = [y_1,y_2,\ldots,y_n]$
* สมการ $\hat{y}_i = \hat{\beta}_0+\hat{\beta}_1x_i, \ \ \ \ $     $ i=1,2,\ldots,n$  

In [None]:
X = auto_df['horsepower']
y = auto_df['mpg']

คำนวณสัมประสิทธิ์ $\hat{\beta}_0,\hat{\beta}_1$ ด้วยสูตร
\begin{align*}
\hat{\beta}_1 &= \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2} \\
&= \frac{\text{Cov}(X,y)}{\text{Var}(X)}\\
\hat{\beta}_0 &= \bar{y}-\hat{\beta}_1\bar{x}
\end{align*}
  
ใช้คำสั่ง $\texttt{np.cov(X,y)}=\begin{pmatrix}
\text{Var}(X)  & \text{Cov}(X,y) \\
\text{Cov}(y,X)  & \text{Var}(y)
\end{pmatrix}
$ สำหรับ covariance matrix ระหว่างเวกเตอร์ $\texttt{X}$ และ $\texttt{y}$  
ใช้คำสั่ง $\texttt{np.mean(X)}$ และ $\texttt{np.mean(y)}$ สำหรับค่าเฉลี่ยของเวกเตอร์ $\texttt{X}$ และ $\texttt{y}$

#### Exercise 1:

- เติมโค้ดในฟังก์ชัน `linear_model` ที่คำนวณค่าสัมประสิทธิ์ (coefficients) จากข้อมูล `X` และ `y`
- เติมโค้ดในฟังก์ชัน `predict` ที่คำนวณค่าทำนาย จากข้อมูลตัวแปรต้น `X` และสัมประสิทธิ์ของโมเดล `beta_0` และ `beta_1`

In [None]:
# Let's start by implementing linear regression from scratch
# using numpy linear algebra

def linear_model(X, y):
    """X: numpy array เวกเตอร์ของตัวแปรต้น"""
    """y: numpy array เวกเตอร์ของตัวแปรตาม"""
    """Return: (beta_0 , beta_1) <-- tuple ของสัมประสิทธิ์"""

    #TODO: COMPLETE THE FUNCTION




    return beta_0 , beta_1

def predict(beta_0 , beta_1, X):
    """beta_0: ค่าตัดแกน"""
    """beta_1: ความชัน"""
    """X: เวกเตอร์ของตัวแปรต้น (Numpy หรือ Pandas)"""
    """Return: เวกเตอร์ของค่าทำนาย [y^_1, y^_2, ..., y^_n]"""

    return #TODO: COMPLETE THE FUNCTION



In [None]:
beta_0, beta_1 = linear_model(X, y)
y_pred = predict(beta_0 , beta_1, X)

print(beta_0,beta_1)

In [None]:
# นับจำนวนข้อมูล

print(y.shape)

n = y.shape[0]
print(n)

#### Exercise 2: คำนวณ Residual Sum of Squares (RSS)
$$ \text{RSS} = \sum_{i=1}^n (y_i-\hat{y}_i)^2 $$
โดยใช้คำสั่งต่อไปนี้

$\texttt{np.sum}([x_1,x_2,...,x_n])=x_1+x_2+...+x_n$

$\texttt{np.square}([x_1,x_2,...,x_n])=[x_1^2,x^2_2,...,x^2_n]$

In [None]:
# TODO: Calculate Residual Sum of Squares
RSS =

print(RSS)

#### Exercise 3: คำนวณ Residual Standard Error (RSE)  
$$  \text{RSE} = \sqrt{\frac{\text{RSS}}{n-2}} $$

In [None]:
# TODO: Calculate Residual Standard Error
RSE = np.sqrt()

print(RSE)

#### Exercise 4: คำนวณ Standard Error (SE)  
\begin{align*}
\text{SE}(\hat{\beta}_0) &= \text{RSE}\sqrt{\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2}} \\
\text{SE}(\hat{\beta}_1) &= \text{RSE}\sqrt{\frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2}}
\end{align*}

In [None]:
# TODO: Calculate the standard error of each coefficients

# SE(β₀)
SE_beta_0 =

# SE(β₁)
SE_beta_1 =

print('SE(β₀): ', SE_beta_0)
print('SE(β₁): ', SE_beta_1)

#### Exercise 5: คำนวณขอบล่าง (lower) และขอบบน (upper) ของ confidence interval
$$I_i = [\hat{\beta}_i-2\cdot\text{SE}(\hat{\beta}_i),\hat{\beta}_i+2\cdot\text{SE}(\hat{\beta}_i)]$$

In [None]:
# TODO: Calculate 95% confidence interval

# Confidence interval of β₀
lower_0 =
upper_0 =

# Confidence interval of β₁
lower_1 =
upper_1 =

print(f'Confidence interval of β₀: [{lower_0},{upper_0}]')
print(f'Confidence interval of β₁: [{lower_1},{upper_1}]')

#### Code ข้างล่างนี้แสดงผลของค่าทั้งหมดที่เราคำนวณไปแล้ว

In [None]:
X = auto_df['horsepower']

# Present results
results = pd.DataFrame({'feature': ['Intercept', X.name],
                        'coefficients': [beta_0,beta_1],
                        'standard_error': [SE_beta_0,SE_beta_1],
                        '[0.025': [lower_0,lower_1],
                        '0.975]': [upper_0,upper_1]})

results

## Linear Regression in `Scikit-Learn`

#### [Documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

In [None]:
from sklearn.linear_model import LinearRegression

reg = LinearRegression()
reg.fit(X.to_numpy().reshape(-1, 1), y.to_numpy().reshape(-1, 1))

#### ความชัน

#### ค่าตัดแกน

#### ทำนายจากตัวแปรต้น

In [None]:
y_pred = reg.predict(X.to_numpy().reshape(-1, 1))

y_pred

## Linear Regression in `statsmodels

#### [Documentation](https://www.statsmodels.org/stable/regression.html)

#### มีสองวิธึในการ fit linear regression:

1. `statsmodels.api.sm.OLS`

In [None]:
import statsmodels.api as sm

In [None]:
y = auto_df['mpg']
X = auto_df['horsepower']

# add bias constant;
# without this the equation turns into y = βx
X_one = sm.add_constant(X)

X_one.head()

In [None]:
# syntax is OLS(response, predictor)
model1 = sm.OLS(y, X_one)
model1 = model1.fit()
print(model1.summary())

In [None]:
# Make predictions
y_pred_sm = model1.predict(X_one)

y_pred_sm.head()

2. `statsmodels.formula.api.smf.ols`

In [None]:
import statsmodels.formula.api as smf

#syntax is ols(formula, dataset)
model2 = smf.ols('mpg ~ horsepower', auto_df)
model2 = model2.fit()
print(model2.summary())

In [None]:
# Make predictions
y_pred_fm = model2.predict(X)

y_pred_fm.head()

In [None]:
y_pred_fm = model2.predict(auto_df)

y_pred_fm.head()

#### Exercise 6: จงตอบคำถามต่อไปนี้

1. จากโมเดลนี้ ถ้ารถยนต์มีแรงม้า 200 hp จะมีระยะการวิ่งเท่าไหร่ต่อแกลลอน
2. บอกความหมายของช่วงความเชื่อมั่นของ $\beta_1$ ที่ได้
3. ระหว่างช่วงของสัมประสิทธิ์ $\beta_0$ กับ $\beta_1$ ช่วงไหนที่กว้างกว่ากัน

#### Extra: Plotting data and regression line

In [None]:
import matplotlib.pyplot as plt

X = auto_df['horsepower']

# Scatter plot ของ x และ y
plt.scatter(X, y)

# เส้นของ linear regression
plt.plot(X, y_pred);