ปฏิบัติการครั้งที่ 12 กระบวนวิชา 229351 Statistical Learning for Data Science

คำชี้แจง

1. ให้เริ่มทำปฏิบัติการจาก colab notebook/ipynb ที่กำหนดให้ จากนั้นบันทึกไว้เป็นไฟล์ *.pdf

ดาวน์โหลดข้อมูลผู้รับวินิจฉัยโรคหัวใจใน link ข้างล่างนี้  
http://www.donlapark.cmustat.com/229351/data/framingham.csv  

In [None]:
# uploading the csv file to colab

!pip install wget

!python -m wget -o framingham.csv http://www.donlapark.cmustat.com/229351/data/framingham.csv

In [None]:
# import module ที่ต้องใช้
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv('framingham.csv')

#drop rows with missing values
data = data.dropna()

print(data.info())

data.head()

###ตัวแปรตามคือ `TenYearCHD` มีค่าเป็น 1 เมื่อผู้มาใช้บริการมีโรคหัวใจภายใน 10 ปีหลังจากการตรวจสุขภาพ

### แบ่งเป็นตัวแปรต้น `X` กับตัวแปรตาม `y`

In [None]:
y = data['TenYearCHD']

X = data.drop(['TenYearCHD'], axis = 1)

###สร้าง Logistic regression 

$$ p(y=1|x_1,\ldots,x_p) = \frac{1}{1+e^{-(a_0+a_1x_1+\ldots+a_px_p)}} $$

วิธีที่ 1: ใช้ `scikit-learn`

In [None]:
from sklearn.linear_model import LogisticRegression

# สร้าง model object ก่อน
# ตั้ง random state ให้เป็น 0 เพื่อให้ผลลัพธ์ของทุกคนเหมือนกัน
model = LogisticRegression()

# แล้วค่อยใส่ข้อมูลโดยใช้ `fit`
model.fit(X,y)

###Warning บอกว่ามีปํญหาในการ optimize เนื่องจากบางค่าใน `X` มีขนาดใหญ่เกินไป (ตัวอย่างเช่นตัวแปร `totChol` มีค่า `>200`) 

###เป็นตัวอย่างหนึ่งที่แสดงให้เห็นถึงความสำคัญของ standardization (ปรับให้ mean ของแต่ละตัวแปรเป็น 0 และ s.d. เป็น 1)  

### สมมติให้ `X1` เป็นตัวแปรหนึ่งใน dataset  

### Standardization ทำโดยการแปลง `X1 -> (X1 - mean(X1))/(s.d.(X1))`

In [None]:
X.std()

In [None]:
# Standardization
X_s = (X-X.mean())/X.std()

X_s

###ใช้ `X_s` แทน `X` แล้ว warning จะหายไป

In [None]:
# warning จะหายไป
model.fit(X_s,y)

In [None]:
# ดู intercept (a_0) ที่ได้โดยใช้
print('intercept:',model.intercept_)

# ดู coefficient ที่เหลือทั้งหมด (a_1,a_2,...,a_p) โดยใช้
print('coefficients:',model.coef_)

###ดูผลจากการใช้โมเดลแบ่งกลุ่ม `X_s` โดยใช้ `model.predict(X_s)`

In [None]:
y_pred = model.predict(X_s)

print(y_pred)

###โมเดลแบ่งให้ข้อมูลส่วนใหญ่อยู่ในกลุ่มที่ 0 ทำให้เราไม่มั่นใจว่ามีข้อมูลที่ถูกแบ่งให้อยู่ในกลุ่มที่ 1 หรือไม่

###สามารถนับจำนวนข้อมูลที่ถูกแบ่งให้อยู่ในกลุ่มที่ 1 โดยคำนวณผลบวกของตัวเลขทั้งหมดที่อยู่ใน `y_pred`

In [None]:
# คำนวณผลบวกของตัวเลขทั้งหมดที่อยู่ใน y_pred

print(y_pred.sum())

In [None]:
y

###เราสามารถสร้าง array ที่ตรวจสอบว่าค่าที่ model ทำนาย (`y_pred`) ตรงกับค่าที่แท้จริง (`y`) หรือไม่โดยใช้ `y==y_pred`

| y | y_pred |       | y == y_pred |
|:------:|:------:|:-----:|:----------------:|
|    1   |    1   | $\to$ |         1        |
|    0   |    0   | $\to$ |         1        |
|    0   |    1   | $\to$ |         0        |
|    1   |    0   | $\to$ |         0        |

In [None]:
# จะเห็นว่าโมเดลแบ่งกลุ่มให้ข้อมูลชิ้นที่ 3 ไม่ตรงกับกลุ่มที่แท้จริง

y == y_pred

In [None]:
True + False

###จากตรงนี้ เราสามารถนับจำนวนข้อมูลที่โมเดลแบ่งกลุ่มได้ถูกต้องโดยใช้ `(y == y_pred).sum()` (เพราะว่าในการบวกค่า boolean นั้น `True`=0 และ `False`=1)

In [None]:
(y == y_pred).sum()

#Exercise 1: 

### ให้ `y_true` เป็นค่าที่แท้จริงทั้งหมด และ `y_pred` เป็นค่าที่โมเดลทำนายทั้งหมด ค่า accuracy คำนวณได้จาก

$$\text{Accuracy} = \frac{\# (\texttt{y_true} = \texttt{y_pred})}{N}$$

###โดยที่ $N$ คือจำนวนข้อมูลทั้งหมด

###จงสร้างฟังก์ชันที่คำนวณค่า Accuracy โดยมี inputs เป็น `y_true` และ `y_pred`

###Hint: ใช้ `y_true.shape[0]` ในการนับจำนวนข้อมูลทั้งหมด

In [None]:
def accuracy(y_true, y_pred):
  '''
  y_true: numpy array of true labels
  y_pred: numpy array of model's classifications
  Return: the accuracy of the model
  '''
  ########################
  #Fill in your code here#
  ########################


# ทดสอบฟังก์ชัน accuracy
print(accuracy(np.array([1,0,0,0]),np.array([0,1,1,1]))) #ควรจะได้ 0
print(accuracy(np.array([1,0,0,0]),np.array([1,0,0,0]))) #ควรจะได้ 1
print(accuracy(np.array([1,1,0,0]),np.array([1,0,1,1]))) #ควรจะได้ 0.25

#Exercise 1.2:

จงคำนวณ accuracy ของโมเดล logistic regression ที่ได้ข้างบน 

In [None]:
#your code here

###ดูค่า Z-value และ p-value ของแต่ละตัวแปร

###ใช้ `statsmodels`

In [None]:
from statsmodels.discrete.discrete_model import Logit

# โมเดลชื่อ logit
logit = Logit(y, X_s)

# จะเห็นว่า syntax ของ statsmodels นั้นใส่ข้อมูลก่อนแล้วค่อย fit
logit_fitted = logit.fit()

logit_fitted.summary()

#Exercise 2:

### จงระบุว่ามีตัวแปรไหนบ้างที่ไม่มีความสำคัญที่ระดับนัยสำคัญ 0.1

คำตอบ

###ผลลัพธ์ที่ได้จากการใช้ `predict` จะแตกต่างจาก `scikit-learn` ตรงที่ output เป็น**ค่าความน่าจะเป็น** ไม่ใช่ค่าการแบ่งกลุ่ม

In [None]:
logit_fitted.predict(X_s)

#Exercise 3.1:

ฟังก์ชันข้างล่างนี้มีหน้าที่เปลี่ยนค่าความน่าจะเป็นที่ได้ให้เป็นการแบ่งกลุ่ม (0 หรือ 1) จงเติมส่วนที่หายไปในฟังก์ชันข้างล่างนี้ให้สมบูรณ์

In [None]:
def classify(y_pred):
  '''
  y_pred: numpy array of probability predictions
  Return: a list of classifications (0 or 1)
  '''
  N = y_pred.shape[0] #number of observations
  results = [] #array of classifications

  for prob in y_pred:
    if #FILL HERE :
      results.append(#FILL HERE)
    else:
      results.append(#FILL HERE)

  return results


#Test
print(classify(np.array([0.2,0.4,0.8]))) #should return [0,0,1]
print(classify(np.array([0.8,0.6,0.1]))) #should return [1,1,0]

#Exercise 3.2:

จงแสดงการแบ่งกลุ่ม (classification) ที่ได้จากโมเดล `logit_fitted` ในพื้นที่ข้างล่างนี้


In [None]:
#your code here

### Cross-validation

### Logistic regression with weight penalty คือการสร้างโมเดล Logistic regression โดยกำหนดให้สัมประสิทธิ์มีขนาดเล็ก ทำได้ด้วยการกำหนดค่า `C` (สมมติให้สัมประสิทธิ์คือ `w1, w2, ... wp`)

$$ \text{Optimize } \text{Loss}_{logistic}(X,y)+ C(w_0^2+w_1^2+\ldots+w_p^2)  $$



เราจะทำการหาค่า `C` ที่เหมาะสมด้วยการทำ Cross-validation  

![Alt text](https://scikit-learn.org/stable/_images/grid_search_cross_validation.png)



In [None]:
data = pd.read_csv('framingham.csv')
data = data.dropna()

y = data['TenYearCHD']

X = data.drop(['TenYearCHD'], axis = 1)

X_s = (X-X.mean())/(X.std())

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X_s,y,test_size=0.3, random_state = 0)

In [None]:
# Grid search cross validation
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

model2 = LogisticRegression(C=0.1)
scores = cross_val_score(model2, x_train, y_train, cv=10 )
print(scores)
print(scores.mean())

#Exercise 3.3:

### จงหาค่า `C` ที่ทำให้คะแนน cross validation มีค่ามากกว่า 0.8535 
1. จงระบุค่า `C` ที่ได้
2. ทำการฝึกโมเดลอีกครั้งโดยใช้ training set ทั้งชุด (`x_train`, `y_train`) และกำหนดค่า `C` ตามค่าที่ได้ในข้อ 1.
3. นำโมเดลที่ได้มาแบ่งกลุ่มข้อมูลที่อยู่ใน test set แล้วคำนวณค่า Accuracy ของการแบ่งกลุ่มที่ได้