### 統計學習與深度學習 (Fall, 2024)
### Homework 2

請將IPYNB檔與IPYNB Export之HTML檔上傳至COOL作業區。作業自己做。嚴禁抄襲。不接受紙本繳交，不接受遲交。請以英文或中文作答。
如無其他規定，所有重要結果應顯示至小數點第四位(四捨五入)。本次作業禁止使用Auto-SKlearn或其他AutoML工具。題目可能有額外實做限制。違反規定者該題以零分計算。


### 第一題[Logistic Regression: Probability, Loss, Gradient, and Weights]

Logistic regression (LR) 是一個常用的分類模型。我們將在這個題目中透過練習熟悉一些LR的細節與特性。

本題將利用UCI的"Adult" dataset <https://archive.ics.uci.edu/ml/datasets/Adult>來練習資料前處理。我們使用這個資料集的方式是用來建構預測最後一個收入欄位是'>50K'或'<=50K'。這個資料集已經先切好了Training跟Test。Training又切分為Subtraining與Validation兩個不重疊的集合。

請直接使用作業附帶的資料檔 **adult_m50kv2.pickle**。讀取的方式為:

In [1]:
import pickle
dsfile = 'adult_m50kv2.pickle'
with open(dsfile, 'rb') as fh1:
    adult50kp = pickle.load(fh1)

這是一個Dictionary結構，Keys有:

In [2]:
adult50kp.keys()

dict_keys(['x_train', 'y_train', 'x_test', 'y_test', 'columnname', 'num_col', 'x_subtrain', 'x_subvalid', 'y_subtrain', 'y_subvalid', 'x_subtrain_ib', 'y_subtrain_ib'])

其中x_train與y_train為訓練資料，x_test與y_test為測試資料，columname為欄位名稱，
x_subtrain與y_subtrain為Subtraining, x_subvalid與y_subvalid為validation資料集。

本題的任務如下:

**第一小題** (10%): 實做一個pred_prob函數。這個函數的輸入為資料矩陣、LR的常數項係數與特徵係數，輸出在給定係數下LR對各資料點預測屬於各Class的機率。本題為Binary Classification, 因此第一個Column為Class 0, 第二個Column為Class 1的機率。一般而言，Class 1稱為Postive Class, Class 0 稱為Negative Class。本題>50K為Positive Class。本題禁止直接使用sklearn中的實做。你應該使用Numpy建構此函數。然而，你可以參考sklearn中對此函數的定義<https://scikit-learn.org/1.5/modules/linear_model.html#binary-case>。你的實做應與此文件一致。

請使用下面Python函數定義:

```python
def pred_prob(X, intercept, coefs, twocol = True):
    # Implement your own probability function to predict 
    # the probability in binary logistic regression

```

其中`X`為特徵矩陣，每一個row為一筆資料，不包含常數項。
`intercept`為LR的常數項係數。
`coefs`為 K X 1 的係數Numpy向量。
`twocol`為 Boolean。如True則回傳的機率矩陣為N X 2, 第一個Column為P(Y=0 | X) 第二個Column為P(Y=1 | X)。如False則回傳N X 1矩陣的P(Y=1 | X)。



**第二小題** (15%): 實做LR with L2 Regularization的Loss Function。

此Loss Function的定義如下

$\frac{1}{S} \sum_{i=1}^{n} -s_i(y_i log(p(X_i) + (1 - y_i) log(1 - p(X_i)) + \frac{1}{2} \frac{w^T w}{S \cdot  C}  $

其中$P(X_i)$為LR在目前參數下預測資料點$i$為Positive Class的機率。
$w$為參數向量(不包含常數項係數)。
$s_i$為資料點$i$的全重，$s_i = 1$。
$S = \sum_{i=1}^N s_i$。
$C$ 為Regularization Coefficient，數值越大則對係數的牽制越小(與課程投影片定義不同)。

本題禁止直接使用sklearn中的實做。你應該使用Numpy建構此函數。然而，你可以參考sklearn中對此函數的定義<https://scikit-learn.org/1.5/modules/linear_model.html#binary-case>。你的實做應與此文件一致。

請使用下面Python函數定義:

```python
def lr_logloss(Xtrain, ytrain, intercept, coefs, C):
    # Implement your own loss function for
    # Logistic Regression with L2 regularization
    
```

其中`Xtrain`為特徵矩陣，每一個row為一筆資料，不包含常數項。
`ytrain`為class label, 數值應為0或1。
`intercept`為LR的常數項係數。
`coefs`為 K X 1 的係數Numpy向量。
`C`為regularization coefficient。

**第三小題** (10%): 

(1) 使用 sklearn.linear_model.LogisticRegression()與Sub-training 資料集學習LR參數，印出Intercept與各特徵名稱與係數。(2) 將學好的模型應用在Test Dataset，計算Accuracy, Recall, Precision, F1。可使用sklearn實做。務必在最後具體說明題目所要計算的數值。請勿只印出sklearn的output。

**第四小題** (10%): Loss function visualization。

基於前一小題學習出的係數，(1) 畫出在目前Intercept 附近一單位的Loss Function (2) 畫出在目前係數零(capital-loss)附近一單位的Loss Function。

注意: 由於前一個小題學習出的係數已經對Loss Function最小化，你畫出的圖應該都是U形曲線。


#### Sanity Check

為了幫助同學們自我檢測正確性，在這裡提供幾個關鍵步驟的參考結果。

**第一小題**
```python
# load dataset
dsfile = 'adult_m50kv2.pickle'
with open(dsfile, 'rb') as fh1:
    adult50kp = pickle.load(fh1)

X = adult50kp['x_subtrain'][0:5,]
intercept = -1.5272275
coefs = [0.25950781,  0.34876602,  2.31873776 , 0.78736064,  0.33992389,  0.08704992,
  -0.43884149,  0.06617491, -0.86784172, -1.14138298, -0.0430126,   0.89943298,
  -0.91920029,  0.11168262, -0.20330975, -0.45255335, -0.06209014, -1.1973518,
  -0.32811911,  0.15581135,  0.23931349,  0.97771987, -0.80849467, -0.48881008,
  -0.05761483, -0.61597391, -3.01467409,  0.67615709,  0.82684249,  0.45561501,
   0.78515056,  0.10471469,  0.03536166, -0.18042056, -0.1981496,   0.89739856,
   0.72133736,  0.19974049,  0.02431812, -0.54957554, -0.23797782, -0.19134163,
  -0.08962951, -0.13136345, -0.14984098, -1.82034863,  0.22178759, -0.07676697,
   1.5654472,   0.4801181,  -0.45519986, -2.16013255,  0.56715199, -1.36568413,
  -0.26013768, -0.34160994,  0.30455591,  0.98946547,  0.83849021, -0.55428539,
  -0.01931975,  0.02875685, -0.22012367,  0.165938,    0.24587743, -0.49584621,
   0.27129184,  0.6632467,   1.08311314,  0.355352,    0.23657114, -0.55244221,
  -0.29776791, -0.51492492, -1.08493494, -0.83233382,  0.61660701,  0.38077523,
   0.34522743,  0.10493796,  0.16957889, -0.91882431, -0.07844291, -0.12138313,
  -0.13627414,  0.437241,   -1.40284695,  0.43730002,  0.64656827, -0.12873123,
   0.12363191,  0.30820418, -0.37598606, -0.2384826,  -1.86067539, -0.92314978,
   2.17438484,  1.28232608, -1.05960696, -1.35676708, -0.99932736, -0.64333065]

coefs = np.array(coefs)
coefs = coefs.reshape((-1, 1))
pred_prob(X, intercept, coefs)
```
Output:
```
array([[0.85699649, 0.14300351],
       [0.84396404, 0.15603596],
       [0.54792834, 0.45207166],
       [0.99604068, 0.00395932],
       [0.91956486, 0.08043514]])
```


**第二小題**

```python
Xtrain = adult50kp['x_subtrain']
ytrain = adult50kp['y_subtrain']
lr_logloss(Xtrain, ytrain, intercept, coefs, 1000)
```

Output:
```
0.32275140356935755
```

---

### 第二題 [Chi-Squared Feature Selection] 

注意:
* 本題應以Numpy實做，禁用現成的Chi-squared Feature Selection函數如sklearn.feature_selection.chi2()或scipy.stats.chisquare()或scipy.stats.chisquare()或scipy.stats.chi2_contingency()
* sklearn.feature_selection.chi2() 實做的方式不是標準的Chi-squared test (cf. <https://github.com/scikit-learn/scikit-learn/blob/d5082d32d/sklearn/feature_selection/_univariate_selection.py#L195>)。本題要求你依照課程投影片的說明以標準的Chi-squared test方式實做。如果你的結果與 sklearn.feature_selection.chi2()是正常的。


(30%) 在Univariate Feature Selection的情境下實做Chi-Squared Feature Selection Method。

請使用下面Python函數定義:


```python
def my_chi2_fs(X, y):
    # Compute chi-squared statistics for each columns in X
    # X: pandas DataFrame; y: numpy array
    # return: numpy array with chi-squared statistics  
```

為了方便批改與除錯，請將你的實做套用到mbav1.pickle的資料集中。資料集載入方式如下:

```python
import pandas as pd
import pickle
import numpy as np
dsfile = "mbav1.pickle"
with open(dsfile, "rb") as fh1:
    mba = pickle.load(fh1)

catcol = mba['x_train'].select_dtypes('object').columns
print("categorical columns:", catcol)
x_traincat = mba['x_train'][catcol].copy()
```

實做好的my_chi2_fs()應該有下面的行為:

```python
chi2vec = my_chi2_fs(x_traincat, mba['y_train'])
for i, acol in enumerate(x_traincat.columns):
    print(f"{acol:20s} {chi2vec[i]:.4f}")
```

Output

```
gender               0.1106
major                4.1315
race                 0.9505
work_industry        16.3957
```


### 第三題 [Forward Feature Selection] 

注意: 本題禁用現成的Feature Selection Pipeline, 如sklearn.feature_selection.SelectFromModel()

(25%) Forward Feature Selection是一個常見的Model-based Feature Selection Method。方法在概念上單純，但在實做上各異。我們在這裡練習一個使用Train-Valid-Test Split的Forward Feature Selection作法。這個作法使用Validation Set決定要把那個Feature加入。並在Validation Set的Performance不再進步時即停止整個程序。

較詳細的作法如下:

* Let 𝑀_0 denote the null model (no predictors); M_k = the model with k predictors (i.e., features); p = number of features
* For Step k=0, 1, 2, …, 𝑝−1:
    * Consider all p - k models that augment the predictors in 𝑀_k with one additional predictor. For each possibility; compute the prediction performance (F1 score) on the validation set and select one with the best performance.
    * Stop if the best validation performance no longer increase.

本題的資料集由pickle file載入 (A Dictionary):
```python
# load dataset
dsfile = 'adult_m50kv2.pickle'
with open(dsfile, 'rb') as fh1:
    adult50kp = pickle.load(fh1)

```

* training set keys: x_subtrain, y_subtrain
* validation set keys: x_subvalid, y_subvalid
* test set keys: x_test, y_test

為了方便比較，請使用下面的 LR Learner: sklearn.linear_model.LogisticRegression(solver = 'lbfgs', C= 1000, max_iter = 1000, tol=1e-5)

(1) (5%) 總共有多少Features, 多少Training, Validation, Test Data?
(2) (5%) 在Training Set上訓練，並在Validation Set與Test Set上計算F1 Score。
(3) (15%) 使用上面的Forward Feature Selection作法，依序報告被選取的特徵與其Validation F1 Score與最後所有被選取的特徵的Test F1 Score。與(2)比較並討論。
