In [16]:
# 範例
from __future__ import print_function, division
from builtins import range



from sklearn.naive_bayes import MultinomialNB
import pandas as pd
import numpy as np

# 註: 理論上 multinomial NB 是針對出現次數 "counts", 但文件上說對出現比率 "word proportions"也適合

data = pd.read_csv('./datasets/spambase.data').values # use pandas for convenience
np.random.shuffle(data) # shuffle each row in-place, but preserve the row

X = data[:,:48]
Y = data[:,-1]

# 最後100列用作測試
Xtrain = X[:-100,]
Ytrain = Y[:-100,]
Xtest = X[-100:,]
Ytest = Y[-100:,]

model = MultinomialNB()
model.fit(Xtrain, Ytrain)
print("Classification rate for NB:", model.score(Xtest, Ytest))



##### 任何 model都行，以下試試 AdaBoost! #####
from sklearn.ensemble import AdaBoostClassifier

model = AdaBoostClassifier()
model.fit(Xtrain, Ytrain)
print("Classification rate for AdaBoost:", model.score(Xtest, Ytest))

Classification rate for NB: 0.89
Classification rate for AdaBoost: 0.92


## 專題說明
- 題目：將已整理好的文件以機器學習方式分辨是否為垃圾郵件
- 說明：輸入文件已處理過，為一D 乘 V(V=48)+1 矩陣，D 代表電郵數，V 代表選出來 (判斷是否垃圾) 的字 (特徵)，所以我們是用 48 個特徵來判斷。列中每行表達的特徵值(feature) = 出現次數 / 該電郵總字數 * 100，最後一行是標註(Label) 是否為垃圾郵件。請用 ML 方法開發出垃圾郵件偵測器並算出預測準確度
- 延伸：可用不同 ML 分類法，可準備自己的垃圾郵件做預處理。
- 範例程式檔名：spam_nb_垃圾郵件偵測器.py，以 Naïve Bayes 方式完成
- 模組：sklearn, pandas, numpy
- 輸入檔：spambase.data
- 成績：辨識百分率


In [48]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV

In [46]:
def get_result_grid(estimator, params, model_name, Xtrain, Ytrain, Xtest, Ytest):
    print(model_name, '結果如下:')
    grid = GridSearchCV(estimator, param_grid=params)
    grid.fit(Xtrain, Ytrain)
    print(grid.best_estimator_)
    print(grid.best_params_)
    print(grid.best_score_)

    print(grid.score(Xtest, Ytest))
    return grid

#### KNN
- distance銓重效果會比較好!

In [47]:
knn_param = {
    'n_neighbors': [5, 10, 15],
    'weights': ['uniform', 'distance'],
}
grid_knn = get_result_grid(KNeighborsClassifier(), knn_param, 'KNN', Xtrain, Ytrain, Xtest, Ytest)

KNN 結果如下:
KNeighborsClassifier(n_neighbors=10, weights='distance')
{'n_neighbors': 10, 'weights': 'distance'}
0.9042222222222221
0.93


#### 隨機森林
- 搜尋的結果，都是default的參數表現最佳

In [49]:
rf_param = {
    'n_estimators': [100, 150],
    'max_depth': [None, 5, 10],
    'min_samples_split': [2, 4]
}

grid_rf = get_result_grid(RandomForestClassifier(), rf_param, '隨機森林', Xtrain, Ytrain, Xtest, Ytest)

隨機森林 結果如下:
RandomForestClassifier()
{'max_depth': None, 'min_samples_split': 2, 'n_estimators': 100}
0.9417777777777777
0.94


#### GDBT
- 效果最佳!但訓練時間需要比較長!
- 發現有控制複雜度的效果較佳

In [50]:
gdbt_param = {
    'n_estimators': [100, 150],
    'max_depth': [None, 5, 10],
    'min_samples_split': [2, 4]
}

grid_gdbt = get_result_grid(GradientBoostingClassifier(), gdbt_param, '梯度提升樹', Xtrain, Ytrain, Xtest, Ytest)

梯度提升樹 結果如下:
GradientBoostingClassifier(max_depth=10, n_estimators=150)
{'max_depth': 10, 'min_samples_split': 2, 'n_estimators': 150}
0.9426666666666668
0.95
