# scikit-learn (sklearn)

它是一個開源的機器學習庫，被廣泛用於數據科學和機器學習任務。scikit-learn 提供了許多常用的機器學習算法、數據處理工具和評估指標，讓用戶能夠快速構建並訓練機器學習模型。

主要特點：

1. 簡單易用：scikit-learn 設計簡單直觀，提供一致的 API 接口，易於學習和使用。

2. 豐富的算法：scikit-learn 支持多種監督式和非監督式學習算法，包括線性回歸、邏輯回歸、支持向量機、決策樹、隨機森林、k-近鄰算法、聚類算法等等。

3. 數據預處理：scikit-learn 提供了一系列功能來進行數據預處理，包括特徵縮放、特徵選擇、缺失值處理等。

4. 模型評估：scikit-learn 提供了評估模型性能的工具，例如交叉驗證、混淆矩陣、ROC曲線等。

5. 多種數據格式支持：scikit-learn 支持 NumPy 數組、Pandas 數據框和 SciPy 稀疏矩陣等多種數據格式。

6. 集成方法：scikit-learn 提供了用於特徵選擇、數據處理和模型選擇的方便工具。

7. 社群支持：scikit-learn 是一個活躍的開源項目，擁有廣泛的用戶社群和豐富的文檔，您可以在官方網站和 GitHub 上找到詳細的文檔和示例。

## sklearn 的一些子模塊

1. sklearn.datasets：用於加載和生成示例數據集的子模塊。它包含了一些內置的測試數據集，如Iris（鳶尾花）數據集、Boston房價數據集等，可以用於練習和測試機器學習模型。

2. sklearn.feature_extraction：特徵提取相關的子模塊，用於從文本或其他非數字數據中提取特徵。包括文本特徵提取（如TfidfVectorizer）和圖像特徵提取等。

3. sklearn.pipeline：用於構建和管理機器學習工作流程的子模塊。可以將多個數據處理步驟和模型構建步驟組合成一個Pipeline，使代碼更加模組化和易於管理。

4. sklearn.metrics：評估指標相關的子模塊，用於評估機器學習模型的性能。包含了各種分類、回歸和聚類模型的性能指標，如準確率、精確率、召回率、F1分數等。

5. sklearn.preprocessing：數據預處理相關的子模塊，用於對數據進行預處理，如標準化、正規化、編碼類別變量等。

6. sklearn.model_selection：模型選擇和評估相關工具，包括交叉驗證、網格搜索、參數調整和分割資料等。

7. sklearn.naive_bayes：朴素貝葉斯相關的子模塊，包含了多種朴素貝葉斯分類器，如高斯朴素貝葉斯、多項式朴素貝葉斯等。

8. sklearn.cluster：聚類相關的子模塊，包括K-Means、DBSCAN等聚類算法。

9. sklearn.ensemble：集成學習相關的子模塊，包含隨機森林、梯度提升機等。

10. sklearn.svm：支持向量機相關的子模塊，用於建立和訓練支持向量機模型。

11. sklearn.tree：決策樹相關的子模塊，用於建立和訓練決策樹模型。

12. sklearn.neural_network：神經網絡相關的子模塊，包含多層感知器（MLP）等神經網絡模型。

13. sklearn.manifold：流形學習相關的子模塊，用於非線性降維和流形學習，如t-SNE算法。

14. sklearn.metrics.cluster：用於評估聚類模型的性能指標，如Adjusted Rand Index、Normalized Mutual Information等。

15. sklearn.multiclass：多類別分類相關的子模塊，用於處理多類別分類問題。

16. sklearn.multioutput：多輸出分類和回歸相關的子模塊，用於處理多輸出問題。

17. sklearn.kernel_approximation：用於核近似的子模塊，將核方法應用於高維數據。

18. sklearn.impute：缺失值填補相關的子模塊，用於處理缺失值。

19. sklearn.compose：用於組合多個估計器的子模塊，如將多個預處理步驟和模型構建步驟組合成一個管道。

20. sklearn.externals：包含一些過時的功能和模塊，由於版本更新，這些功能可能不再推薦使用。

### 提取練習用資料
```python
from sklearn.datasets import "dataset"
```

In [11]:
from sklearn.datasets import load_iris

# 加載 Iris（鳶尾花）數據集
iris = load_iris()

# 數據集中的特徵和標籤
X = iris.data   # 特徵矩陣
y = iris.target # 標籤向量

# 打印數據集的描述
#print(iris.DESCR)

### model_selection

用於模型選擇和評估。這個子模塊提供了一系列函數和工具，幫助用戶進行模型的選擇、優化和評估，以提高機器學習模型的性能和泛化能力。

常用的函數

1. train_test_split：用於將數據集分割為訓練集和測試集。

    * train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify)

    * arrays：要分割的數據集和標籤（特徵矩陣和目標向量）。
    
    * test_size（float 或 int 或 None）：測試集大小，可以是浮點數（表示測試集的比例）或整數（表示測試集的樣本數）。
    
    * random_state（int 或 RandomState 或 None）：隨機種子，用於控制隨機分割的結果。
    
    * shuffle（bool）：是否在分割之前對數據進行隨機打亂。
    
    * stratify（array-like 或 None）：用於分層抽樣，確保訓練集和測試集中的類別比例與原始數據集一致（僅在分類問題中使用）。
---
2. StratifiedShuffleSplit：分層隨機抽樣分割器，用於將數據集進行分層隨機抽樣，生成訓練集和測試集。

    * StratifiedShuffleSplit(n_splits, test_size, train_size, random_state)

    * n_splits（int）：分割數量，即要劃分的訓練集和測試集對的數量。
---
3. cross_val_score：交叉驗證函數，用於對模型進行交叉驗證，評估模型的性能。它將數據集分成 k 折，進行 k 次訓練和測試，得到 k 個評估指標，用於衡量模型的性能。

    * cross_val_score(estimator, X, y, cv, scoring, n_jobs, ...)

    * X（array-like）：特徵矩陣。

    * y（array-like）：目標向量。

    * cv（int 或 交叉驗證生成器）：交叉驗證策略，可以是整數（表示 K 折交叉驗證）或交叉驗證生成器。

    * scoring（string 或 callable）：評估指標，用於計算得分。cross_val_score 會更具指定的模型選擇評分方式, 回歸是使用r2 score, 分類問題是使用 Classification Accuracy

    * n_jobs（int）：並行運算的作業數。如果設置為 -1，則使用所有可用的 CPU。

    * 其他參數：例如 groups（用於群組交叉驗證）等。
---
3. KFold 和 StratifiedKFold：交叉驗證的分割器類，用於將數據集分成 k 折進行交叉驗證。KFold 是普通的 k 折交叉驗證，StratifiedKFold 是分層抽樣的 k 折交叉驗證，確保每個折中的類別比例與原始數據集保持一致。

    * KFold(n_splits, shuffle, random_state)

    * n_splits（int）：折數 K。

    * shuffle（bool）：是否在分割之前對數據進行隨機打亂。默認為 False。
---
4. GridSearchCV：網格搜索交叉驗證，用於對模型進行超參數的網格搜索和交叉驗證，尋找最佳的超參數組合，以提高模型性能。

    * GridSearchCV(estimator, param_grid, cv, scoring, n_jobs, ...)

    * estimator：待調參的模型。

    * param_grid：參數網格，需要嘗試的參數組合。

    * cv：交叉驗證策略，可以是整數（表示 K 折交叉驗證）或交叉驗證生成器。

    * scoring：評估指標，用於選擇最佳參數。
---
5. RandomizedSearchCV：隨機搜索交叉驗證，與 GridSearchCV 類似，但是它是對超參數進行隨機搜索，適用於超參數空間很大的情況。

    * RandomizedSearchCV(estimator, param_distributions, n_iter, cv, scoring, n_jobs, ...)

    * param_distributions：一個字典，包含了待搜索的超參數和其對應的取值範圍。字典的 key 是超參數的名稱，value 是一個取值範圍，可以是單一數值、數值範圍、列表等。

    * n_iter：進行隨機搜索的迭代次數。隨機搜索會在 param_distributions 定義的超參數空間中隨機選取 n_iter 組參數組合進行評估。
---
6. learning_curve：學習曲線函數，用於繪製模型的學習曲線，顯示模型在訓練集和測試集上的性能隨著數據量的變化。

    * learning_curve(estimator, X, y, train_sizes, cv, scoring, n_jobs, ...)
---
7. validation_curve：驗證曲線函數，用於繪製模型的驗證曲線，顯示模型在不同超參數下的性能變化，幫助選擇最佳的超參數。

    * validation_curve(estimator, X, y, param_name, param_range, cv, scoring, n_jobs, ...)

    * param_name（string）：參數名稱。

    * param_range（array-like）：參數值範圍。

#### 分割
[參考資料](https://ithelp.ithome.com.tw/articles/10290884)

train_test_split 和 StratifiedShuffleSplit 的差別在於 :
* train_test_split : 一次只能分割整組資料
* StratifiedShuffleSplit : 可以依照給定的組別, 每組個別去分割. 這又能有效讓資料跟接近原始資料.

兩種分割皆可以依照 label 的比例去分割(分割後 label 的比例接近).


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import StratifiedShuffleSplit, train_test_split

housing = pd.read_csv("https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.csv")

In [9]:
# 新增 "income_cat" 的 col, 其值為 1 至 5, 分別對應 median_income 那個 col 上值介於0~1.5、1.5~3.0,...,6.0~inf 的值.
housing["income_cat"] = pd.cut(housing["median_income"],
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])

#每個分組都取20%放入測試集
Split = StratifiedShuffleSplit(n_splits = 1, test_size = 0.2, random_state = 42)  #設定分割方法, n_splits 為交叉驗證的折(fold)數.

for train_index, test_index in Split.split(housing, housing["income_cat"]): #雖然寫成for, 不過只會進行一次運算, 因為前面 n_splits 為 1
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

In [10]:
# 比較比例
def income_cat_proportions(data):
    return data["income_cat"].value_counts() / len(data)

train_set, test_set = train_test_split(housing, test_size = 0.2, random_state=42) # 使用 train_test_split 分割的結果

compare_props = pd.DataFrame({
                "Overall": income_cat_proportions(housing), # 原始比例
                "Stratified": income_cat_proportions(strat_test_set), # 使用 StratifiedShuffleSplit 分割後的比例
                "Random": income_cat_proportions(test_set) # 使用 train_test_split 分割後的比例
                }).sort_index() # 依照index 排序
compare_props

Unnamed: 0,Overall,Stratified,Random
1,0.039826,0.039971,0.040213
2,0.318847,0.318798,0.32437
3,0.350581,0.350533,0.358527
4,0.176308,0.176357,0.167393
5,0.114438,0.114341,0.109496


#### 交叉驗證

交叉驗證在 sklearn.model_selection 有以下幾個函數可以使用, 函數若使計算 score, 回歸的默認方式是 R^2, 分類問題是使用 Classification Accuracy.

* cross_val_score(estimator, X, y, cv, scoring, n_jobs, ...) :

  會直接算出 estimator 的 cv score.

* KFold(n_splits, shuffle, random_state)

  得到的會是 train 和 test 的 index, 必須自己去 fit model 求 cv score.

* GridSearchCV(estimator, param_grid, cv, scoring, n_jobs, ...)

  會計算各個超參數的 cv score, 

* RandomizedSearchCV(estimator, param_distributions, n_iter, cv, scoring, n_jobs, ...)

---

Score 的計算方式有以下幾個, 以 GridSearchCV 為例 :

* R^2 :
```python
    GridSearchCV(estimator, param_grid, scoring='r2', cv=5)
```
* 平均絕對誤差（Mean Absolute Error，MAE） :
```python
    from sklearn.metrics import make_scorer, mean_absolute_error
    
    scoring = make_scorer(mean_absolute_error)
    grid_search = GridSearchCV(estimator, param_grid, scoring=scoring, cv=5)
```
* 均方誤差（Mean Squared Error，MSE） :
```python
    from sklearn.metrics import make_scorer, mean_squared_error

    scoring = make_scorer(mean_squared_error)
    grid_search = GridSearchCV(estimator, param_grid, scoring=scoring, cv=5)
```
* 對數似然（Log Likelihood） :
```python
    from sklearn.metrics import make_scorer, log_loss

    scoring = make_scorer(log_loss)
    grid_search = GridSearchCV(estimator, param_grid, scoring=scoring, cv=5)
```

---

make_scorer 函數的作用是將一個原始的評分函數轉換成 Scikit-learn 中的評分器（scorer）

使用範例
```python
from sklearn.metrics import make_scorer, mean_squared_error

# 定義自定義的評分函數，例如均方誤差（MSE）
def custom_mse(y_true, y_pred):
    return mean_squared_error(y_true, y_pred)

# 將自定義的評分函數轉換為評分器
scorer = make_scorer(custom_mse)

# 現在 scorer 就是一個符合 Scikit-learn 評分器接口的對象，可以用於交叉驗證或網格搜索
```

#### python

分析 boston data.
1. 使用分割(train_test_split) 將資料分成 train 和 test
2. model 使用 ridge 或 lasso, 超參數(alpha) 從 np.logspace(-3, 3, 13) 這 13 個值決定
3. 交叉驗證的評分(score) 方式為 R^2 (默認方式)

使用 GridSearchCV :

In [26]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import GridSearchCV, cross_val_score, train_test_split
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")

# 載入波士頓房價數據集
boston = load_boston()
X, y = boston.data, boston.target

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 10) # 分割資料

# 建立 Ridge 和 Lasso 回歸模型
ridge = Ridge()
lasso = Lasso()

# 定義超參數網格，這裡我們只調整正則化參數 alpha
param_grid = {'alpha': np.logspace(-3, 3, 13)}

# 使用 5-fold 交叉驗證進行網格搜索
grid_search_ridge = GridSearchCV(ridge, param_grid, scoring='r2', cv=5)
grid_search_lasso = GridSearchCV(lasso, param_grid, scoring='r2', cv=5)

# 訓練 Ridge 和 Lasso 回歸模型
grid_search_ridge.fit(X_train, y_train)
grid_search_lasso.fit(X_train, y_train)

# 打印最佳超參數組合和交叉驗證得分
print("Ridge 最佳超參數組合:", grid_search_ridge.best_params_)
print("Ridge 交叉驗證:", cross_val_score(grid_search_ridge.best_estimator_, X_train, y_train, cv=5).mean())

print("Lasso 最佳超參數組合:", grid_search_lasso.best_params_)
print("Lasso 交叉驗證:", cross_val_score(grid_search_lasso.best_estimator_, X_train, y_train, cv=5).mean())

print('-'*20)

# 使用超參數分析資料
grid_search_ridge.best_estimator_.fit(X_train, y_train)
y_ridge_pred = grid_search_ridge.best_estimator_.predict(X_test)

grid_search_lasso.best_estimator_.fit(X_train, y_train)
y_lasso_pred = grid_search_lasso.best_estimator_.predict(X_test)

# 計算均方誤差
ridge_mse = np.mean((y_test - y_ridge_pred) ** 2)
lasso_mse = np.mean((y_test - y_lasso_pred) ** 2)

print("Ridge 均方誤差:", ridge_mse)
print("Lasso 均方誤差:", lasso_mse)

Ridge 最佳超參數組合: {'alpha': 0.31622776601683794}
Ridge 交叉驗證: 0.7189676987418181
Lasso 最佳超參數組合: {'alpha': 0.0031622776601683794}
Lasso 交叉驗證: 0.7185312058831054
--------------------
Ridge 均方誤差: 34.620632912364236
Lasso 均方誤差: 34.509845273708855



---
使用 cross_val_score

In [37]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import cross_val_score, train_test_split
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")

# 載入波士頓房價數據集
boston = load_boston()
X, y = boston.data, boston.target

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 10) # 分割資料

# 建立 Ridge 和 Lasso 回歸模型
ridge = Ridge()
lasso = Lasso()

# 定義超參數收尋列表
param_grid = np.logspace(-3, 3, 13)
ridge_score_mean = []
lasso_score_mean = []
for Param in param_grid:
    
    # 建立 Ridge 和 Lasso 回歸模型
    ridge_model = Ridge(alpha = Param)
    lasso_model = Lasso(alpha = Param)

    ridge_score_mean.append(cross_val_score(ridge_model, X_train, y_train, cv = 5).mean())
    lasso_score_mean.append(cross_val_score(lasso_model, X_train, y_train, cv = 5).mean())

# R^2 最大值之超參數位置
ridge_min_index = ridge_score_mean.index(max(ridge_score_mean))
lasso_min_index = lasso_score_mean.index(max(lasso_score_mean))

# 最佳超參數
ridge_best_params = param_grid[ridge_min_index]
lasso_best_params = param_grid[lasso_min_index]

# 使用最佳的 cv socre 得到的超參數, 建立模型
ridge_model = Ridge(alpha = ridge_best_params)
lasso_model = Lasso(alpha = lasso_best_params)

print("Ridge 最佳超參數組合:", ridge_best_params)
print("Ridge 交叉驗證:", cross_val_score(ridge_model, X_train, y_train, cv=5).mean())

print("Lasso 最佳超參數組合:", ridge_best_params)
print("Lasso 交叉驗證:", cross_val_score(lasso_model, X_train, y_train, cv=5).mean())

print('-'*20)

# 模型使用最佳的超參數去fit data
ridge_model.fit(X_train, y_train)
y_ridge_pred = ridge_model.predict(X_test)

lasso_model.fit(X_train, y_train)
y_lasso_pred = lasso_model.predict(X_test)

# 計算均方誤差
ridge_mse = np.mean((y_test - y_ridge_pred) ** 2)
lasso_mse = np.mean((y_test - y_lasso_pred) ** 2)

print("Ridge 均方誤差:", ridge_mse)
print("Lasso 均方誤差:", lasso_mse)


Ridge 最佳超參數組合: 0.31622776601683794
Ridge 交叉驗證: 0.7189676987418181
Lasso 最佳超參數組合: 0.31622776601683794
Lasso 交叉驗證: 0.7185312058831054
--------------------
Ridge 均方誤差: 34.620632912364236
Lasso 均方誤差: 34.509845273708855



---
使用 KFold

In [44]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import cross_val_score, train_test_split, KFold
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")

# 載入波士頓房價數據集
boston = load_boston()
X, y = boston.data, boston.target

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 10) # 分割資料

# 建立 Ridge 和 Lasso 回歸模型
ridge = Ridge()
lasso = Lasso()

# 定義超參數收尋列表
param_grid = np.logspace(-3, 3, 13)
ridge_score_mean = []
lasso_score_mean = []

kf = KFold(n_splits = 5, shuffle = True, random_state = 20)
for Param in param_grid:
    # 建立模型
    ridge_model = Ridge(alpha = Param)
    lasso_model = Lasso(alpha = Param)
    ridge_score_list = [] #放置 score
    lasso_score_list = []

    for train_index, test_index in kf.split(X_train):
        # 分割
        CV_X_train, CV_X_test = X_train[train_index], X_train[test_index]
        CV_y_train, CV_y_test = y_train[train_index], y_train[test_index]

        # fit model
        ridge_model.fit(CV_X_train, CV_y_train) 
        lasso_model.fit(CV_X_train, CV_y_train)

        # 計算 cv scores
        ridge_score_list.append(ridge_model.score(CV_X_test, CV_y_test))
        lasso_score_list.append(lasso_model.score(CV_X_test, CV_y_test))
    
    # 計算平均的 cv score
    ridge_score_mean.append(np.mean(ridge_score_list))
    lasso_score_mean.append(np.mean(lasso_score_list))

# R^2 最大值之超參數位置
ridge_min_index = ridge_score_mean.index(max(ridge_score_mean))
lasso_min_index = lasso_score_mean.index(max(lasso_score_mean))

# 最佳超參數
ridge_best_params = param_grid[ridge_min_index]
lasso_best_params = param_grid[lasso_min_index]

# 使用最佳的 cv socre 得到的超參數, 建立模型
ridge_model = Ridge(alpha = ridge_best_params)
lasso_model = Lasso(alpha = lasso_best_params)

print("Ridge 最佳超參數組合:", ridge_best_params)
print("Ridge 交叉驗證:", cross_val_score(ridge_model, X_train, y_train, cv=5).mean())

print("Lasso 最佳超參數組合:", ridge_best_params)
print("Lasso 交叉驗證:", cross_val_score(lasso_model, X_train, y_train, cv=5).mean())

print('-'*20)

# 模型使用最佳的超參數去fit data
ridge_model.fit(X_train, y_train)
y_ridge_pred = ridge_model.predict(X_test)

lasso_model.fit(X_train, y_train)
y_lasso_pred = lasso_model.predict(X_test)

# 計算均方誤差
ridge_mse = np.mean((y_test - y_ridge_pred) ** 2)
lasso_mse = np.mean((y_test - y_lasso_pred) ** 2)

print("Ridge 均方誤差:", ridge_mse)
print("Lasso 均方誤差:", lasso_mse)

Ridge 最佳超參數組合: 0.31622776601683794
Ridge 交叉驗證: 0.7189676987418181
Lasso 最佳超參數組合: 0.31622776601683794
Lasso 交叉驗證: 0.7185312058831054
--------------------
Ridge 均方誤差: 34.620632912364236
Lasso 均方誤差: 34.509845273708855


### sklearn.linear_model

1. Linear Regression : 

    * 線性回歸是一種用於建立線性模型的方法，通常用於預測數值型目標變量。
    * 參數：fit_intercept（是否計算截距，預設為 True）
    * 超參數：無
    * 可用於 polynomial regression, 需使用 PolynomialFeatures(degree = n) 創造參數

```python
    # 多項式回歸
    X_poly = df[['X1']]
    y_poly = df['y']
    poly_features = PolynomialFeatures(degree=2)  # 二次多項式
    X_poly_transformed = poly_features.fit_transform(X_poly)
    reg_poly = LinearRegression()
    reg_poly.fit(X_poly_transformed, y_poly)
```
---
2. Ridge Regression:

    * Ridge 回歸是一種線性回歸的擴展，它使用 L2 正則化來控制模型的複雜度，以防止過度擬合。
    * 參數：alpha（正則化參數，預設為 1.0），fit_intercept（是否計算截距，預設為 True）
    * 超參數：alpha（正則化參數，用於控制模型的複雜度）

---
3. Lasso Regression:

    * Lasso 回歸是一種線性回歸的擴展，它使用 L1 正則化來控制模型的複雜度，同時具有特徵選擇的效果。
    * 參數：alpha（正則化參數，預設為 1.0），fit_intercept（是否計算截距，預設為 True）
    * 超參數：alpha（正則化參數，用於控制模型的複雜度）

---
4. Logistic Regression:

    * 邏輯回歸是一種用於分類問題的線性模型，它通常用於預測二元或多元目標變量的概率。
    * 參數：C（正則化參數的倒數，預設為 1.0），fit_intercept（是否計算截距，預設為 True）, solver (模型中用於優化參數的演算法選項)
    * solver = liblinear: 這是一個內置的優化算法，適用於小型數據集。它使用坐標下降法和拟牛頓法（Limited-memory Broyden-Fletcher-Goldfarb-Shanno algorithm，L-BFGS）來優化參數，適合二元分類或多類別分類問題。
    * solver = lbfgs: 這也是一個內置的優化算法，適用於較大的數據集。它使用拟牛頓法來優化參數，對於多類別分類問題也是有效的。
    * solver = saga: 這是一個支持L1和L2正則化的優化算法，適用於大型數據集。它使用序列最小角回歸算法（Sequential Minimal Optimization algorithm，SMO）來優化參數。
    * 超參數：C（正則化參數，用於控制模型的複雜度）

---
5. ElasticNet Regression:

    * ElasticNet 回歸是 Ridge 和 Lasso 回歸的結合，它同時使用 L1 和 L2 正則化來控制模型的複雜度，可以在具有高度相關特徵的數據集上取得良好的效果。
    * $\frac{1}{2n}\sum({y_i - \hat{y})}^2 + \alpha(l1_{ratio}\sum{|\beta_j|} + \frac{1}{2}(1-l1_{ratio})\sum{\beta_j^2})$
    * 參數：alpha（正則化參數，預設為 1.0），l1_ratio（L1 正則化在綜合正則化中的比例，預設為 0.5），fit_intercept（是否計算截距，預設為 True）
    * 超參數：alpha（正則化參數，用於控制模型的複雜度），l1_ratio（L1 正則化在綜合正則化中的比例，用於控制 L1 和 L2 正則化的相對比例）

---
6. PassiveAggressiveRegressor:

    * PassiveAggressive 回歸是一種適用於線性回歸的算法，它可以處理大量數據，並在線上學習過程中進行模型的更新。
    * 參數：C（正則化參數，預設為 1.0），fit_intercept（是否計算截距，預設為 True）
    * 超參數：C（正則化參數，用於控制模型的複雜度）

---
7. BayesianRidge:

    * BayesianRidge 回歸是一種貝葉斯線性回歸模型，它通過引入先驗分佈來估計模型的參數，並通過最大後驗概率（MAP）估計來進行回歸分析。
    * 參數：alpha_1（L1 正則化的精度，預設為 1e-6），alpha_2（L2 正則化的精度，預設為 1e-6），lambda_1（截距的精度，預設為 1e-6），lambda_2（斜率的精度，預設為 1e-6），fit_intercept（是否計算截距，預設為 True）
    * 超參數：alpha_1（L1 正則化的精度，用於控制 L1 正則化的強度），alpha_2（L2 正則化的精度，用於控制 L2 正則化的強度），lambda_1（截距的精度，用於控制截距的估計精度），lambda_2（斜率的精度，用於控制斜率的估計精度）

---
8. HuberRegressor:

    * HuberRegressor 回歸是一種對異常值具有魯棒性的回歸算法，它使用 Huber 損失函數來平衡平方損失和絕對損失。
    * 參數：epsilon（Huber 損失的閾值，預設為 1.35），fit_intercept（是否計算截距，預設為 True）
    * 超參數：epsilon（Huber 損失的閾值，用於控制對異常值的敏感度）

---
9. RANSACRegressor:

    * RANSACRegressor 回歸是一種穩健(魯棒)性回歸算法，它通過隨機抽樣子集來擬合模型，以應對包含異常值的數據。
    * 參數：min_samples（樣本最小值，預設為 None），residual_threshold（殘差閾值，預設為 None），is_data_valid（樣本是否有效的函數，預設為 None），max_trials（最大迭代次數，預設為 100），fit_intercept（是否計算截距，預設為 True）
    * 超參數：無

---

### sklearn.linear_model 以外的迴歸

1. 支持向量回歸(SVR)

    * 它通過在特徵空間中找到一條線（對於線性SVR）或一個超平面（對於非線性SVR）來進行回歸預測。
    ```python
        from sklearn.svm import SVR
        SVR(kernel='linear', C=1.0, epsilon=0.1)
    ```
    * 參數 : 
    * kernel：用於指定SVM的核函數。可以是'linear'（線性核函數）、'poly'（多項式核函數）、'rbf'（高斯核函數）等。默認是'rbf'。
    * 超參數 :
    * C：用於控制錯誤項的懲罰參數。較小的C值表示容忍較多的錯誤，較大的C值表示更嚴格地避免錯誤。默認值為1.0。
    * epsilon：SVR中的ε，也稱為ε-tube。它用於確定损失函數中允許的預測值和實際值之間的誤差。默認值為0.1。

#### python
Logistic Regression

In [8]:
#######
## 1. 獲得資料並把資料分為 training 和 test
#######

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# 載入數據集
iris = load_iris()
X, y = iris.data, iris.target # 注: 這邊y的變量有3個

# 將數據集分成訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
#######
## 2. 使用GridSearchCV來尋找最佳的超參數組合
#######

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")

# 建立Logistic Regression模型
logistic_model = LogisticRegression()

# 定義超參數網格，這裡我們調整正則化參數C和solver
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],
              'solver': ['liblinear', 'lbfgs', 'saga']}

# 使用5折交叉驗證進行網格搜索
grid_search = GridSearchCV(logistic_model, param_grid, cv=5)

# 訓練模型
grid_search.fit(X_train, y_train)

# 打印最佳超參數組合和交叉驗證得分
print("Logistic Regression 最佳超參數組合:", grid_search.best_params_)
print("Logistic Regression 交叉驗證:", grid_search.best_score_)

Logistic Regression 最佳超參數組合: {'C': 1, 'solver': 'saga'}
Logistic Regression 交叉驗證: 0.975


In [11]:
# 使用最佳超參數組合來建立最終的Logistic Regression模型
best_logistic_model = LogisticRegression(C=grid_search.best_params_['C'], solver=grid_search.best_params_['solver'])

# 訓練最終的模型
best_logistic_model.fit(X_train, y_train)

# 使用測試集來評估模型的性能
accuracy = best_logistic_model.score(X_test, y_test)
print("最終模型的準確率:", accuracy)

最終模型的準確率: 1.0


### sklearn.linear_model 以外的分類器

1. 支持向量機（Support Vector Machine, SVM）：

    * SVM是一種用於二元分類和多元分類的分類算法，通過找到最優的超平面來區分不同類別的數據點。
    * from sklearn.svm import SVC
    * 參數：
    * kernel: 核函數，可選擇'linear'（線性核函數）、'rbf'（高斯核函數）等。
    * C: 正則化參數，控制模型的複雜度，C值越小，正則化越強。
    * 超參數：
    * gamma: 核函數的參數，影響核函數的彎曲程度。
---
2. 決策樹（Decision Tree）：決策樹是一種用於二元分類和多元分類的非線性分類算法，通過樹狀結構進行分類。

    * 決策樹是一種用於二元分類和多元分類的非線性分類算法，通過樹狀結構進行分類。
    * from sklearn.tree import DecisionTreeClassifier
    * 參數：
    * criterion: 分割節點的標準，可選擇'gini'（基尼係數）或'entropy'（信息熵）。
    * max_depth: 樹的最大深度，控制樹的複雜度。
    * 超參數：
    * min_samples_split: 分裂內部節點所需的最小樣本數。
---
3. 隨機森林（Random Forest）：

    * 隨機森林是一種集成學習算法，結合多個決策樹進行分類，通常可以提高模型的準確率。
    * from sklearn.ensemble import RandomForestClassifier
    * 參數：
    * n_estimators: 森林中樹的數量，越多越好，但也會增加計算成本。
    * max_features: 每個決策樹使用的最大特徵數，可以控制模型的複雜度。
    * 超參數：
    * min_samples_split: 分裂內部節點所需的最小樣本數。
---
4. K近鄰算法（K-Nearest Neighbors, KNN）：

    * KNN是一種基於距離的分類算法，通過找到最近的K個鄰居來進行分類。
    * from sklearn.neighbors import KNeighborsClassifier
    * 參數：
    * n_neighbors: 鄰居數量K，控制分類的精確程度。
    * metric: 距離度量方法，可選擇'euclidean'（歐氏距離）等。
---
5. 朴素貝葉斯（Naive Bayes）：

    * 朴素貝葉斯是一種基於貝葉斯定理的分類算法，假設特徵之間是獨立的，通常用於文本分類等問題。
    * from sklearn.naive_bayes import GaussianNB
    * 參數：無。
    * 超參數：無。
---

#### python

<font size = 5>SVM</font>


In [12]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC

# 載入 iris 數據集
iris = load_iris()
X, y = iris.data, iris.target

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 建立支持向量機分類器
svm = SVC()

# 定義超參數網格，包含 C 和 kernel 兩個超參數
param_grid = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf', 'poly']
}

# 使用 5 折交叉驗證進行網格搜索
grid_search = GridSearchCV(svm, param_grid, scoring='accuracy', cv=5)
grid_search.fit(X_train, y_train)

print("最佳超參數組合:", grid_search.best_params_)
print("交叉驗證準確率:", grid_search.best_score_)

最佳超參數組合: {'C': 1, 'kernel': 'linear'}
交叉驗證準確率: 0.9583333333333334


In [13]:
# 使用最佳超參數組合來訓練支持向量機模型
best_svm = SVC(C=grid_search.best_params_['C'], kernel=grid_search.best_params_['kernel'])
best_svm.fit(X_train, y_train)

# 使用測試集來評估模型的性能
accuracy = best_svm.score(X_test, y_test)
print("最終模型的準確率:", accuracy)

最終模型的準確率: 1.0


<font size = 5>決策樹 和 隨機森林</font>

In [14]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier #決策樹
from sklearn.ensemble import RandomForestClassifier #隨機森林
from sklearn.metrics import accuracy_score

# 載入鳶尾花數據集
iris = load_iris()
X, y = iris.data[:, 2:], iris.target

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [15]:
# 建立決策樹分類器
decision_tree = DecisionTreeClassifier(random_state=42)

# 訓練模型
decision_tree.fit(X_train, y_train)

# 在測試集上進行預測
y_pred_decision_tree = decision_tree.predict(X_test)

# 計算準確率
accuracy_decision_tree = accuracy_score(y_test, y_pred_decision_tree)
print("決策樹分類器的準確率：", accuracy_decision_tree) # decision_tree.score(X_test, y_test)


決策樹分類器的準確率： 1.0


In [16]:
# 建立隨機森林分類器
random_forest = RandomForestClassifier(random_state=42)

# 訓練模型
random_forest.fit(X_train, y_train)

# 在測試集上進行預測
y_pred_random_forest = random_forest.predict(X_test)

# 計算準確率
accuracy_random_forest = accuracy_score(y_test, y_pred_random_forest)
print("隨機森林分類器的準確率：", accuracy_random_forest) # random_forest.score(X_test, y_test)


隨機森林分類器的準確率： 1.0


<font size = 5>KNN</font>

In [19]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 創建一個簡單的資料集
X, y = make_classification(n_samples=100, n_features=2, n_classes=2, n_clusters_per_class=1, n_redundant=0, random_state=42)

# 將資料集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [23]:
# 建立KNN分類器，指定鄰居數為3
knn = KNeighborsClassifier(n_neighbors=3) # n_neighbors 為超參數, 這裡直接帶了

# 訓練KNN分類器
knn.fit(X_train, y_train)

# 使用測試集進行預測
y_pred = knn.predict(X_test)

# 計算模型的準確性
accuracy = accuracy_score(y_test, y_pred)
print("準確性：", accuracy)

準確性： 1.0


<font size = 5>Naive Bayes</font>

In [24]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# 創建一個簡單的資料集
X, y = make_classification(n_samples=100, n_features=2, n_classes=2, n_clusters_per_class=1, n_redundant=0, random_state=42)

# 將資料集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [25]:
# 建立Naive Bayes分類器
naive_bayes = GaussianNB()

# 訓練Naive Bayes分類器
naive_bayes.fit(X_train, y_train)

# 使用測試集進行預測
y_pred = naive_bayes.predict(X_test)

# 計算模型的準確性
accuracy = accuracy_score(y_test, y_pred)
print("準確性：", accuracy)

準確性： 0.9


### sklearn.preprocessing

<font size = 5 >處理缺失值</font>

1. SimpleImputer：用於填補缺失值的類別。可以使用均值、中位數、最常見值等方法進行填補。

    * strategy：指定填補缺失值的策略，可以是以下幾種之一：
        * "mean"：使用特徵的均值填補缺失值。
        * "median"：使用特徵的中位數填補缺失值。
        * "most_frequent"：使用特徵的最常見值填補缺失值。
        * "constant"：使用指定的常數值填補缺失值（需要指定fill_value參數）。
    * fill_value：當strategy為"constant"時，指定要填補的常數值。

---
2. KNNImputer：用於使用k最近鄰居算法填補缺失值。

    * n_neighbors：指定k最近鄰居算法中的k值，即填補缺失值時要考慮的鄰居數量。
    * weights：指定k最近鄰居算法中的權重方式，可以是以下幾種之一：
        * "uniform"：所有鄰居的權重相同。
        * "distance"：鄰居的權重與其距離成反比。
    * metric：指定計算鄰居距離的度量方式，例如"euclidean"、"manhattan"等。

---
3. IterativeImputer：用於使用迭代算法填補缺失值。

    * estimator：指定用於估計缺失值的機器學習模型，可以是任何支持fit和predict方法的模型。
    * max_iter：指定迭代的最大次數。
    * initial_strategy：指定初始的填補策略，可以是"mean"、"median"、"most_frequent"或者"constant"。
    * imputation_order：指定填補缺失值的順序，可以是"ascending"（從第一個特徵開始填補）或"descending"（從最後一個特徵開始填補）

---

<font size = 5 >data 調整</font>

1. StandardScaler: 將特徵縮放成標準正態分佈，即平均值為0，標準差為1。

    * 參數：
    * with_mean: bool, 默認為True，是否將特徵縮放成平均值為0。
    * with_std: bool, 默認為True，是否將特徵縮放成標準差為1。

---
2. MinMaxScaler: 將特徵縮放到給定的最小值和最大值之間。

    * 參數：
    * feature_range: tuple, 默認為(0, 1)，指定特徵的最小值和最大值。

---
3. RobustScaler: 將特徵縮放成中位數和四分位距的比例，能夠處理離群值。

    * 參數：
    * with_centering: bool, 默認為True，是否將特徵縮放成中位數為0。
    * with_scaling: bool, 默認為True，是否將特徵縮放成四分位距為1。

---
4. LabelEncoder: 將目標變數（類別）轉換成數字標籤。

    * 參數：無。

---
5. OneHotEncoder: 將目標變數（類別）轉換成二進制的稀疏矩陣表示。

    * 參數：
    * drop: str, 默認為None，指定是否刪除一個特徵類別，以避免共線性。

---
6. PolynomialFeatures: 創建原特徵的高次多項式特徵。

    * 參數：
    * degree: int, 默認為2，指定多項式的次數。

---
7. KBinsDiscretizer: 將連續特徵切割成指定的區間，並將其轉換成整數類別。

    * 參數：
    * n_bins: int or list of ints, 默認為5，指定切割的區間數量或指定每個特徵的切割區間數量。

#### python

<font size = 5>處理缺失值</font>

<font size = 5>SimpleImputer 的例子：</font>

1. 使用 DataFrame.values

In [1]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer

# 假设有一个带有缺失值的 DataFrame
data = pd.DataFrame({'A': [1, 4, 7],
                     'B': [2, np.nan, 8],
                     'C': [np.nan, 6, 9]})

# 将 DataFrame 转换为 NumPy 数组
data_array = data.values

# 建立 SimpleImputer 对象，使用均值填补缺失值
imputer = SimpleImputer(strategy='mean')

# 对数据进行填补
imputed_data_array = imputer.fit_transform(data_array)

print(imputed_data_array)

[[1.  2.  7.5]
 [4.  5.  6. ]
 [7.  8.  9. ]]


2. 使用 apply

In [2]:
import pandas as pd
from sklearn.impute import SimpleImputer

# 假设有一个带有缺失值的 DataFrame
data = pd.DataFrame({'A': [1, 4, 7],
                     'B': [2, np.nan, 8],
                     'C': [np.nan, 6, 9]})

# 建立 SimpleImputer 对象，使用均值填补缺失值
imputer = SimpleImputer(strategy='mean')

# 对 DataFrame 的每一列应用填充方法
imputed_data = data.apply(lambda col: imputer.fit_transform(col.values.reshape(-1, 1)).flatten())

print(imputed_data)

     A    B    C
0  1.0  2.0  7.5
1  4.0  5.0  6.0
2  7.0  8.0  9.0


<font size = 5>IterativeImputer 的例子：</font>

In [3]:
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import LinearRegression

# 假設有一個帶有缺失值的數據
data = np.array([[1, 2, np.nan],
                 [4, np.nan, 6],
                 [7, 8, 9]])

# 建立 IterativeImputer 對象，使用線性回歸模型估計缺失值
imputer = IterativeImputer(estimator=LinearRegression())

# 對數據進行填補
imputed_data = imputer.fit_transform(data)

print(imputed_data)

[[1.         2.         3.00203009]
 [4.         4.99796991 6.        ]
 [7.         8.         9.        ]]


#### python

<font size = 5> data 調整</font>

<font size = 5> StandardScaler </font>

StandardScaler：使用StandardScaler对数据进行标准化。

In [5]:
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")

# Load the Boston dataset
data = load_boston().data

# StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print("StandardScaler:")
print(scaled_data)

StandardScaler:
[[-0.41978194  0.28482986 -1.2879095  ... -1.45900038  0.44105193
  -1.0755623 ]
 [-0.41733926 -0.48772236 -0.59338101 ... -0.30309415  0.44105193
  -0.49243937]
 [-0.41734159 -0.48772236 -0.59338101 ... -0.30309415  0.39642699
  -1.2087274 ]
 ...
 [-0.41344658 -0.48772236  0.11573841 ...  1.17646583  0.44105193
  -0.98304761]
 [-0.40776407 -0.48772236  0.11573841 ...  1.17646583  0.4032249
  -0.86530163]
 [-0.41500016 -0.48772236  0.11573841 ...  1.17646583  0.44105193
  -0.66905833]]


<font size = 5> RobustScaler </font>

RobustScaler：使用RobustScaler对数据进行缩放，可以处理含有异常值的数据。

In [6]:
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")
# Load the Boston dataset
data = load_boston().data

# RobustScaler
robust_scaler = RobustScaler()
robust_scaled_data = robust_scaler.fit_transform(data)
print("RobustScaler:")
print(robust_scaled_data)


RobustScaler:
[[-0.06959315  1.44       -0.57164988 ... -1.33928571  0.26190191
  -0.63768116]
 [-0.06375455  0.         -0.20294345 ... -0.44642857  0.26190191
  -0.22188906]
 [-0.06376011  0.         -0.20294345 ... -0.44642857  0.06667466
  -0.73263368]
 ...
 [-0.05445006  0.          0.17350891 ...  0.69642857  0.26190191
  -0.57171414]
 [-0.04086745  0.          0.17350891 ...  0.69642857  0.09641444
  -0.48775612]
 [-0.05816351  0.          0.17350891 ...  0.69642857  0.26190191
  -0.34782609]]


<font size = 5> LabelEncoder </font>

LabelEncoder：使用LabelEncoder对一个具有三个以上不同类别的分类变量进行编码。

In [1]:
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer

# LabelEncoder
# Assuming 'data' contains a categorical variable with at least three unique categories
le = LabelEncoder()
categorical_variable = ["category1", "category2", "category3"]
encoded_labels = le.fit_transform(categorical_variable)
print("LabelEncoder:")
print(encoded_labels)

LabelEncoder:
[0 1 2]


<font size = 5> PolynomialFeatures </font>

PolynomialFeatures：使用PolynomialFeatures将数据转换为多项式特征。在这个例子中，我们假设原始数据有两个特征(a, b)，转换后会添加额外的特征(a^2, b^2, ab)。

In [2]:
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")
# Load the Boston dataset
data = load_boston().data

# PolynomialFeatures
poly = PolynomialFeatures(degree=2, include_bias=False)
transformed_data = poly.fit_transform(data)
print("PolynomialFeatures:")
print(transformed_data)

PolynomialFeatures:
[[6.32000000e-03 1.80000000e+01 2.31000000e+00 ... 1.57529610e+05
  1.97656200e+03 2.48004000e+01]
 [2.73100000e-02 0.00000000e+00 7.07000000e+00 ... 1.57529610e+05
  3.62766600e+03 8.35396000e+01]
 [2.72900000e-02 0.00000000e+00 7.07000000e+00 ... 1.54315409e+05
  1.58310490e+03 1.62409000e+01]
 ...
 [6.07600000e-02 0.00000000e+00 1.19300000e+01 ... 1.57529610e+05
  2.23851600e+03 3.18096000e+01]
 [1.09590000e-01 0.00000000e+00 1.19300000e+01 ... 1.54802902e+05
  2.54955600e+03 4.19904000e+01]
 [4.74100000e-02 0.00000000e+00 1.19300000e+01 ... 1.57529610e+05
  3.12757200e+03 6.20944000e+01]]


<font size = 5> KBinsDiscretizer </font>

KBinsDiscretizer：使用KBinsDiscretizer将一个具有至少四个不同值的数值变量进行离散化。在这个例子中，我们对第一个特征进行离散化，设定为四个bins，按quantile策略分箱。

In [5]:
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")
# Load the Boston dataset
data = load_boston().data

# KBinsDiscretizer
# Assuming 'data' contains a numerical variable with at least four distinct values
discretizer = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='quantile')
discretized_data = discretizer.fit_transform(data[:, 0].reshape(-1, 1))
print("KBinsDiscretizer:")
print(discretized_data[1:20])


KBinsDiscretizer:
[[0.]
 [0.]
 [0.]
 [0.]
 [0.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [2.]
 [2.]
 [2.]
 [2.]
 [2.]
 [2.]
 [2.]]
