# scikit-learn (sklearn)

它是一個開源的機器學習庫，被廣泛用於數據科學和機器學習任務。scikit-learn 提供了許多常用的機器學習算法、數據處理工具和評估指標，讓用戶能夠快速構建並訓練機器學習模型。

主要特點：

1. 簡單易用：scikit-learn 設計簡單直觀，提供一致的 API 接口，易於學習和使用。

2. 豐富的算法：scikit-learn 支持多種監督式和非監督式學習算法，包括線性回歸、邏輯回歸、支持向量機、決策樹、隨機森林、k-近鄰算法、聚類算法等等。

3. 數據預處理：scikit-learn 提供了一系列功能來進行數據預處理，包括特徵縮放、特徵選擇、缺失值處理等。

4. 模型評估：scikit-learn 提供了評估模型性能的工具，例如交叉驗證、混淆矩陣、ROC曲線等。

5. 多種數據格式支持：scikit-learn 支持 NumPy 數組、Pandas 數據框和 SciPy 稀疏矩陣等多種數據格式。

6. 集成方法：scikit-learn 提供了用於特徵選擇、數據處理和模型選擇的方便工具。

7. 社群支持：scikit-learn 是一個活躍的開源項目，擁有廣泛的用戶社群和豐富的文檔，您可以在官方網站和 GitHub 上找到詳細的文檔和示例。

## sklearn 的一些子模塊

1. sklearn.datasets：用於加載和生成示例數據集的子模塊。它包含了一些內置的測試數據集，如Iris（鳶尾花）數據集、Boston房價數據集等，可以用於練習和測試機器學習模型。

2. sklearn.feature_extraction：特徵提取相關的子模塊，用於從文本或其他非數字數據中提取特徵。包括文本特徵提取（如TfidfVectorizer）和圖像特徵提取等。

3. sklearn.pipeline：用於構建和管理機器學習工作流程的子模塊。可以將多個數據處理步驟和模型構建步驟組合成一個Pipeline，使代碼更加模組化和易於管理。

4. sklearn.metrics：評估指標相關的子模塊，用於評估機器學習模型的性能。包含了各種分類、回歸和聚類模型的性能指標，如準確率、精確率、召回率、F1分數等。

5. sklearn.preprocessing：數據預處理相關的子模塊，用於對數據進行預處理，如標準化、正規化、編碼類別變量等。

6. sklearn.model_selection：模型選擇和評估相關工具，包括交叉驗證、網格搜索、參數調整和分割資料等。

7. sklearn.naive_bayes：朴素貝葉斯相關的子模塊，包含了多種朴素貝葉斯分類器，如高斯朴素貝葉斯、多項式朴素貝葉斯等。

8. sklearn.cluster：聚類相關的子模塊，包括K-Means、DBSCAN等聚類算法。

9. sklearn.ensemble：集成學習相關的子模塊，包含隨機森林、梯度提升機等。

10. sklearn.svm：支持向量機相關的子模塊，用於建立和訓練支持向量機模型。

11. sklearn.tree：決策樹相關的子模塊，用於建立和訓練決策樹模型。

12. sklearn.neural_network：神經網絡相關的子模塊，包含多層感知器（MLP）等神經網絡模型。

13. sklearn.manifold：流形學習相關的子模塊，用於非線性降維和流形學習，如t-SNE算法。

14. sklearn.metrics.cluster：用於評估聚類模型的性能指標，如Adjusted Rand Index、Normalized Mutual Information等。

15. sklearn.multiclass：多類別分類相關的子模塊，用於處理多類別分類問題。

16. sklearn.multioutput：多輸出分類和回歸相關的子模塊，用於處理多輸出問題。

17. sklearn.kernel_approximation：用於核近似的子模塊，將核方法應用於高維數據。

18. sklearn.impute：缺失值填補相關的子模塊，用於處理缺失值。

19. sklearn.compose：用於組合多個估計器的子模塊，如將多個預處理步驟和模型構建步驟組合成一個管道。

20. sklearn.externals：包含一些過時的功能和模塊，由於版本更新，這些功能可能不再推薦使用。

### 提取練習用資料
```python
from sklearn.datasets import "dataset"
```

In [11]:
from sklearn.datasets import load_iris

# 加載 Iris（鳶尾花）數據集
iris = load_iris()

# 數據集中的特徵和標籤
X = iris.data   # 特徵矩陣
y = iris.target # 標籤向量

# 打印數據集的描述
#print(iris.DESCR)

### model_selection

用於模型選擇和評估。這個子模塊提供了一系列函數和工具，幫助用戶進行模型的選擇、優化和評估，以提高機器學習模型的性能和泛化能力。

常用的函數

1. train_test_split：用於將數據集分割為訓練集和測試集。

    * train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify)

    * arrays：要分割的數據集和標籤（特徵矩陣和目標向量）。
    
    * test_size（float 或 int 或 None）：測試集大小，可以是浮點數（表示測試集的比例）或整數（表示測試集的樣本數）。
    
    * random_state（int 或 RandomState 或 None）：隨機種子，用於控制隨機分割的結果。
    
    * shuffle（bool）：是否在分割之前對數據進行隨機打亂。
    
    * stratify（array-like 或 None）：用於分層抽樣，確保訓練集和測試集中的類別比例與原始數據集一致（僅在分類問題中使用）。
---
2. StratifiedShuffleSplit：分層隨機抽樣分割器，用於將數據集進行分層隨機抽樣，生成訓練集和測試集。

    * StratifiedShuffleSplit(n_splits, test_size, train_size, random_state)

    * n_splits（int）：分割數量，即要劃分的訓練集和測試集對的數量。
---
3. cross_val_score：交叉驗證函數，用於對模型進行交叉驗證，評估模型的性能。它將數據集分成 k 折，進行 k 次訓練和測試，得到 k 個評估指標，用於衡量模型的性能。

    * cross_val_score(estimator, X, y, cv, scoring, n_jobs, ...)

    * X（array-like）：特徵矩陣。

    * y（array-like）：目標向量。

    * cv（int 或 交叉驗證生成器）：交叉驗證策略，可以是整數（表示 K 折交叉驗證）或交叉驗證生成器。

    * scoring（string 或 callable）：評估指標，用於計算得分。

    * n_jobs（int）：並行運算的作業數。如果設置為 -1，則使用所有可用的 CPU。

    * 其他參數：例如 groups（用於群組交叉驗證）等。
---
3. KFold 和 StratifiedKFold：交叉驗證的分割器類，用於將數據集分成 k 折進行交叉驗證。KFold 是普通的 k 折交叉驗證，StratifiedKFold 是分層抽樣的 k 折交叉驗證，確保每個折中的類別比例與原始數據集保持一致。

    * KFold(n_splits, shuffle, random_state)

    * n_splits（int）：折數 K。

    * shuffle（bool）：是否在分割之前對數據進行隨機打亂。默認為 False。
---
4. GridSearchCV：網格搜索交叉驗證，用於對模型進行超參數的網格搜索和交叉驗證，尋找最佳的超參數組合，以提高模型性能。

    * GridSearchCV(estimator, param_grid, cv, scoring, n_jobs, ...)

    * estimator：待調參的模型。

    * param_grid：參數網格，需要嘗試的參數組合。

    * cv：交叉驗證策略，可以是整數（表示 K 折交叉驗證）或交叉驗證生成器。

    * scoring：評估指標，用於選擇最佳參數。
---
5. RandomizedSearchCV：隨機搜索交叉驗證，與 GridSearchCV 類似，但是它是對超參數進行隨機搜索，適用於超參數空間很大的情況。

    * RandomizedSearchCV(estimator, param_distributions, n_iter, cv, scoring, n_jobs, ...)

    * param_distributions：一個字典，包含了待搜索的超參數和其對應的取值範圍。字典的 key 是超參數的名稱，value 是一個取值範圍，可以是單一數值、數值範圍、列表等。

    * n_iter：進行隨機搜索的迭代次數。隨機搜索會在 param_distributions 定義的超參數空間中隨機選取 n_iter 組參數組合進行評估。
---
6. learning_curve：學習曲線函數，用於繪製模型的學習曲線，顯示模型在訓練集和測試集上的性能隨著數據量的變化。

    * learning_curve(estimator, X, y, train_sizes, cv, scoring, n_jobs, ...)
---
7. validation_curve：驗證曲線函數，用於繪製模型的驗證曲線，顯示模型在不同超參數下的性能變化，幫助選擇最佳的超參數。

    * validation_curve(estimator, X, y, param_name, param_range, cv, scoring, n_jobs, ...)

    * param_name（string）：參數名稱。

    * param_range（array-like）：參數值範圍。

#### 分割
[參考資料](https://ithelp.ithome.com.tw/articles/10290884)

train_test_split 和 StratifiedShuffleSplit 的差別在於 :
* train_test_split : 一次只能分割整組資料
* StratifiedShuffleSplit : 可以依照給定的組別, 每組個別去分割. 這又能有效讓資料跟接近原始資料.

兩種分割皆可以依照 label 的比例去分割(分割後 label 的比例接近).


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import StratifiedShuffleSplit, train_test_split

housing = pd.read_csv("https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.csv")

In [9]:
# 新增 "income_cat" 的 col, 其值為 1 至 5, 分別對應 median_income 那個 col 上值介於0~1.5、1.5~3.0,...,6.0~inf 的值.
housing["income_cat"] = pd.cut(housing["median_income"],
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])

#每個分組都取20%放入測試集
Split = StratifiedShuffleSplit(n_splits = 1, test_size = 0.2, random_state = 42)  #設定分割方法, n_splits 為交叉驗證的折(fold)數.

for train_index, test_index in Split.split(housing, housing["income_cat"]): #雖然寫成for, 不過只會進行一次運算, 因為前面 n_splits 為 1
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

In [10]:
# 比較比例
def income_cat_proportions(data):
    return data["income_cat"].value_counts() / len(data)

train_set, test_set = train_test_split(housing, test_size = 0.2, random_state=42) # 使用 train_test_split 分割的結果

compare_props = pd.DataFrame({
                "Overall": income_cat_proportions(housing), # 原始比例
                "Stratified": income_cat_proportions(strat_test_set), # 使用 StratifiedShuffleSplit 分割後的比例
                "Random": income_cat_proportions(test_set) # 使用 train_test_split 分割後的比例
                }).sort_index() # 依照index 排序
compare_props

Unnamed: 0,Overall,Stratified,Random
1,0.039826,0.039971,0.040213
2,0.318847,0.318798,0.32437
3,0.350581,0.350533,0.358527
4,0.176308,0.176357,0.167393
5,0.114438,0.114341,0.109496


In [12]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LinearRegression

# 加載波士頓房價數據集
data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='MEDV')

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 創建線性回歸模型
model = LinearRegression()

# 使用 5 fold CV 在訓練集上進行交叉驗證
cv_scores = cross_val_score(model, X_train, y_train, cv=5)

# 計算交叉驗證的平均得分
mean_cv_score = np.mean(cv_scores)

# 在訓練集上擬合模型
model.fit(X_train, y_train)

# 在測試集上進行預測
y_pred = model.predict(X_test)

# 計算均方誤差
mse = np.mean((y_test - y_pred) ** 2)
print("均方誤差:", mse)
print("交叉驗證平均得分:", mean_cv_score)

均方誤差: 24.29111947497383
交叉驗證平均得分: 0.7244357342240255



    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np

        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_ho

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 18.7, 16. , 22.2, 25. , 33. , 23.5,
       19.4, 22. , 17.4, 20.9, 24.2, 21.7, 22.8, 23.4, 24.1, 21.4, 20. ,
       20.8, 21.2, 20.3, 28. , 23.9, 24.8, 22.9, 23.9, 26.6, 22.5, 22.2,
       23.6, 28.7, 22.6, 22. , 22.9, 25. , 20.6, 28.4, 21.4, 38.7, 43.8,
       33.2, 27.5, 26.5, 18.6, 19.3, 20.1, 19.5, 19.5, 20.4, 19.8, 19.4,
       21.7, 22.8, 18.8, 18.7, 18.5, 18.3, 21.2, 19.2, 20.4, 19.3, 22. ,
       20.3, 20.5, 17.3, 18.8, 21.4, 15.7, 16.2, 18. , 14.3, 19.2, 19.6,
       23. , 18.4, 15.6, 18.1, 17.4, 17.1, 13.3, 17.8, 14. , 14.4, 13.4,
       15.6, 11.8, 13.8, 15.6, 14.6, 17.8, 15.4, 21