# scikit-learn (sklearn)

它是一個開源的機器學習庫，被廣泛用於數據科學和機器學習任務。scikit-learn 提供了許多常用的機器學習算法、數據處理工具和評估指標，讓用戶能夠快速構建並訓練機器學習模型。

主要特點：

1. 簡單易用：scikit-learn 設計簡單直觀，提供一致的 API 接口，易於學習和使用。

2. 豐富的算法：scikit-learn 支持多種監督式和非監督式學習算法，包括線性回歸、邏輯回歸、支持向量機、決策樹、隨機森林、k-近鄰算法、聚類算法等等。

3. 數據預處理：scikit-learn 提供了一系列功能來進行數據預處理，包括特徵縮放、特徵選擇、缺失值處理等。

4. 模型評估：scikit-learn 提供了評估模型性能的工具，例如交叉驗證、混淆矩陣、ROC曲線等。

5. 多種數據格式支持：scikit-learn 支持 NumPy 數組、Pandas 數據框和 SciPy 稀疏矩陣等多種數據格式。

6. 集成方法：scikit-learn 提供了用於特徵選擇、數據處理和模型選擇的方便工具。

7. 社群支持：scikit-learn 是一個活躍的開源項目，擁有廣泛的用戶社群和豐富的文檔，您可以在官方網站和 GitHub 上找到詳細的文檔和示例。

## sklearn 的一些子模塊

1. sklearn.datasets：用於加載和生成示例數據集的子模塊。它包含了一些內置的測試數據集，如Iris（鳶尾花）數據集、Boston房價數據集等，可以用於練習和測試機器學習模型。

2. sklearn.feature_extraction：特徵提取相關的子模塊，用於從文本或其他非數字數據中提取特徵。包括文本特徵提取（如TfidfVectorizer）和圖像特徵提取等。

3. sklearn.pipeline：用於構建和管理機器學習工作流程的子模塊。可以將多個數據處理步驟和模型構建步驟組合成一個Pipeline，使代碼更加模組化和易於管理。

4. sklearn.metrics：評估指標相關的子模塊，用於評估機器學習模型的性能。包含了各種分類、回歸和聚類模型的性能指標，如準確率、精確率、召回率、F1分數等。

5. sklearn.preprocessing：數據預處理相關的子模塊，用於對數據進行預處理，如標準化、正規化、編碼類別變量等。

6. sklearn.model_selection：模型選擇和評估相關工具，包括交叉驗證、網格搜索、參數調整和分割資料等。

7. sklearn.naive_bayes：朴素貝葉斯相關的子模塊，包含了多種朴素貝葉斯分類器，如高斯朴素貝葉斯、多項式朴素貝葉斯等。

8. sklearn.cluster：聚類相關的子模塊，包括K-Means、DBSCAN等聚類算法。

9. sklearn.ensemble：集成學習相關的子模塊，包含隨機森林、梯度提升機等。

10. sklearn.svm：支持向量機相關的子模塊，用於建立和訓練支持向量機模型。

11. sklearn.tree：決策樹相關的子模塊，用於建立和訓練決策樹模型。

12. sklearn.neural_network：神經網絡相關的子模塊，包含多層感知器（MLP）等神經網絡模型。

13. sklearn.manifold：流形學習相關的子模塊，用於非線性降維和流形學習，如t-SNE算法。

14. sklearn.metrics.cluster：用於評估聚類模型的性能指標，如Adjusted Rand Index、Normalized Mutual Information等。

15. sklearn.multiclass：多類別分類相關的子模塊，用於處理多類別分類問題。

16. sklearn.multioutput：多輸出分類和回歸相關的子模塊，用於處理多輸出問題。

17. sklearn.kernel_approximation：用於核近似的子模塊，將核方法應用於高維數據。

18. sklearn.impute：缺失值填補相關的子模塊，用於處理缺失值。

19. sklearn.compose：用於組合多個估計器的子模塊，如將多個預處理步驟和模型構建步驟組合成一個管道。

20. sklearn.externals：包含一些過時的功能和模塊，由於版本更新，這些功能可能不再推薦使用。

### 提取練習用資料
```python
from sklearn.datasets import "dataset"
```

In [7]:
from sklearn.datasets import load_iris

# 加載 Iris（鳶尾花）數據集
iris = load_iris()

# 數據集中的特徵和標籤
X = iris.data   # 特徵矩陣
y = iris.target # 標籤向量

# 打印數據集的描述
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

### model_selection

用於模型選擇和評估。這個子模塊提供了一系列函數和工具，幫助用戶進行模型的選擇、優化和評估，以提高機器學習模型的性能和泛化能力。

常用的函數

1. train_test_split：用於將數據集分割為訓練集和測試集。

2. cross_val_score：交叉驗證函數，用於對模型進行交叉驗證，評估模型的性能。它將數據集分成 k 折，進行 k 次訓練和測試，得到 k 個評估指標，用於衡量模型的性能。

3. KFold 和 StratifiedKFold：交叉驗證的分割器類，用於將數據集分成 k 折進行交叉驗證。KFold 是普通的 k 折交叉驗證，StratifiedKFold 是分層抽樣的 k 折交叉驗證，確保每個折中的類別比例與原始數據集保持一致。

4. GridSearchCV：網格搜索交叉驗證，用於對模型進行超參數的網格搜索和交叉驗證，尋找最佳的超參數組合，以提高模型性能。

5. RandomizedSearchCV：隨機搜索交叉驗證，與 GridSearchCV 類似，但是它是對超參數進行隨機搜索，適用於超參數空間很大的情況。

6. learning_curve：學習曲線函數，用於繪製模型的學習曲線，顯示模型在訓練集和測試集上的性能隨著數據量的變化。

7. validation_curve：驗證曲線函數，用於繪製模型的驗證曲線，顯示模型在不同超參數下的性能變化，幫助選擇最佳的超參數。

8. StratifiedShuffleSplit：分層隨機抽樣分割器，用於將數據集進行分層隨機抽樣，生成訓練集和測試集。


#### 分割
[參考資料](https://ithelp.ithome.com.tw/articles/10290884)

In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import StratifiedShuffleSplit

housing = pd.read_csv("https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.csv")

In [11]:
housing

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
