<a href="https://colab.research.google.com/github/lewis738/scikit_learning/blob/main/01_Getting_Started.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Getting started**

## Fitting and predicting: estimator basics
原文链接[在此](https://scikit-learn.org/stable/getting_started.html)，这个文件练习`fit`和`predict`的使用


In [None]:
!pip install scikit-learn # 安装sklearn，注意全称不是sklearn



In [None]:
from sklearn.ensemble import RandomForestClassifier #引入随机森林分类器的包

样例使用的是一个3个特征二分类问题，首先初始化一个随机森林估计器，然后初始化训练数据X和对应目标值Y

In [None]:
clf = RandomForestClassifier(random_state=0)  
X = [[1, 2, 3], # 2 samples, 3 features
     [11, 12, 13]]
Y = [0, 1]  # classes of each sample

In [None]:
clf.fit(X, Y)

RandomForestClassifier(random_state=0)

`fit`方法能接受两个变量：



*   `X`：样例矩阵，其尺寸为`(n_samples, n_features)`即样例数×特征数，其中每一行表示一个样例，每一列对应一个特征；
*   `Y`：目标值，对应回归问题中的真实值，或者分类问题中代表不同类别的整数值（或其他离散值），对于无监督学习，一般不需要指定`Y`；`Y`一般是一位数组`array`，其中第`i`个记录`entry`表示`X`中第i条记录/样例的目标值。

`X`和`Y`一般应为`numpy array`类新的变量，或类似的数组类型的变量，少部分的估计器需要的是其他类型（例如稀疏矩阵）。

在对`estimator`使用了`fit`方法后，就能对新数据进行预测，而不需要重新进行训练。

In [None]:
clf.predict(X)  # predict classes of the training data

array([0, 1])

In [None]:
clf.predict([[4, 5, 6], [14, 15, 16]])  # predict classes of new data

array([0, 1])

## Transformers and pre-processors
原文链接[在此](https://scikit-learn.org/stable/getting_started.html#transformers-and-pre-processors)，这个文件练习`transformer`和`pre-processor`的使用；

机器学习的工作流一般包括多个步骤，一个典型的数据管道`Pipeline`一般包括数据预处理来转换或导入数据，以及一个最终的预测器`predictor`来进行目标值`Y`的预测。

在`scikit-learn`中，预处理`pre-process`和数据变换`transform`遵循了估计器`estimator`对象的API（实际上他们继承了相同的`BaseEstimator`类）；但是，`transform`没有`predict`方法，而是一个`transform`方法，用于输出对样例数据`X`变换后的结果

In [None]:
from sklearn.preprocessing import StandardScaler  # 数据标准化
X = [[0, 15],
     [1, -10]]
# scale data according to computed scaling values
StandardScaler().fit(X).transform(X)

有时可能需要对不同的特征使用不同的数据变换方法，这时可以使用[列变换](https://scikit-learn.org/stable/modules/compose.html#column-transformer)

## Pipelines: chaining pre-processors and estimators
原文链接[在此](https://scikit-learn.org/stable/getting_started.html#pipelines-chaining-pre-processors-and-estimators)

  这个文件练习`Pipeline`的使用:

  `transformer`和`pre-processor`可以合在一起，作为一个数据管道（`Pipeline`），数据管道（`Pipeline`）提供的功能（`API`），就像一个估计器（`estimator`）一样，可以对它使用`fit`和`predict`方法，使用`Pipeline`还可以避免数据泄露（即，在训练数据中泄露一些测试数据。后面演示）。

  下面的例子中，导入[鸢尾花数据集](https://scikit-learn.org/stable/datasets.html#datasets)（`Iris dataset`），将其划分为训练集`train`和测试集`test`，最后计算`Pipeline`在训练集上的预测精度。



In [None]:
from sklearn.datasets import load_iris  #Load dataset导入数据集
from sklearn.model_selection import train_test_split  #split dataset 划分数据集为训练集和测试集用
from sklearn.preprocessing import StandardScaler   # 数据标准化
from sklearn.linear_model import LogisticRegression # 逻辑回归拟合器
from sklearn.pipeline import make_pipeline  # 用于构造一个Pipeline
from sklearn.metrics import accuracy_score  # 用于计算精确度评分

# create a pipeline object 创建一个pipeline对象
pipe = make_pipeline(
    StandardScaler(),
    LogisticRegression()
)

# load the iris dataset and split it into train and test sets 导入数据集并划分train和test
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# fit the whole pipeline
pipe.fit(X_train, y_train)


# we can now use it like any other estimator 可以看到用Pipeine和用其他estimator一样
accuracy_score(pipe.predict(X_test), y_test)

## Model evaluation
原文链接[在此](https://scikit-learn.org/stable/getting_started.html#model-evaluation)，这个文件练习模型评价`Model evaluation`。

使用`fit`方法使模型拟合与一些数据不代表这个模型对于位置数据可能表现得很好，刚才使用了[`train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split)将数据划分为训练集和测试集，`scikit`中还提供了其他的工具，用于模型评价`Model evaluation`，特别是`cross-validation`。

这里，我们简要地展示一下，使用[`cross_validate`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html#sklearn.model_selection.cross_validate)执行5折交叉验证（`5-fold cross-validation`）。

注意：使用不同的数据划分策略进行手动迭代、并且使用自定义的评分函数也是可以的

In [None]:
from sklearn.datasets import make_regression  # 随机创建一个回归数据集
from sklearn.linear_model import LinearRegression # 线性回归方法
from sklearn.model_selection import cross_validate  # 交叉验证

X, y = make_regression(n_samples=1000, random_state=0)
lr = LinearRegression()

result = cross_validate(lr, X, y)  # defaults to 5-fold CV
result['test_score']  # r_squared score is high because dataset is easy

## Automatic parameter searches 自动调参
原文链接[在此](https://scikit-learn.org/stable/getting_started.html#model-evaluation)，这里介绍自动调参的方法：

所有的估计器都带有参数（专业的叫法是超参数`hyper-parameters`）可以调整，估计器的泛化能力通常极度依赖于几个参数的选取。例如：[随机森林回归`RandomForestRegressor`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html#sklearn.ensemble.RandomForestRegressor) 有一个参数`n_estimators`控制森林中树的数量，`max_depth`控制每棵树的最大深度，一般而言，这些参数的值是未知的，因为他们取决于手中的数据。

`scikit-learn`中提供了一些工具，用于自动搜索最佳的参数组合【通过交叉验证法】，在下面的例子中，我们使用[`RandomizedSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html#sklearn.model_selection.RandomizedSearchCV)对象，在随机森林的参数空间中进行随机搜索，搜索结束后，得到的[`RandomizedSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html#sklearn.model_selection.RandomizedSearchCV)对象就像使用最优参数组合进行训练`fit`后的['RandomForestRegressor'](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html#sklearn.ensemble.RandomForestRegressor)对象一样。

In [2]:
from sklearn.datasets import fetch_california_housing #  数据集
from sklearn.ensemble import RandomForestRegressor  #随机森林回归
from sklearn.model_selection import RandomizedSearchCV  # 基于Cv的随机搜索
from sklearn.model_selection import train_test_split  # 数据集划分
from scipy.stats import randint  # 均匀离散随机变量

X, y = fetch_california_housing(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# define the parameter space that will be searched over
param_distributions = {'n_estimators': randint(1, 5), # 指定搜索范围
                       'max_depth': randint(5, 10)}

# now create a searchCV object and fit it to the data
search = RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0),
                            n_iter=5,
                            param_distributions=param_distributions,
                            random_state=0)
search.fit(X_train, y_train)

RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0), n_iter=5,
                   param_distributions={'max_depth': <scipy.stats._distn_infrastructure.rv_frozen object at 0x7f9d8a6c5450>,
                                        'n_estimators': <scipy.stats._distn_infrastructure.rv_frozen object at 0x7f9d8a6c55d0>},
                   random_state=0)

In [3]:
search.best_params_ #搜索结果

{'max_depth': 9, 'n_estimators': 4}

In [4]:
# the search object now acts like a normal random forest estimator
# with max_depth=9 and n_estimators=4
search.score(X_test, y_test)

0.735363411343253

**注意：**实际中，经常希望对于一个pipeline进行参数搜索，而不只是一个estimtor；其中的主要原因是，如果不在Pipeline中进行整个数据集的数据预处理，然后使用了某种交叉验证，那么就打破了训练集和测试集间基本的的独立性性假设；实际上，因为是对整个数据集进行的数据预处理，测试集的一些信息已经透露到训练集中了，这可能导致对于估算器泛化能力的过度评价，参考这个[post](https://www.kaggle.com/alexisbcook/data-leakage)；**使用Pipeline进行交叉验证和参数搜索能够在很大程度上避开这个常见的陷阱。**

## Next steps 进一步学习
本文中，简单介绍了估计器`estimator`的fitting、predicting方法、pre-processing的步骤、pipelines、cross-validation 等工具和自动的超参数搜索，这篇文章应该能够让你对sklearn这个库的主要特性有了一定的了解，但实际上还有很多内容等待你去发现。

请参考[用户手册](https://scikit-learn.org/stable/user_guide.html#user-guide)获取关于更多工具的详细内容，[公共API的详尽列表可以在这里找到](https://scikit-learn.org/stable/modules/classes.html#api-ref)

还可以查看在许多不同的场景中使用`scikit-learn`的[例子](https://scikit-learn.org/stable/auto_examples/index.html#general-examples)

[教程页面](https://scikit-learn.org/stable/tutorial/index.html#tutorial-menu)还含有很多学习资源