<a href="https://colab.research.google.com/github/lewis738/scikit_learning/blob/main/01_Getting_Started.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Getting started**

## Fitting and predicting: estimator basics
原文链接[在此](https://scikit-learn.org/stable/getting_started.html)，这个文件练习`fit`和`predict`的使用


In [None]:
!pip install scikit-learn # 安装sklearn，注意全称不是sklearn



In [None]:
from sklearn.ensemble import RandomForestClassifier #引入随机森林分类器的包

样例使用的是一个3个特征二分类问题，首先初始化一个随机森林估计器，然后初始化训练数据X和对应目标值Y

In [None]:
clf = RandomForestClassifier(random_state=0)  
X = [[1, 2, 3], # 2 samples, 3 features
     [11, 12, 13]]
Y = [0, 1]  # classes of each sample

In [None]:
clf.fit(X, Y)

RandomForestClassifier(random_state=0)

`fit`方法能接受两个变量：



*   `X`：样例矩阵，其尺寸为`(n_samples, n_features)`即样例数×特征数，其中每一行表示一个样例，每一列对应一个特征；
*   `Y`：目标值，对应回归问题中的真实值，或者分类问题中代表不同类别的整数值（或其他离散值），对于无监督学习，一般不需要指定`Y`；`Y`一般是一位数组`array`，其中第`i`个记录`entry`表示`X`中第i条记录/样例的目标值。

`X`和`Y`一般应为`numpy array`类新的变量，或类似的数组类型的变量，少部分的估计器需要的是其他类型（例如稀疏矩阵）。

在对`estimator`使用了`fit`方法后，就能对新数据进行预测，而不需要重新进行训练。

In [None]:
clf.predict(X)  # predict classes of the training data

array([0, 1])

In [None]:
clf.predict([[4, 5, 6], [14, 15, 16]])  # predict classes of new data

array([0, 1])

## Transformers and pre-processors
原文链接[在此](https://scikit-learn.org/stable/getting_started.html#transformers-and-pre-processors)，这个文件练习`transformer`和`pre-processor`的使用；

机器学习的工作流一般包括多个步骤，一个典型的数据管道`Pipeline`一般包括数据预处理来转换或导入数据，以及一个最终的预测器`predictor`来进行目标值`Y`的预测。

在`scikit-learn`中，预处理`pre-process`和数据变换`transform`遵循了估计器`estimator`对象的API（实际上他们继承了相同的`BaseEstimator`类）；但是，`transform`没有`predict`方法，而是一个`transform`方法，用于输出对样例数据`X`变换后的结果

In [None]:
from sklearn.preprocessing import StandardScaler  # 数据标准化
X = [[0, 15],
     [1, -10]]
# scale data according to computed scaling values
StandardScaler().fit(X).transform(X)

有时可能需要对不同的特征使用不同的数据变换方法，这时可以使用[列变换](https://scikit-learn.org/stable/modules/compose.html#column-transformer)

## Pipelines: chaining pre-processors and estimators
原文链接[在此](https://scikit-learn.org/stable/getting_started.html#pipelines-chaining-pre-processors-and-estimators)

  这个文件练习`Pipeline`的使用:

  `transformer`和`pre-processor`可以合在一起，作为一个数据管道（`Pipeline`），数据管道（`Pipeline`）提供的功能（`API`），就像一个估计器（`estimator`）一样，可以对它使用`fit`和`predict`方法，使用`Pipeline`还可以避免数据泄露（即，在训练数据中泄露一些测试数据。后面演示）。

  下面的例子中，导入[鸢尾花数据集](https://scikit-learn.org/stable/datasets.html#datasets)（`Iris dataset`），将其划分为训练集`train`和测试集`test`，最后计算`Pipeline`在训练集上的预测精度。



In [None]:
from sklearn.datasets import load_iris  #Load dataset导入数据集
from sklearn.model_selection import train_test_split  #split dataset 划分数据集为训练集和测试集用
from sklearn.preprocessing import StandardScaler   # 数据标准化
from sklearn.linear_model import LogisticRegression # 逻辑回归拟合器
from sklearn.pipeline import make_pipeline  # 用于构造一个Pipeline
from sklearn.metrics import accuracy_score  # 用于计算精确度评分

# create a pipeline object 创建一个pipeline对象
pipe = make_pipeline(
    StandardScaler(),
    LogisticRegression()
)

# load the iris dataset and split it into train and test sets 导入数据集并划分train和test
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# fit the whole pipeline
pipe.fit(X_train, y_train)


# we can now use it like any other estimator 可以看到用Pipeine和用其他estimator一样
accuracy_score(pipe.predict(X_test), y_test)