# 在 scikit learn 中训练模型

在此部分，我们依然使用在前几个部分使用的数据集。

<img src="../../../files/img/model/points.png">

在上一部分，我们学习了机器学习领域的一些最重要的分类算法，包括以下算法：

- 逻辑回归
- 神经网络
- 决策树
- 支持向量机

现在我们将有机会在实际数据中运用它们！在 sklearn 中非常简单，只需定义分类器，然后使用下面这行代码使分类器与数据拟合（称为 X, y）：

```
classifier.fit(X,y)
```

以下是我们定义的主分类器，以及必须导入的文件包：

## 逻辑回归

```
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression()
```

## 神经网络

（注意：仅适用于 0.18 或更高版本的 scikit-learn）
```
from sklearn.neural_network import MLPClassifier
classifier = MLPClassifier()
```

## 决策树

```
from sklearn.ensemble import GradientBoostingClassifier
classifier = GradientBoostingClassifier()
```

## 支持向量机

```
from sklearn.svm import SVC
classifier = SVC()
```

## 示例：逻辑回归

我们从头到尾地看看如何读取数据和训练分类器。假设使用上一部分的 X 和 y。然后，以下命令将训练逻辑回归分类器：

```
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression()
classifier.fit(X,y)
```

得出以下界线：

<img src="../../../files/img/model/linear-boundary.png">


## 练习：训练你自己的模型

现在该你来发挥作用了！在下面的练习中，我们将使用以下数据集：

<img src="../../../files/img/model/circle-data.png">

你的目标是使用上述其中一个分类器（逻辑回归、决策树或支持向量机，抱歉，此版本的 sklearn 依然无法使用神经网络，但是我们即将更新！），看看哪个分类器能够更好地拟合数据。点击测试答案看看分类器的图形输出，然后在下面的练习中，输入你认为能更好地拟合数据的分类器！


# 练习题

In [2]:
import pandas
import numpy

# Read the data
data = pandas.read_csv('../../../files/data/test_model/sklearn_classifier_test_model_data.csv')

# Split the data into X and y
X = numpy.array(data[['x1', 'x2']])
y = numpy.array(data['y'])

# import statements for the classification algorithms
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.svm import SVC

# TODO: Pick an algorithm from the list:
# - Logistic Regression
# - Decision Trees
# - Support Vector Machines
# Define a classifier (bonus: Specify some parameters!)
# and use it to fit the data
# Click on `Test Run` to see how your algorithm fit the data!

classifier = LogisticRegression()
classifier.fit(X, y)

# classifier = GradientBoostingClassifier()
# classifier.fit(X, y)

# classifier = SVC()
# classifier.fit(X, y)




LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

# 解决方案

In [None]:
# import statements for the classification algorithms
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

# Logistic Regression Classifier
classifier = LogisticRegression()
classifier.fit(X,y)

# Decision Tree Classifier
classifier = DecisionTreeClassifier()
classifier.fit(X,y)

# Support Vector Machine Classifier
classifier = SVC()
classifier.fit(X,y)




上述哪个算法能够很好地拟合数据？

- 逻辑回归
- 决策树
- 支持向量机
