<img style="float: right;" src="https://doc.shiyanlou.com/document-uid214893labid7506timestamp1555400601684.png">

## 使用交叉验证快速选择模型

---

<i class="fa fa-exclamation-circle" aria-hidden="true"> 以下内容仅保留挑战参考答案代码部分，完整挑战请到原课程页面查看。</i>

---

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：加载 `challenge-6-abalone.csv` 数据集，并预览前 `5` 行。

In [None]:
import pandas as pd

### 代码开始 ### (≈ 2 行代码)
df = pd.read_csv("challenge-6-abalone.csv")
df.head()
### 代码结束 ###

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：预览数据集最后 `5` 行。

In [None]:
### 代码开始 ### (≈ 1 行代码)
df.tail()
### 代码结束 ###

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：给数据集设定正确的列名，并保留被错误用于列名的数据行，同时删除最后一行被错误放置的列名。

In [None]:
### 代码开始 ### (≈ 3～7 行代码)
columns_name = df.iloc[df.index[-1]].values
new_line = df.columns.values
df = df.drop(df.index[-1])
df.columns = columns_name
df = pd.DataFrame([new_line], columns=columns_name).append(df, ignore_index=True)
### 代码结束 ###

In [None]:
### 方法二
df = pd.read_csv("challenge-6-abalone.csv", header=-1)
df.columns = df.iloc[-1].values
df = df.drop(df.index[-1])

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：将数据集目标值（Rings）按照区间替换为 3 种类别，并按照上文要求替换 `Sex` 列。

In [None]:
### 代码开始 ### (≈ 3~5 行代码)
df['Rings'] = pd.to_numeric(df['Rings'])
df['Rings'] = pd.cut(df.Rings, bins=[0, 10, 20, 30], labels=['small','middle','large'])
df['Sex'] = df.Sex.replace({'M':0, 'F':1, 'I':2})
### 代码结束 ###

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：使用 `KFold()` 将数据集划分为 `10` 折，指定参数：`shuffle=False`，`random_state=50`。

In [None]:
### 代码开始 ### (≈ 2 行代码)
from sklearn.model_selection import KFold
kf = KFold(n_splits=10, random_state=50)
### 代码结束 ###

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：使用 K-近邻方法构建机器学习分类模型，并进行 10 折交叉验证。

In [None]:
### 代码开始 ### (≈ 4~7 行代码)
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

features = df.iloc[:, 0:8]
target = df['Rings']

model = KNeighborsClassifier()
cross_val_score(model, X=features, y=target, cv=10)
### 代码结束 ###

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：使用 10 折交叉验证方法测试鲍鱼数据集在逻辑回归、K 近邻、支持向量机、人工神经网络、决策树、随机森林、Adaboost 默认参数下的表现结果，并取 10 折交叉验证结果取平均值。

In [None]:
"""加载分类器模块
"""
### 代码开始 ### (≈ 7 行代码)
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier

### 代码结束 ###

"""各分类模型 10 折交叉验证函数
"""
def classifiers():
    
    """
    参数:无

    返回:
    scores -- 各分类模型 10 折交叉验证平均结果（列表）
    """
    ### 代码开始 ### (> 10 行代码)
    scores = []
    
    models = [
        LogisticRegression(),
        KNeighborsClassifier(),
        SVC(),
        MLPClassifier(),
        DecisionTreeClassifier(),
        RandomForestClassifier(),
        AdaBoostClassifier()]
    
    for model in models:
        score = cross_val_score(model, X=features, y=target, cv=10)
        mean_score = np.mean(score)
        scores.append(mean_score)
    ### 代码结束 ###
    
    return scores

---

<img src="https://doc.shiyanlou.com/document-uid214893labid7506timestamp1545810029884.png">