### Diabetes Case Study

现在你将有机会使用一系列的监督学习技术来进行分类和回归。将这些应用到项目中之前，让我们再举一个例子，用另一个流行数据集来从头到尾了解一下机器学习的工作流程。

In [None]:
# Import our libraries
import pandas as pd
import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
import matplotlib.pyplot as plt
from sklearn.svm import SVC
import seaborn as sns
sns.set(style="ticks")

import check_file as ch

%matplotlib inline

# Read in our dataset
diabetes = pd.read_csv('diabetes.csv')

# Take a look at the first few rows of the dataset
diabetes.head()

我们将从加载数据和导入相关库开始。然后，你将了解如何使用网格搜索来优化多个模型。因为这门课程的目的是了解机器学习技术，所以我们在很大程度上省略了创建机器学习模型前的数据分析阶段的相关过程，包括探索性数据分析、特征工程、数据清理和数据整理等。

> **步骤 1：** 让我们完成下面几个步骤。先看一下这个数据集的一些摘要统计数据，以便准确地将统计值与下面的字典中的适当键进行匹配。

In [None]:
# Cells for work


In [None]:
# Possible keys for the dictionary
a = '0.65'
b = '0'
c = 'Age'
d = '0.35'
e = 'Glucose'
f = '0.5'
g = "More than zero"

# Fill in the dictionary with the correct values here
answers_one = {
    'The proportion of diabetes outcomes in the dataset': # add letter here,
    'The number of missing data points in the dataset': # add letter here,
    'A dataset with a symmetric distribution': # add letter here,
    'A dataset with a right-skewed distribution': # add letter here, 
    'This variable has the strongest correlation with the outcome': # add letter here
}

# Just to check your answer, don't change this
ch.check_one(answers_one)

> **步骤 2**：因为我们的数据集非常干净，我们将直接开始机器学习步骤。我们的目标是能够预测糖尿病病例。首先，需要确定y向量和X矩阵。然后，用下面的代码将数据集划分为训练数据和测试数据。

In [None]:
y = # Pull y column
X = # Pull X variable columns

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

现在你已经有一个训练集和一个测试集，我们需要创建一些模型，并最终从中选择一个最好的模型。然而，与前面的课程中使用默认值不同，现在我们要对这些模型进行调优。

通过测试所有可能的超参数组合来找到最佳模型通常很困难（而且非常耗时）。因此，通常我们使用随机搜索。

在实践中，虽然优化的很好，但使用随机搜索来查找超参数会更耗时。这是与此主题相关的一篇[文章](https://blog.h2o.ai/2016/06/hyperparameter-optimization-in-h2o-grid-search-random-search-and-the-future/)。这是两篇介绍如何在sklearn中使用随机搜索的文档 [1](http://scikit-learn.org/stable/auto_examples/model_selection/plot_randomized_search.html#sphx-glr-auto-examples-model-selection-plot-randomized-search-py) 和 [2](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html)。


为了有效地使用随机化搜索，你最好对超参数的常用分布有很好的理解。了解你的超参数有哪些可能值将使你能编写一个好的网格搜素算法（不中断的那种）。

> **步骤 3**：在这一步中，我将向你展示如何使用随机搜索，然后你可以在步骤4中为其他模型设置网格搜索。但是因为我不记得 SVMs 的每一个超参数具体做什么，请你帮我将每个超参数与其相应的调优函数进行匹配。

In [None]:
# build a classifier
clf_rf = RandomForestClassifier()

# Set up the hyperparameter search
param_dist = {"max_depth": [3, None],
              "n_estimators": list(range(10, 200)),
              "max_features": list(range(1, X_test.shape[1]+1)),
              "min_samples_split": list(range(2, 11)),
              "min_samples_leaf": list(range(1, 11)),
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}


# Run a randomized search over the hyperparameters
random_search = RandomizedSearchCV(clf_rf, param_distributions=param_dist)

# Fit the model on the training data
random_search.fit(X_train, y_train)

# Make predictions on the test data
rf_preds = random_search.best_estimator_.predict(X_test)

ch.print_metrics(y_test, rf_preds, 'random forest')

> **步骤4**：现在你已经了解了如何使用随机森林模型来运行随机网格搜索，请尝试使用 AdaBoost 和 SVC 分类器执行此操作。你也可以尝试使用在本课程前面见过的其他分类器， 看看哪些分类器最有效。

In [None]:
# build a classifier for ada boost


# Set up the hyperparameter search
# look at  setting up your search for n_estimators, learning_rate
# http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html


# Run a randomized search over the hyperparameters


# Fit the model on the training data


# Make predictions on the test data
ada_preds = 

# Return your metrics on test data
ch.print_metrics(y_test, ada_preds, 'adaboost')

In [None]:
# build a classifier for support vector machines


# Set up the hyperparameter search
# look at setting up your search for C (recommend 0-10 range), 
# kernel, and degree
# http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html



# Run a randomized search over the hyperparameters


# Fit the model on the training data


# Make predictions on the test data
svc_preds = 


# Return your metrics on test data
ch.print_metrics(y_test, svc_preds, 'svc')

> **步骤5**：使用下面的测试查看一下，你选择的最佳模型是否和我们通过网格搜索找到的一样。  

In [None]:
a = 'randomforest'
b = 'adaboost'
c = 'supportvector'

best_model =  # put your best model here as a string or variable

# See if your best model was also mine.  
# Notice these might not match depending your search!
ch.check_best(best_model)

一旦你找到了最佳模型，了解它为什么运行良好也很重要。在可以看到权重的回归模型中，可以更容易地解释结果。

> **步骤6**：尽管你的模型很难解释，但是有一些方法可以让我们知道哪些特征是重要的。使用前一个问题中选择的“最佳模型”，来查找帮助判断个体是否患有糖尿病的最重要的特征。你的结论是否与你在本notebook的数据探索阶段的预期相匹配？

In [None]:
# Show your work here - the plot below was helpful for me
# https://stackoverflow.com/questions/44101458/random-forest-feature-importance-chart-using-python


> **步骤 7**：使用上面的结果来完成下面的字典。

In [None]:
# Check your solution by matching the correct values in the dictionary
# and running this cell
a = 'Age'
b = 'BloodPressure'
c = 'BMI'
d = 'DiabetesPedigreeFunction'
e = 'Insulin'
f = 'Glucose'
g = 'Pregnancy'
h = 'SkinThickness'



sol_seven = {
    'The variable that is most related to the outcome of diabetes' : # letter here,
    'The second most related variable to the outcome of diabetes' : # letter here,
    'The third most related variable to the outcome of diabetes' : # letter here,
    'The fourth most related variable to the outcome of diabetes' : # letter here
}

ch.check_q_seven(sol_seven)

> **步骤 8**:  现在总结一下，在这个notebook中你做过什么，并且你怎样把这个结果向一个非技术背景的人解释。完成后，单击左上角的橙色图标可以查看解决方案的notebook。