
# <center>Python课程实践--Scikit-learn 案例</center>

## 课程内容

### 实践题目
#### 医疗健康疾病预测

* 该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。
* 从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是Pima印第安至少21岁的女性。
* 数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。

### 数据文件
* diabetes.csv

### 本节任务
* 针对医疗数据的特点进行数据清洗、特征工程（寻找特征，特征组合）
* 尝试的多种算法模型，给出诊断结果的同时，提供合理的解释。

- 【1】Pregnancies：怀孕次数 
- 【2】Glucose：葡萄糖 
- 【3】BloodPressure：血压 (mm Hg) 
- 【4】SkinThickness：皮层厚度 (mm) 
- 【5】Insulin：胰岛素 2小时血清胰岛素（mu U / ml 
- 【6】BMI：体重指数 （体重/身高）^2 
- 【7】DiabetesPedigreeFunction：糖尿病谱系功能 
- 【8】Age：年龄 （岁） 
- 【9】Outcome：类标变量 （0或1）

In [None]:
import matplotlib.pyplot as plt 
import numpy as np
import pandas as pd
%matplotlib inline

## KNN算法介绍
KNN是一种有监督的机器学习算法，可以解决分类问题，也可以解决回归问题。

算法流程 
对每一个未知点执行：


* 计算未知点到所有已知类别点的距离
* 按距离排序（升序）
* 选取其中前k个与未知点离得最近的点
* 统计k个点中各个类别的个数
* 上述k个点里类别出现频率最高的作为未知点的类别


* 优点： 
简单有效、易理解

* 缺点： 
k近邻需要保存全部数据集，因此对内存消耗大，当数据集较大时对设备要求非常高； 
需要计算每个未知点到全部已知点的距离，可能会很耗时； 
分类结果不易理解

![Data Layout](images/knn.png)

## 导入数据

In [None]:
# 加载数据
data = pd.read_csv('data/diabetes.csv') # DataFrame
print('dataset shape {}'.format(data.shape))
data.head(6)

In [None]:
data.info()  #看是否有空值

In [None]:
data.describe() #看是否有异常值

In [None]:
corr=data.corr()
corr[corr>0.3]

In [None]:
#iloc是基于索引位来选取数据集，0:4就是选取 0，1，2，3这四行，需要注意的是这里是前闭后开集合
# 使用 iloc 进行行列混合选择 
#data.iloc[0:5] 数据中的第 1-5 行 
# data.iloc[:, 0:2]  选择数据中的前2列和所有行 
# data.iloc[[0, 3, 6, 24], [0, 5, 6]] 选择第 1,4,7,25行 和 第 1,6,7 列 
# data.iloc[0:5, 5:8]  #选择第1-6行 和 6-9列
# 含有特征的数据集
X = data.iloc[:,0:8]
# 标记数据
Y = data.iloc[:,8]
print('shape of X {} ; shape of Y {}'.format(X.shape,Y.shape))
print(X)
print(Y)

In [None]:
from sklearn.model_selection import train_test_split
# 将数据集划分为训练集和测试集，其中测试数据为20%
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size = 0.2)

In [None]:
from sklearn.neighbors import KNeighborsClassifier,RadiusNeighborsClassifier
#我们使用三种算法对数据进行拟合即普通的k-均值算法，带权重的k-均值算法和指定半径的k-均值算法。
#models.append方法就是将一个元素放入models列表中
models = []
models.append(('KNN',KNeighborsClassifier(n_neighbors=7)))
models.append(('KNN with weights',KNeighborsClassifier(n_neighbors=7,weights='distance')))
models.append(('Radius Neighbors',RadiusNeighborsClassifier(n_neighbors=7,radius=500.0)))
models

In [None]:
results = []
for name,model in models:
    #fit(x,y)传两个参数的是有监督学习的算法，fit(x)传一个参数的是无监督学习的算法，比如降维、特征提取、标准化
    model.fit(X_train,Y_train)
    results.append((name,model.score(X_test,Y_test)))
for i in range(len(results)):
    print('name:{}; score: {}'.format(results[i][0],results[i][1]))

In [None]:
#kfold 将数据分成10份，其中一份作为交叉验证数据集来计算模型准确性。
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
# 因为训练样本和测试样本是随机的，
# 所以我们需要多次分配训练集和交叉验证数据集，然后对多次预测结果进行平均。
results = []
for name,model in models:
    kfold = KFold(n_splits=10)
    cv_result = cross_val_score(model,X,Y,cv=kfold)
    results.append((name,cv_result))
for i in range(len(results)):
    print('name: {}; cross val score: {}'.format
          (results[i][0],results[i][1].mean()))

## 模型训练

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5,weights='distance')
knn.fit(X_train,Y_train)
train_score = knn.score(X_train,Y_train)
test_score = knn.score(X_test,Y_test)
print('train score: {} ; test score: {}'.format(train_score, test_score))

In [None]:
from sklearn.model_selection import ShuffleSplit  
from sklearn.model_selection import learning_curve
import numpy as np
import matplotlib.pyplot as plt
x = X_train
y = Y_train
#画出data在某模型上的learning curve.
def plot_learning_curve(plt, estimator, title, X, y ,ylim=None, cv=None, n_jobs=1,
                        train_sizes=np.linspace(.1,1.0,5)):
#参数解释
    #estimator : 你用的分类器。
    #title : 表格的标题。
    #x: 输入的feature，numpy类型
    #y : 输入的target vector
    #ylim : tuple格式的(ymin, ymax), 设定图像中纵坐标的最低点和最高点
    #cv : 做cross-validation的时候，数据分成的份数，其中一份作为cv集，
    #其余n-1份作为training(默认为3份)    
    plt.title(title)
    if ylim is not None:
        plt.ylim(*ylim)
    plt.xlabel('Training examples')
    plt.ylabel('Score')
    train_sizes, train_scores, test_scores = learning_curve(
    estimator,X,y,cv=cv,n_jobs=n_jobs,train_sizes=train_sizes
    )
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    plt.grid()
    plt.fill_between(train_sizes,train_scores_mean-train_scores_std,
                    train_scores_mean + train_scores_std,alpha = 0.1, color='r')
    
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                     test_scores_mean + test_scores_std, alpha=0.1, color="g")
    plt.plot(train_sizes, train_scores_mean, 'o--', color="r",
             label="Training score") 
    plt.plot(train_sizes, test_scores_mean, 'o-', color="g",
             label="Cross-validation score")

    plt.legend(loc="best")
    return plt

cv=ShuffleSplit(n_splits=10,test_size=0.2,random_state=0) # 打乱数据，取几折防止数据有序
plt.figure(figsize=(10,6),dpi=64)
plot_learning_curve(plt,knn,"cure",x,y,ylim=(0.0,1.01),cv=cv)
plt.show()

***进一步练习写一个完整的糖尿病预测的 SVM的程序，包括前面的数据加载过程，并执行***

In [None]:
import matplotlib.pyplot as plt 
import numpy as np
import pandas as pd
%matplotlib inline


# 加载数据
data = pd.read_csv('data/diabetes.csv')

# 含有特征的数据集
X = data.iloc[:,0:8]
# 标记数据
Y = data.iloc[:,8]

from sklearn.model_selection import train_test_split
# 将数据集划分为训练集和测试集，其中测试数据为20%
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size = 0.3)  

from sklearn.svm import SVC
svc = SVC(gamma='scale')

svc.fit(X_train,Y_train)
train_score = svc.score(X_train,Y_train)
test_score = svc.score(X_test,Y_test)
print('train score: {} ; test score: {}'.format(train_score, test_score))



# Any Questions?