In [1]:
from vocabulary import Vocabulary
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import GridSearchCV

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import pickle
import warnings

warnings.filterwarnings("ignore")

## 1、特征为residue_vocabulary，其序列残基对应词汇表所做的字符编码

In [2]:
# 将序列残基对应词典转换成特征
data = pd.read_excel('/home/dldx/R-H/code/classification/ML/data/mafft_MSA_R_H.xlsx')

vocabulary = Vocabulary.get_vocabulary_from_sequences(data.Sequence.values)  #将蛋白质序列构造成词典

In [7]:
input_seq_tensor = []
input_lable = []
for i in range(179):
    # 将序列残基进行字符编码
    seq_tensor = vocabulary.seq_to_tensor(data.Sequence[i])
    input_seq_tensor.append(np.array(seq_tensor))
    
input_seq_tensor = np.array(input_seq_tensor)
input_lable = np.array(data.Tier)

In [10]:
# 设置超参数
param_dict = {"n_neighbors": np.arange(1, 11), "weights":["uniform","distance"]}
for r in range(0,31):
    # 划分训练集和测试集
    Xtrain,Xtest,Ytrain,Ytest = train_test_split(input_seq_tensor,input_lable,train_size=0.8,random_state = r)
    # build model
    model = KNeighborsClassifier()
    # 将模型加入超参数网格搜索和交叉验证     
    model = GridSearchCV(model, param_grid=param_dict, cv=5)
    # model train
    model = model.fit(Xtrain,Ytrain)
    # 模型评估
    predict = model.predict(Xtest)
    cm = confusion_matrix(Ytest,predict)
    tn, tp, fn, fp = cm[0][0], cm[1][1], cm[1][0], cm[0][1]
    n = tp + fp + tn + fn
    accuracy = (tp + tn)/n 
    mcc = ((tp*tn) - (fp*fn))/np.sqrt((tp+fp)*(tn+fn)*(tp+fn)*(tn+fp))
    sens = tp/(tp + fn) * 100 if tp + fp != 0 else 0
    spec = tn/(tn + fp) * 100 if tn + fn != 0 else 0
    print("数据集划分 random_state：" + str(r)  + "时，")
    print("Evaluate：")
    print("  accuracy : " + str(accuracy))
    print("  mcc : " + str(mcc))
    print("  sens : " + str(sens))
    print("  spec : " + str(spec)) 
    print("============================")

数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.7222222222222222
  mcc : 0.45151563399949557
  sens : 60.0
  spec : 80.95238095238095
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.7222222222222222
  mcc : 0.5114824413819742
  sens : 58.82352941176471
  spec : 84.21052631578947
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.6944444444444444
  mcc : 0.5453453906108109
  sens : 55.00000000000001
  spec : 87.5
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.75
  mcc : 0.48281334215771954
  sens : 75.0
  spec : 75.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.8055555555555556
  mcc : 0.5177731682921968
  sens : 81.81818181818183
  spec : 80.0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.6944444444444444
  mcc : 0.5445811486371709
  sens : 52.63157894736842
  spec : 88.23529411764706
数据集划分 random_state：6时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.30151134457776363
  sens : 71.42857142857143
  spec : 63.63636363636363
数据集划分 random_state：7时，
Evaluate：
  accuracy : 0.666666

## 2、特征为residue_disorder，其序列残基对应disorder所做的字符编码

In [5]:
data1 = pd.read_csv('/home/dldx/R-H/code/classification/ML/data/disorder/MSA_disorder_R_H.csv')

input_lable1 = np.array(data1.Tier)
input_feature = pickle.load(open('/home/dldx/R-H/code/classification/ML/data/disorder/all_seq_disorder_R_H.pkl','rb'))

In [11]:
# 设置超参数  
param_dict = {"n_neighbors": np.arange(1, 11), "weights":["uniform","distance"]}
for r in range(0,31):
    # 划分训练集和测试集
    Xtrain,Xtest,Ytrain,Ytest = train_test_split(input_feature,input_lable1,train_size=0.8,random_state = r)
    # build model
    model = KNeighborsClassifier()
    # 将模型加入超参数网格搜索和交叉验证     
    model = GridSearchCV(model, param_grid=param_dict, cv=5)
    # model train
    model = model.fit(Xtrain,Ytrain)
    # 模型评估
    predict = model.predict(Xtest)
    cm = confusion_matrix(Ytest,predict)
    tn, tp, fn, fp = cm[0][0], cm[1][1], cm[1][0], cm[0][1]
    n = tp + fp + tn + fn
    accuracy = (tp + tn)/n 
    mcc = ((tp*tn) - (fp*fn))/np.sqrt((tp+fp)*(tn+fn)*(tp+fn)*(tn+fp))
    sens = tp/(tp + fn) * 100 if tp + fp != 0 else 0
    spec = tn/(tn + fp) * 100 if tn + fn != 0 else 0
    print("数据集划分 random_state：" + str(r)  + "时，")
    print("Evaluate：")
    print("  accuracy : " + str(accuracy))
    print("  mcc : " + str(mcc))
    print("  sens : " + str(sens))
    print("  spec : " + str(spec)) 
    print("============================")

数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.75
  mcc : 0.5345224838248488
  sens : 60.0
  spec : 85.71428571428571
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.23028804018800908
  sens : 52.94117647058824
  spec : 68.42105263157895
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.6079600189283705
  sens : 45.0
  spec : 93.75
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.31622776601683794
  sens : 68.75
  spec : 65.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.8333333333333334
  mcc : 0.5673665146135802
  sens : 90.9090909090909
  spec : 80.0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.420084025208403
  sens : 36.84210526315789
  spec : 88.23529411764706
数据集划分 random_state：6时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : -0.03876376661011099
  sens : 28.57142857142857
  spec : 68.18181818181817
数据集划分 random_state：7时，
Evaluate：
  accuracy : 0.6944444444444444
 

## 3、特征为21个无规则卷曲的关键区域长度，IDR1, IDR2, IDR3, IDR4, IDR5, IDR6, IDR7, IDR8,IDR9,IDR10,IDR11,IDR12,IDR13,IDR14,IDR15,IDR16,IDR17,IDR18,IDR19,IDR20,IDR21。

In [3]:
data2_R = pickle.load(open('/www/yang/csv/align/count_C_pickle/mafft_MSA/end_count_C_R_1.pkl','rb'))
data2_H = pickle.load(open('/www/yang/csv/align/count_C_pickle/mafft_MSA/end_count_C_H_3.pkl','rb'))

In [5]:
data2_R[65][15]

3

In [4]:
all_21_IDR = []
for position in range(21):
    one_IDR = []
    R_IDR = [i[position] for i in data2_R]
    H_IDR = [i[position] for i in data2_H]
 
    # 转化为二维数组
    for i in range(72):
        test =[]
        test.append(R_IDR[i])
        one_IDR.append(test)
    for i in range(107):
        test =[]
        test.append(H_IDR[i])
        one_IDR.append(test)

    # 所有IDR添加到一个数组
    all_21_IDR.append(one_IDR)

In [15]:
# 设置超参数  
param_dict = {"n_neighbors": np.arange(1, 11), "weights":["uniform","distance"]}

# 21个IDR区域分别进行分类
for position in range(21):
    for r in range(31):
        # 划分训练集和测试集
        Xtrain,Xtest,Ytrain,Ytest = train_test_split(all_21_IDR[position],input_lable,train_size=0.8,random_state = r)
        # build model
        model = KNeighborsClassifier()
        # 将模型加入超参数网格搜索和交叉验证     
        model = GridSearchCV(model, param_grid=param_dict, cv=5)
        # model train
        model = model.fit(Xtrain,Ytrain)
        # 模型评估
        predict = model.predict(Xtest)
        cm = confusion_matrix(Ytest,predict)
        tn, tp, fn, fp = cm[0][0], cm[1][1], cm[1][0], cm[0][1]
        n = tp + fp + tn + fn
        accuracy = (tp + tn)/n 
        mcc = ((tp*tn) - (fp*fn))/np.sqrt((tp+fp)*(tn+fn)*(tp+fn)*(tn+fp))
        sens = tp/(tp + fn) * 100 if tp + fp != 0 else 0
        spec = tn/(tn + fp) * 100 if tn + fn != 0 else 0
        print("数据集划分 random_state：" + str(r)  + "时，")
        print("Evaluate：")
        print("  accuracy : " + str(accuracy))
        print("  mcc : " + str(mcc))
        print("  sens : " + str(sens))
        print("  spec : " + str(spec)) 
        print("============================")
    print("以上为IDR__" + str(position + 1) + "时，evaluation")
    print("***********************************************************************")

数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.5555555555555556
  mcc : -0.5532833351724882
  sens : 0.0
  spec : 95.23809523809523
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.5555555555555556
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.3055555555555556
  mcc : nan
  sens : 100.0
  spec : 0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：6时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：7时，
Evaluate：
  accuracy : 0.7777777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：8时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：9时，
Evaluate：
  accuracy

数据集划分 random_state：29时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：30时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.15075567228888181
  sens : 14.285714285714285
  spec : 90.9090909090909
以上为IDR__2时，evaluation
***********************************************************************
数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.5408646431520382
  sens : 26.666666666666668
  spec : 95.23809523809523
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : 0.40555355282690636
  sens : 17.647058823529413
  spec : 94.73684210526315
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.5
  mcc : 0.18257418583505539
  sens : 20.0
  spec : 87.5
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : 0.16262312563634834
  sens : 37.5
  spec : 75.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.8055555555555556
  mcc : 0.5307227776030219
  sens : 72.72727272727273
  spec : 84.0

数据集划分 random_state：17时，
Evaluate：
  accuracy : 0.5
  mcc : -0.3706246583305506
  sens : 0.0
  spec : 69.23076923076923
数据集划分 random_state：18时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : -0.020965696734438367
  sens : 27.27272727272727
  spec : 71.42857142857143
数据集划分 random_state：19时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : 0.17879963496303788
  sens : 7.6923076923076925
  spec : 95.65217391304348
数据集划分 random_state：20时，
Evaluate：
  accuracy : 0.6944444444444444
  mcc : 0.31426968052735443
  sens : 41.66666666666667
  spec : 83.33333333333334
数据集划分 random_state：21时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : -0.7171371656006362
  sens : 0.0
  spec : 94.44444444444444
数据集划分 random_state：22时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : 0.08
  sens : 63.63636363636363
  spec : 48.0
数据集划分 random_state：23时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.16116459280507606
  sens : 28.57142857142857
  spec : 81.81818181818183
数据集划分 random_state：24时，
Evaluate

数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : 0.5140603704975992
  sens : 25.0
  spec : 95.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.2531327526737512
  sens : 63.63636363636363
  spec : 68.0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.7405316311773545
  sens : 26.31578947368421
  spec : 100.0
数据集划分 random_state：6时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : 0.7928249671720918
  sens : 7.142857142857142
  spec : 100.0
数据集划分 random_state：7时，
Evaluate：
  accuracy : 0.8055555555555556
  mcc : 0.5263613559678152
  sens : 25.0
  spec : 96.42857142857143
数据集划分 random_state：8时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : -0.051800262027108156
  sens : 57.14285714285714
  spec : 36.36363636363637
数据集划分 random_state：9时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : -0.11629879691581346
  sens : 52.63157894736842
  spec : 35.294117647058826
数据集划分 random_state：10时，
Evaluate：
  accuracy : 0

数据集划分 random_state：28时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：29时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：30时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
以上为IDR__7时，evaluation
***********************************************************************
数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.5555555555555556
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.6944444444444444
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : nan
  

数据集划分 random_state：26时，
Evaluate：
  accuracy : 0.3333333333333333
  mcc : nan
  sens : 100.0
  spec : 0
数据集划分 random_state：27时，
Evaluate：
  accuracy : 0.7777777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：28时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：29时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.14625448482542613
  sens : 7.142857142857142
  spec : 95.45454545454545
数据集划分 random_state：30时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : -0.504524979109513
  sens : 0.0
  spec : 95.45454545454545
以上为IDR__9时，evaluation
***********************************************************************
数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : 0.27036903521793754
  sens : 64.70588235294117
  spec : 63.1578947368421
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.5
  mcc : 0.6859

数据集划分 random_state：14时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : 0.4629100498862757
  sens : 20.0
  spec : 95.23809523809523
数据集划分 random_state：15时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : -0.02975698503218078
  sens : 58.333333333333336
  spec : 37.5
数据集划分 random_state：16时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.27675549502120833
  sens : 46.15384615384615
  spec : 78.26086956521739
数据集划分 random_state：17时，
Evaluate：
  accuracy : 0.7777777777777778
  mcc : 0.8744746321952062
  sens : 20.0
  spec : 100.0
数据集划分 random_state：18时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : 0.04859295307498625
  sens : 31.818181818181817
  spec : 71.42857142857143
数据集划分 random_state：19时，
Evaluate：
  accuracy : 0.5
  mcc : 0.0880172458846704
  sens : 76.92307692307693
  spec : 34.78260869565217
数据集划分 random_state：20时，
Evaluate：
  accuracy : 0.8055555555555556
  mcc : 0.8798826901281197
  sens : 41.66666666666667
  spec : 100.0
数据集划分 random_state：21时，
Evaluate：
  accurac

数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : 0.016262312563634834
  sens : 31.25
  spec : 70.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : 0.0408248290463863
  sens : 36.36363636363637
  spec : 68.0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：6时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : -0.006839295761144417
  sens : 35.714285714285715
  spec : 63.63636363636363
数据集划分 random_state：7时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.1543033499620919
  sens : 50.0
  spec : 71.42857142857143
数据集划分 random_state：8时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : 0.2108463856628978
  sens : 85.71428571428571
  spec : 40.909090909090914
数据集划分 random_state：9时，
Evaluate：
  accuracy : 0.5
  mcc : 0.01945083605477591
  sens : 36.84210526315789
  s

数据集划分 random_state：27时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : -0.06900655593423542
  sens : 12.5
  spec : 82.14285714285714
数据集划分 random_state：28时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：29时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：30时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
以上为IDR__14时，evaluation
***********************************************************************
数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.5555555555555556
  mcc : 0.7367883976130072
  sens : 5.88235294117647
  spec : 100.0
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : 0.6963106238227914
  sens : 15.0
  spec : 100.0
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.43481317827315213
  sens 

数据集划分 random_state：21时，
Evaluate：
  accuracy : 0.5
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：22时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : 0.22223355980148635
  sens : 100.0
  spec : 32.0
数据集划分 random_state：23时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：24时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : 0.2108463856628978
  sens : 85.71428571428571
  spec : 40.909090909090914
数据集划分 random_state：25时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：26时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：27时，
Evaluate：
  accuracy : 0.7777777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：28时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：29时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_sta

数据集划分 random_state：9时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : -0.042874646285627205
  sens : 10.526315789473683
  spec : 88.23529411764706
数据集划分 random_state：10时，
Evaluate：
  accuracy : 0.5555555555555556
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：11时，
Evaluate：
  accuracy : 0.5
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：12时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：13时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : -0.5449492609130662
  sens : 0.0
  spec : 72.72727272727273
数据集划分 random_state：14时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：15时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：16时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : -0.3349469226516178
  sens : 7.6923076923076925
  spec : 69.56521739130434
数据集划分 random_state：17时，
Evaluate：
  accuracy : 0.7222222222222

数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.7669649888473704
  sens : 12.5
  spec : 100.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.75
  mcc : 0.8574929257125442
  sens : 18.181818181818183
  spec : 100.0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.5
  mcc : 0.6969320524371696
  sens : 5.263157894736842
  spec : 100.0
数据集划分 random_state：6时，
Evaluate：
  accuracy : 0.5555555555555556
  mcc : 0.04351941398892446
  sens : 35.714285714285715
  spec : 68.18181818181817
数据集划分 random_state：7时，
Evaluate：
  accuracy : 0.3055555555555556
  mcc : 0.010905216190045376
  sens : 87.5
  spec : 14.285714285714285
数据集划分 random_state：8时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.3892494720807615
  sens : 28.57142857142857
  spec : 90.9090909090909
数据集划分 random_state：9时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : 0.7071067811865476
  sens : 10.526315789473683
  spec : 100.0
数据集划分 random_state：10时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : -

数据集划分 random_state：26时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : 0.1
  sens : 91.66666666666666
  spec : 20.833333333333336
数据集划分 random_state：27时，
Evaluate：
  accuracy : 0.7777777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：28时，
Evaluate：
  accuracy : 0.6388888888888888
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：29时，
Evaluate：
  accuracy : 0.3888888888888889
  mcc : nan
  sens : 100.0
  spec : 0
数据集划分 random_state：30时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
以上为IDR__21时，evaluation
***********************************************************************


In [8]:
# 重新跑关于IDR16由数据更改的情况
# 设置超参数  
param_dict = {"n_neighbors": np.arange(1, 11), "weights":["uniform","distance"]}


for r in range(31):
    # 划分训练集和测试集
    Xtrain,Xtest,Ytrain,Ytest = train_test_split(all_21_IDR[15],input_lable,train_size=0.8,random_state = r)
    # build model
    model = KNeighborsClassifier()
    # 将模型加入超参数网格搜索和交叉验证     
    model = GridSearchCV(model, param_grid=param_dict, cv=5)
    # model train
    model = model.fit(Xtrain,Ytrain)
    # 模型评估
    predict = model.predict(Xtest)
    cm = confusion_matrix(Ytest,predict)
    tn, tp, fn, fp = cm[0][0], cm[1][1], cm[1][0], cm[0][1]
    n = tp + fp + tn + fn
    accuracy = (tp + tn)/n 
    mcc = ((tp*tn) - (fp*fn))/np.sqrt((tp+fp)*(tn+fn)*(tp+fn)*(tn+fp))
    sens = tp/(tp + fn) * 100 if tp + fp != 0 else 0
    spec = tn/(tn + fp) * 100 if tn + fn != 0 else 0
    print("数据集划分 random_state：" + str(r)  + "时，")
    print("Evaluate：")
    print("  accuracy : " + str(accuracy))
    print("  mcc : " + str(mcc))
    print("  sens : " + str(sens))
    print("  spec : " + str(spec)) 
    print("============================")
print("以上为IDR__" + str(16) + "时，evaluation")


数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.5833333333333334
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.5277777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.4444444444444444
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.5555555555555556
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.4166666666666667
  mcc : -0.028867513459481287
  sens : 63.63636363636363
  spec : 32.0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：6时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：7时，
Evaluate：
  accuracy : 0.7777777777777778
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：8时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : nan
  sens : 0
  spec : 100.0
数据集划分 random_state：9时，
Evaluate：
  accur

In [9]:
# 将21个区域的无规则卷曲长度一起作为特征
all_R_H_IDR =[]
all_R_H_IDR.extend(data2_R)
all_R_H_IDR.extend(data2_H)

# 设置超参数  
param_dict = {"n_neighbors": np.arange(1, 11), "weights":["uniform","distance"]}
for r in range(31):
    # 划分训练集和测试集
    Xtrain,Xtest,Ytrain,Ytest = train_test_split(all_R_H_IDR,input_lable,train_size=0.8,random_state = r)
    # build model
    model = KNeighborsClassifier()
    # 将模型加入超参数网格搜索和交叉验证     
    model = GridSearchCV(model, param_grid=param_dict, cv=5)
    # model train
    model = model.fit(Xtrain,Ytrain)
    # 模型评估
    predict = model.predict(Xtest)
    cm = confusion_matrix(Ytest,predict)
    tn, tp, fn, fp = cm[0][0], cm[1][1], cm[1][0], cm[0][1]
    n = tp + fp + tn + fn
    accuracy = (tp + tn)/n 
    mcc = ((tp*tn) - (fp*fn))/np.sqrt((tp+fp)*(tn+fn)*(tp+fn)*(tn+fp))
    sens = tp/(tp + fn) * 100 if tp + fp != 0 else 0
    spec = tn/(tn + fp) * 100 if tn + fn != 0 else 0
    print("数据集划分 random_state：" + str(r)  + "时，")
    print("Evaluate：")
    print("  accuracy : " + str(accuracy))
    print("  mcc : " + str(mcc))
    print("  sens : " + str(sens))
    print("  spec : " + str(spec)) 
    print("============================")

数据集划分 random_state：0时，
Evaluate：
  accuracy : 0.6666666666666666
  mcc : 0.3142857142857143
  sens : 60.0
  spec : 71.42857142857143
数据集划分 random_state：1时，
Evaluate：
  accuracy : 0.75
  mcc : 0.5129891760425771
  sens : 70.58823529411765
  spec : 78.94736842105263
数据集划分 random_state：2时，
Evaluate：
  accuracy : 0.7222222222222222
  mcc : 0.578687658679514
  sens : 60.0
  spec : 87.5
数据集划分 random_state：3时，
Evaluate：
  accuracy : 0.75
  mcc : 0.4618802153517006
  sens : 87.5
  spec : 65.0
数据集划分 random_state：4时，
Evaluate：
  accuracy : 0.7777777777777778
  mcc : 0.4669284936424375
  sens : 90.9090909090909
  spec : 72.0
数据集划分 random_state：5时，
Evaluate：
  accuracy : 0.7777777777777778
  mcc : 0.5924182001030174
  sens : 73.68421052631578
  spec : 82.35294117647058
数据集划分 random_state：6时，
Evaluate：
  accuracy : 0.4722222222222222
  mcc : -0.1299466194617439
  sens : 28.57142857142857
  spec : 59.09090909090909
数据集划分 random_state：7时，
Evaluate：
  accuracy : 0.6111111111111112
  mcc : 0.0920940530