In [2]:
# %load confusion_matrix.py
"""
皮马印第安人糖尿病数据集
基于数据集中包括的某些诊断测量来诊断性地预测患者是否患有糖尿病
输入变量包括：患者的怀孕次数、葡萄糖量、血压、皮褶厚度、体重指数、胰岛素水平、糖尿病谱系功能、年龄
输出结果：是否患有糖尿病
混淆矩阵指标
准确率 整体样本中，预测正确样本数的比例
Accuracy = (TP+TN)/(TP+TN+FP+FN)
错误率 整体样本中，预测错误样本数的比例
Misclassification Rate = (FP+FN)/(TP+TN+FP+FN)
召回率 正样本中，预测正确的比例
Recall = TP/(TP+FN)
特异度 负样本中，预测正确的比例
Specifity = TN/(TN+FP)
精确率 预测结果为正的样本中，预测正确的比例
Precision = TP/(TP+FP)
F1分数 综合Precision和Recall的一个判断指标
F1 socre = 2*Precision*Recall/(Precision+Recall)
"""

'\n皮马印第安人糖尿病数据集\n基于数据集中包括的某些诊断测量来诊断性地预测患者是否患有糖尿病\n输入变量包括：患者的怀孕次数、葡萄糖量、血压、皮褶厚度、体重指数、胰岛素水平、糖尿病谱系功能、年龄\n输出结果：是否患有糖尿病\n混淆矩阵指标\n准确率 整体样本中，预测正确样本数的比例\nAccuracy = (TP+TN)/(TP+TN+FP+FN)\n错误率 整体样本中，预测错误样本数的比例\nMisclassification Rate = (FP+FN)/(TP+TN+FP+FN)\n召回率 正样本中，预测正确的比例\nRecall = TP/(TP+FN)\n特异度 负样本中，预测正确的比例\nSpecifity = TN/(TN+FP)\n精确率 预测结果为正的样本中，预测正确的比例\nPrecision = TP/(TP+FP)\nF1分数 综合Precision和Recall的一个判断指标\nF1 socre = 2*Precision*Recall/(Precision+Recall)\n'

In [4]:
#数据预处理
import pandas as pd
path = './diabetes.csv'
pima = pd.read_csv(path)
print(pima.head())

   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  


In [6]:
#x和y赋值
feature_names = ['Pregnancies','Insulin','BMI','Age']
x = pima[feature_names]
y = pima.Outcome

In [7]:
#维度确认
print('x.shape',x.shape)
print('y.shape',y.shape)

x.shape (768, 4)
y.shape (768,)


In [8]:
#数据分离
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=0)

In [9]:
#模型训练
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg.fit(x_train,y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

In [10]:
#测试数据集结果预测
y_pred = logreg.predict(x_test)
#使用准确率进行评估
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test,y_pred))

0.6927083333333334


In [11]:
#确认正负样本数据量
y_test.value_counts()
#1的比例
print('1的比例',y_test.mean())
#0的比例
print('0的比例',1-y_test.mean())
#空准确率
print('空准确率',max(y_test.mean(),1-y_test.mean()))

1的比例 0.3229166666666667
0的比例 0.6770833333333333
空准确率 0.6770833333333333


In [12]:
#计算并展示混淆矩阵
from sklearn import metrics
print('混淆矩阵:')
print(metrics.confusion_matrix(y_test,y_pred))

混淆矩阵:
[[118  12]
 [ 47  15]]


In [13]:
#展示部分实际结果与预测结果（25组）
print('true',y_test.values[0:25])
print('pred',y_pred[0:25])

true [1 0 0 1 0 0 1 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0]
pred [0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]


In [14]:
#四个因子赋值
confusion = metrics.confusion_matrix(y_test,y_pred)
TN = confusion[0,0]
FP = confusion[0,1]
FN = confusion[1,0]
TP = confusion[1,1]
print(TN,FP,FN,TP)

118 12 47 15


In [15]:
#准确率 整体样本中，预测正确样本数的比例
Accuracy = (TP+TN)/(TP+TN+FP+FN)
print('Accuracy',Accuracy)
print(accuracy_score(y_test,y_pred))

Accuracy 0.6927083333333334
0.6927083333333334


In [16]:
#错误率 整体样本中，预测错误样本数的比例
Misclassification_Rate = (FP+FN)/(TP+TN+FP+FN)
print('Misclassification_Rate',Misclassification_Rate)
print(1-accuracy_score(y_test,y_pred))

Misclassification_Rate 0.3072916666666667
0.30729166666666663


In [17]:
#召回率 正样本中，预测正确的比例
Recall = TP/(TP+FN)
print('Recall',Recall)

Recall 0.24193548387096775


In [18]:
#特异度 负样本中，预测正确的比例
Specifity = TN/(TN+FP)
print('Specifity',Specifity)

Specifity 0.9076923076923077


In [19]:
#精确率 预测结果为正的样本中，预测正确的比例
Precision = TP/(TP+FP)
print('Precision',Precision)

Precision 0.5555555555555556


In [20]:
#F1分数 综合Precision和Recall的一个判断指标
F1_socre = 2*Precision*Recall/(Precision+Recall)
print('F1_socre',F1_socre)

F1_socre 0.3370786516853933
