# 皮马印第安人糖尿病数据集

基于数据集中包括的默写诊断测量来针对性的预测患者是否患有糖尿病
输入变量包括：独立变量包括患者的怀孕次数，葡萄糖量，血压，皮褶厚度，体重指数，胰岛素水平，糖尿病谱系功能，年龄
输出结果：是否患有糖尿病
任务：通过怀孕次数，胰岛素水平，体重指数，年龄四个特征来预测患者是否患有糖尿病

In [1]:
#数据预处理
import pandas as pd
path = 'data/diabetes.csv'
pima = pd.read_csv(path)
pima.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [3]:
# X,y赋值
feature_names = ['Pregnancies', 'Insulin', 'BMI', 'Age']
X = pima[feature_names]
y = pima.Outcome

In [4]:
# 维度确认
print(X.shape)
print(y.shape)

(768, 4)
(768,)


In [5]:
# 数据分离
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [6]:
#模型训练
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg.fit(X_train, y_train)

LogisticRegression()

In [7]:
#测试数据集的结果预测
y_pred = logreg.predict(X_test)

In [8]:
#使用准确率进行评估
from sklearn import metrics
print(metrics.accuracy_score(y_test, y_pred))

0.6770833333333334


In [9]:
#确认正负样本数据量
y_test.value_counts()

0    130
1     62
Name: Outcome, dtype: int64

In [10]:
# 1的比例
y_test.mean()

0.3229166666666667

In [11]:
# 0的比例
1 - y_test.mean()

0.6770833333333333

In [12]:
# 空准确率
max(y_test.mean(), 1-y_test.mean())

0.6770833333333333

In [13]:
#计算并展示混淆矩阵
print(metrics.confusion_matrix(y_test, y_pred))

[[114  16]
 [ 46  16]]


In [20]:
# 展示部分实际结果与预测结果(25组)
print("true:",y_test.values[0:25])
print("pred:",y_pred[0:25])

true: [1 0 0 1 0 0 1 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0]
pred: [0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]


In [22]:
# 混淆矩阵的指标计算,四个因子赋值
confusion = metrics.confusion_matrix(y_test, y_pred)
TN = confusion[0][0]
FP = confusion[0][1]
FN = confusion[1][0]
TP = confusion[1][1]

In [23]:
print(TN,FP,FN,TP)

114 16 46 16


In [25]:
# 混淆矩阵指标
# 准确率 = (TP+TN)/(TP+TN+FP+FN)
accuracy = (TP+TN)/(TP+TN+FP+FN)
print(accuracy)

0.6770833333333334


In [27]:
# 错误率：整体样本中，预测错误的样本数的比例
mis_rate = (FP+FN)/(TP+TN+FP+FN)
print(mis_rate)

0.3229166666666667


In [28]:
#召回率:正样本中预测正确的比例
recall = TP/(TP+FN)
print(recall)

0.25806451612903225


In [29]:
#特异度：负样本中，预测正确的比例
specificity = TN/(TN+FP)
print(specificity)

0.8769230769230769


In [30]:
#精确率：预测结果为正的样本中，预测正确的比例
precision = TP/(TP+FP)
print(precision)

0.5


In [33]:
#F1分数：综合precision和recall的一个判断指标
f1_score = 2*precision*recall/(precision+recall)
print(f1_score)

0.3404255319148936


结论：

- 分类任务中，相比单一的预测准确率，混淆矩阵提供了更全面的模型评估信息
- 通过混淆矩阵，我们可以计算出多样的模型表现衡量指标，从而更好的选择模型

哪个衡量指标更关键？

- 衡量指标的选择取决于应用场景
- 垃圾邮件检测(正样本为’垃圾邮件‘)，希望普通邮件(负样本)不要被判断为垃圾邮件(正样本)，需要关注精确率，希望判断为垃圾邮件的样本都是判断正确的；还需要关注找规律，希望所有的垃圾邮件都尽可能的被判断出来
- 异常交易检测(正样本为’异常交易‘), 希望所有的异常交易都被检测到，即判断为正常的交易中，你可能不存在异常交易，需要关注特异度