模型选择与评估

In [3]:
# 留出法
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("训练集大小:", X_train.shape)
print("测试集大小:", X_test.shape)

训练集大小: (120, 4)
测试集大小: (30, 4)


In [4]:
# 交叉验证
from sklearn.model_selection import KFold

iris = load_iris()
X = iris.data
y = iris.target

# 定义模型
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(max_iter=200)
# 定义K折交叉验证
kf = KFold(n_splits=5, shuffle=True, random_state=42)
# 进行交叉验证
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    # 训练模型
    model.fit(X_train, y_train)
    # 测试模型
    score = model.score(X_test, y_test)
    print("测试集得分:", score)  # 输出每次测试集的得分


测试集得分: 1.0
测试集得分: 1.0
测试集得分: 0.9333333333333333
测试集得分: 0.9666666666666667
测试集得分: 0.9666666666666667


In [6]:
# 自助法
import numpy as np
from sklearn.utils import resample

#假设有一个数据集X和对应的标签y
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([0, 1, 0, 1, 0])

# 使用自助法进行采样
bootstrap_samples = []
for _ in range(10):  # 生成10个自助样本
    X_resampled, y_resampled = resample(X, y)
    bootstrap_samples.append((X_resampled, y_resampled))
# 输出自助样本
for i, (X_sample, y_sample) in enumerate(bootstrap_samples):
    print(f"自助样本 {i+1}:")
    print("X:", X_sample)
    print("y:", y_sample)
    print()

# bootstrap_samples现在包含了10个自助样本，每个样本都是原始数据集的一个随机子集

自助样本 1:
X: [[ 1  2]
 [ 1  2]
 [ 7  8]
 [ 9 10]
 [ 9 10]]
y: [0 0 1 0 0]

自助样本 2:
X: [[ 5  6]
 [ 5  6]
 [ 1  2]
 [ 9 10]
 [ 3  4]]
y: [0 0 0 0 1]

自助样本 3:
X: [[ 1  2]
 [ 1  2]
 [ 9 10]
 [ 7  8]
 [ 9 10]]
y: [0 0 0 1 0]

自助样本 4:
X: [[ 9 10]
 [ 1  2]
 [ 7  8]
 [ 9 10]
 [ 9 10]]
y: [0 0 1 0 0]

自助样本 5:
X: [[7 8]
 [3 4]
 [7 8]
 [1 2]
 [3 4]]
y: [1 1 1 0 1]

自助样本 6:
X: [[ 1  2]
 [ 3  4]
 [ 9 10]
 [ 7  8]
 [ 1  2]]
y: [0 1 0 1 0]

自助样本 7:
X: [[5 6]
 [5 6]
 [3 4]
 [1 2]
 [3 4]]
y: [0 0 1 0 1]

自助样本 8:
X: [[1 2]
 [3 4]
 [7 8]
 [1 2]
 [7 8]]
y: [0 1 1 0 1]

自助样本 9:
X: [[7 8]
 [3 4]
 [1 2]
 [1 2]
 [3 4]]
y: [1 1 0 0 1]

自助样本 10:
X: [[7 8]
 [7 8]
 [7 8]
 [5 6]
 [5 6]]
y: [1 1 1 0 0]



性能度量

In [7]:
from sklearn.metrics import mean_squared_error

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

# 计算均方误差
mse = mean_squared_error(y_true, y_pred)
print("均方误差:", mse)

均方误差: 0.375


In [8]:
# 错误率
def error_rate(y_pred, y_true):
    """
    计算错误率的函数。
    
    参数：
    predicted (list): 预测值列表
    actual (list): 实际值列表
    
    返回：
    float: 错误率
    """
    total = len(y_true)
    erros = sum(1 for p, a in zip(y_pred, y_true) if p != a)
    error_rate = erros / total
    return error_rate

# 示例
y_true = [1, 0, 1, 1, 0]
y_pred = [1, 1, 0, 1, 0]
error_rate = error_rate(y_pred , y_true )
print("错误率：", error_rate)

错误率： 0.4


In [9]:
# 精度
# 精度=1−错误率
from sklearn.metrics import accuracy_score

# 假设y_true是实际标签，y_pred是预测标签
y_true = [1, 0, 1, 1, 0]
y_pred = [1, 1, 0, 1, 0]

# 计算精度
accuracy = accuracy_score(y_true, y_pred)
print("精度:", accuracy)

精度: 0.6


In [10]:
# 查准率precision
# TP（真正）: 正确预测为正类的样本数
# FP（假正）: 错误预测为正类的样本数
# TN（真负）: 正确预测为负类的样本数
# FN（假负）: 错误预测为负类的样本数
# TP /( TP + FP)
# 查准率（Precision）是指在所有被预测为正类的样本中，实际为正类的比例。
from sklearn.metrics import precision_score
# 假设y_true是真实的标签列表，y_pred是预测的标签列表
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 1, 0, 1, 0, 1]

# 计算查准率
precision = precision_score(y_true, y_pred)
print("查准率:", precision)

查准率: 0.75


In [11]:
# 查全率recall
# 查全率（Recall）是指在所有正类的样本中，实际被预测为正类的比例
# 计算公式为：TP / (TP + FN)
from sklearn.metrics import recall_score
# 假设y_true是真实的标签列表，y_pred是预测的标签列表
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 1, 0, 1, 0, 1]

# 计算召回率
recall = recall_score(y_true, y_pred)

print("召回率：", recall)

召回率： 0.75


In [12]:
# F1值
# F1值是查准率和查全率的调和平均数，用于综合评估模型的性能
# 计算公式为：2 * (precision * recall) / (precision + recall)= 2 * TP / (2 * TP + FP + FN)
from sklearn.metrics import f1_score
y_true = [1, 0, 1, 1, 0]
y_pred = [1, 1, 0, 1, 0]
f1 = f1_score(y_true, y_pred)
print("F1值：", f1)

F1值： 0.6666666666666666


In [13]:
# AUC值
#形式化地看，AUC考虑的是样本预测的排序质量
from sklearn.metrics import roc_auc_score
y_true = [1, 0, 1, 1, 0]
y_pred = [0.9, 0.8, 0.7, 0.6, 0.5]

auc = roc_auc_score(y_true, y_pred)
print("AUC值：", auc)

AUC值： 0.6666666666666666


比较检验

In [14]:
# 假设检验
# “假设”是对学习器泛化错误率分布的某种判断或猜想,现实任务中我们并不知道学习器的泛化错误率，只能获知其测试错误率 
# 泛化错误率与测试错误率未必相同，但直观上，二者接近的可能性应比较大，相差很远的可能性比较小
# 因此，可根据测试错误率估推出泛化错误率的分布
import numpy as np
from scipy import stats
def t_test(k_fold_errors, a):
    """
    使用T检验推断模型的泛化错误率是否为K样本错误率的平均值。
    参数：
    k_fold_errors (list): K折交叉验证得到的K个预测的错误率列表。
    a (float): 假设模型预测的错误泛化率。
    返回：
    tuple: T统计量和p值。
    """
    # 计算K样本错误率的平均值
    mean_error = np.mean(k_fold_errors)
    # 计算K样本错误率的标准差
    se = np.std(k_fold_errors, ddof=1) / np.sqrt(len(k_fold_errors))
    # 计算T统计量
    t_statistic = (mean_error - a) / se
    # 计算自由度
    df = len(k_fold_errors) - 1
    # 计算p值
    p_value = 2 * (1 - stats.t.cdf(np.abs(t_statistic), df))
    return t_statistic, p_value 

k_fold_errors = [0.1, 0.15, 0.12, 0.13, 0.14] # K折交叉验证得到的K个预测的错误率

a = 0.16 # 假设模型在的泛化错误率为0.16
t_statistic, p_value = t_test(k_fold_errors, a)
print("T统计量：", t_statistic)
print("p值：", p_value)
#也可以⽤scipy库中的单样本T检验
from scipy import stats
t_statistic, p_value = stats.ttest_1samp(k_fold_errors, a)
print("T统计量：", t_statistic)
print("P值：", p_value)

T统计量： -3.719924439802217
p值： 0.02047587442091081
T统计量： -3.719924439802217
P值： 0.020475874420910686


In [15]:
# 交叉验证T检验
import numpy as np
from scipy import stats

def t_test(model_a_errors, model_b_errors):
    """
    使用T检验比较两个模型的K折交叉验证错误率。
    
    参数：
    model_a_errors (list): 模型A的K折交叉验证错误率列表。
    model_b_errors (list): 模型B的K折交叉验证错误率列表。
    
    返回：
    tuple: T统计量和p值。
    """
    # 计算均值和标准差
    mean_a = np.mean(model_a_errors)
    mean_b = np.mean(model_b_errors)
    std_a = np.std(model_a_errors, ddof=1)
    std_b = np.std(model_b_errors, ddof=1)
    n_a = len(model_a_errors)
    n_b = len(model_b_errors)
    # 计算T统计量
    t_statistic = (mean_a - mean_b) / np.sqrt((std_a**2 / n_a) + (std_b**2 / n_b))
    # 计算自由度
    df = n_a + n_b - 2
    # 计算p值
    p_value = 2 * (1 - stats.t.cdf(np.abs(t_statistic), df))
    return t_statistic, p_value

# ⽰例数据
model_a_errors = [0.1, 0.15, 0.12, 0.14, 0.16]
model_b_errors = [0.13, 0.17, 0.14, 0.15, 0.18]
# 进⾏T检验
t_statistic, p_value = t_test(model_a_errors, model_b_errors)
print("T统计量：", t_statistic)
print("p值：", p_value)
#也可以⽤scipy库中的双样本T检验
from scipy.stats import ttest_ind
t_statistic, p_value = ttest_ind(model_a_errors, model_b_errors)
print("T统计量：", t_statistic)
print("P值：", p_value)

T统计量： -1.407195089460583
p值： 0.1970130425857497
T统计量： -1.4071950894605831
P值： 0.19701304258574956


In [16]:
# McNemar检验 （配对卡方检验）
from scipy.stats import chi2
import numpy as np
from scipy.stats import chi2_contingency
def mcnemar_test(y_true, y_pred1, y_pred2):
    """
    使用McNemar检验评估两个模型的预测性能是否有差异。
    
    参数：
    y_pred1: 模型A预测结果
    y_pred2: 模型B预测结果
    y_true：真实的预测标签
    
    返回：
    chi2：统计量
    p_value: McNemar检验的p值
    """
    # 创建连接表
    contingency_table = np.zeros((2, 2))
    for i in range(len(y_true)):
        if y_pred1[i] == y_true[i]:
            if y_pred2[i] == y_true[i]:
                contingency_table[0, 0] += 1
            else:
                contingency_table[0, 1] += 1
        else:
            if y_pred2[i] == y_true[i]:
                contingency_table[1, 0] += 1
            else:
                contingency_table[1, 1] += 1
    # 打印列联表
    print(contingency_table)
    chi2, p_value, _, _ = chi2_contingency(contingency_table)
    return chi2, p_value
# Example usage:
y_true = [1, 0, 1, 0, 0, 0, 1, 1, 1, 0]
y_pred1 = [1, 0, 1, 0, 0, 0, 1, 0, 1, 1]
y_pred2 = [1, 1, 1, 0, 0, 0, 1, 1, 1, 1]
chi2,p_value = mcnemar_test(y_true, y_pred1, y_pred2)
print("统计量：", chi2)
print("p值：", p_value)
    

[[7. 1.]
 [1. 1.]]
统计量： 0.0390625
p值： 0.8433248948770123


In [17]:
# Friedman检验
from scipy.stats import friedmanchisquare
# 假设模型A、B、C在相同数据集上的性能评分
scores_A = [1, 2, 3, 4, 5]
scores_B = [2, 3, 4, 5, 6]
scores_C = [4, 5, 6, 7, 8]
# 执⾏Friedman检验
statistic, p_value = friedmanchisquare(scores_A, scores_B, scores_C)
print(f"Friedman检验统计量: {statistic}, p值: {p_value}")

Friedman检验统计量: 10.0, p值: 0.006737946999085468


In [19]:
# 偏差与方差
import math
#期望输出与真实标签的差别
y_true = [1, 0, 1, 1, 0]
y_pred = [0.9, 0.8, 0.7, 0.6, 0.5]
bias_2=sum([(x - y) ** 2 for x, y in zip(y_true , y_pred )])
bias=math.sqrt(bias_2)
print("偏差:", bias)

import numpy as np
y_true = [1, 0, 1, 1, 0]
y_pred = [0.9, 0.8, 0.7, 0.6, 0.5]
# 计算⽅差
mean_true = np.mean(y_true )
squared_errors = sum((y_pred - mean_true) ** 2)
var= np.mean(squared_errors)
print("⽅差：", var)

偏差: 1.072380529476361
⽅差： 0.15000000000000008
