---
title: 3.9 环境和分布偏移
date: 2024-3-17 14:00:00
tags: [机器学习,pytorch]
categories: [机器学习]
comment: true
toc: true
---
#
<!--more-->
# 9 环境和分布偏移
- 在不同的应用场景模型决策方案会出现漏洞
## 9.1 分布偏移的类型
- 考虑一个二元分类问题：区分狗和猫。如果分布可以以任意方式偏移，那么我们的情景允许病态的情况，即输入的分布保持不变：$p_S(x) = p_T (x)$，但标签全部翻转：$p_S(y|x) = 1 − p_T (y|x)$。
### 9.1.1 协变量偏移
- 虽然输入的分布可能随时间而改变，但标签函数（即条件分布P(y | x)）没有改变。统计学家称之为协变量偏移（covariate shift），因为这个问题是由于协变量（特征）分布的变化而产生的。
- 比如用真的猫狗图像做训练，卡通猫狗做测试。
### 9.1.2 标签偏移
- 与协变量偏移相反。假设标签边缘概率P(y)可以改变，但是类别条件分布P(x | y)在不同的领域之间保持不变。当我们认为y导致x时，标签偏移是一个合理的假设。例如，预测患者的疾病，我们可能根据症状来判断，即使疾病的相对流行率随着时间的推移而变化。
- 在另一些情况下，标签偏移和协变量偏移假设可以同时成立。例如，当标签是确定的，即使y导致x，协变量偏移假设也会得到满足。有趣的是，在这些情况下，使用基于标签偏移假设的方法通常是有利的。这是因为这些方法倾向于包含看起来像标签（通常是低维）的对象，而不是像输入（通常是高维的）对象。
### 9.1.3 概念偏移
- 当标签的定义发生变化时，就会出现这种问题。
- 如果我们要建立一个机器翻译系统，P(y | x)的分布可能会因我们的位置不同而得到不同的翻译。这个问题可能很难被发现。所以，我们最好可以利用在时间或空间上逐渐发生偏移的知识。
## 9.2 分布偏移示例
### 9.2.1 医学诊断
- 假设我们想设计一个检测癌症的算法，从健康人和病人那里收集数据，然后训练算法。收集训练数据的分布和在实际中遇到的数据分布可能有很大的不同。用近乎完美的精度来区分健康和患病人群确实很容易。然而，这可能是因为受试者在年龄、激素水平、体力活动、饮食、饮酒以及其他许多与疾病无关的因素上存在差异。这对检测疾病的分类器可能并不适用。这些抽样可能会遇到极端的协变量偏移。此外，这种情况不太可能通过常规方法加以纠正。
### 9.2.2 自动驾驶汽车
- 对于一家想利用机器学习来开发自动驾驶汽车的公司，一个关键部件是“路沿检测器”。由于真实的注释数据获取成本很高，他们想出了一个“聪明”的想法：将游戏渲染引擎中的合成数据用作额外的训练数据。这对从渲染引擎中抽取的“测试数据”非常有效，但应用在一辆真正的汽车里真是一场灾难。正如事实证明的那样，路沿被渲染成一种非常简单的纹理。更重要的是，所有的路沿都被渲染成了相同的纹理，路沿检测器很快就学习到了这个“特征”。
- 当美军第一次试图在森林中探测坦克时，也发生了类似的事情。他们在没有坦克的情况下拍摄了森林的航拍照片，然后把坦克开进森林，拍摄了另一组照片。使用这两组数据训练的分类器似乎工作得很好。不幸的是，分类器仅仅学会了如何区分有阴影的树和没有阴影的树：第一组照片是在清晨拍摄的，而第二组是在中午拍摄的。
### 9.2.3 非平稳分布
- 当分布变化缓慢并且模型没有得到充分更新时，就会出现更微妙的情况：非平稳分布（nonstationary distri‐bution）
    - 训练一个计算广告模型，但却没有经常更新（例如，一个2009年训练的模型不知道一个叫iPad的不知名新设备刚刚上市）；
    - 建立一个垃圾邮件过滤器，它能很好地检测到所有垃圾邮件。但是，垃圾邮件发送者们变得聪明起来，制造出新的信息，看起来不像我们以前见过的任何垃圾邮件；
    - 建立一个产品推荐系统，它在整个冬天都有效，但圣诞节过后很久还会继续推荐圣诞帽。

## 9.3 分布偏移纠正
- 通过一些策略应对分布偏移
### 9.3.1 经验风险与实际风险
- 不考虑正则化，训练损失为：$\operatorname*{minimize}_f\frac1n\sum_{i=1}^nl(f(\mathbf{x}_i),y_i)$，也称经验风险，其中$l$是损失函数。
- 经验风险是为了近似真实风险：整个训练数据上的平均损失，即从真实分布$p(x,y)$中抽取的所有数据的总体损失的期望值：
    $$E_{p(\mathbf{x},y)}[l(f(\mathbf{x}),y)]=\int\int l(f(\mathbf{x}),y)p(\mathbf{x},y)~d\mathbf{x}dy$$
    然而，我们通常无法获得总体数据。
    
#Persistent
return

XButton1::
    GetKeyState, state, MButton, P
    ToolTip, %state%
    if state = D ;
        Send, ^z ; 方案2: Ctrl+Z
    else
        Send, ^v ; 方案1: Ctrl+V
return

XButton2::
    GetKeyState, state, MButton, P
    ToolTip, %state%
    if state = D
        Send, #v ; 方案2: win+V
    else
        Send, ^c ; 方案1: Ctrl+C
return

