# 4.9. 环境和分布偏移

# 4.9.1. 分布偏移的类型

4.9.1.1. 协变量偏移

虽然输入的分布可能随时间而改变， 但标签函数（即条件分布）没有改变

4.9.1.2. 标签偏移

这里我们假设标签边缘概率可以改变， 但是类别条件分布在不同的领域之间保持不变。 当我们认为y导致x时，标签偏移是一个合理的假设。 例如，预测患者的疾病，我们可能根据症状来判断， 即使疾病的相对流行率随着时间的推移而变化。 标签偏移在这里是恰当的假设，因为疾病会引起症状。 在另一些情况下，标签偏移和协变量偏移假设可以同时成立。 例如，当标签是确定的，即使y导致x，协变量偏移假设也会得到满足

4.9.1.3. 概念偏移

当标签的定义发生变化。如地名改变等。

# 4.9.2. 分布偏移示例

4.9.2.1. 医学诊断

4.9.2.2. 自动驾驶汽车

4.9.2.3. 非平稳分布

当分布变化缓慢并且模型没有得到充分更新时，就会出现更微妙的情况： 非平稳分布（nonstationary distribution）。
建立一个垃圾邮件过滤器，它能很好地检测到所有垃圾邮件。但是，垃圾邮件发送者们变得聪明起来，制造出新的信息，看起来不像我们以前见过的任何垃圾邮件；

4.9.2.4. 更多轶事

# 4.9.3. 分布偏移纠正

4.9.3.1. 经验风险与实际风险

在实践中，我们通常无法获得总体数据。 因此，经验风险最小化即在样本内最小化经验风险， 是一种实用的机器学习策略，希望能近似最小化真实风险。

4.9.3.2. 协变量偏移纠正

需要根据数据来自正确分布与来自错误分布的概率之比， 来重新衡量每个数据样本的权重。

4.9.3.3. 标签偏移纠正

重要性权重将对应于标签似然比率。

4.9.3.4. 概念偏移纠正

除了从零开始收集新标签和训练，别无妙方。 幸运的是，在实践中这种极端的偏移是罕见的。通常情况下，概念的变化总是缓慢的，使用新数据更新现有的网络权重。

# 4.9.4. 学习问题的分类法

4.9.4.1. 批量学习

4.9.4.2. 在线学习

4.9.4.3. 老虎机

4.9.4.4. 控制

4.9.4.5. 强化学习

4.9.4.6. 考虑到环境

# 4.9.5. 机器学习中的公平、责任和透明度

# 4.9.6. 小结

在许多情况下，训练集和测试集并不来自同一个分布。这就是所谓的分布偏移。

真实风险是从真实分布中抽取的所有数据的总体损失的预期。然而，这个数据总体通常是无法获得的。经验风险是训练数据的平均损失，用于近似真实风险。在实践中，我们进行经验风险最小化。

在相应的假设条件下，可以在测试时检测并纠正协变量偏移和标签偏移。在测试时，不考虑这种偏移可能会成为问题。

在某些情况下，环境可能会记住自动操作并以令人惊讶的方式做出响应。在构建模型时，我们必须考虑到这种可能性，并继续监控实时系统，并对我们的模型和环境以意想不到的方式纠缠在一起的可能性持开放态度。

# 4.9.7. 练习

In [None]:
import numpy as np
# 实现一个协变量偏移检测器。提示：构建一个分类器。
# 主要是lossu函数不同
# p(x) q(x)为x分布函数，实际填充
# x、y均为o张量操作
def p(x):
    return x

def q(x):
    return x

def a_loss(y_hat, y):
    """初始loss"""
    return (y - y_hat) * (y - y_hat)

def offset_loss(y_hat, y, x):
    """偏移量修正loss"""
    beta = p(x) / q(x)
    return np.dot(beta, a_loss(y_hat, y))