# 实验设计

## 实验设计的概念

同一时间段内，纽约律师的数量跟苹果的价格成正比，保持着较为相似的增长曲线，那么是否就可以得出，律师数量的提升就可以带来苹果价格的提升呢？

答案当然是否定的，因为二者都与当地的人口增长有关，是由其他因素导致的。

这里也说明了一点**相关性并不意味着因果关系**（Correlation does not Imply Causation）

但在实际的工作中，我们需要获取**某项改变是否会改善性能**的确切结果，这时候就需要进行**实验设计**（Experience）。

本节课就将学习实验设计相关课程，包括：
- 什么是实验
- 实验有哪些类型
- 如何评估实验结果
- 实验设计中的坑

## 什么是实验

为了测试或理解数据中我们感兴趣的两个变量之间的关系，有很多种方法，这些方法可以根据**我们可以控制的变量数量**分为三大类：
- 如果我们可以控制非常多的变量，这时候就可以进行**实验（Experience）**
    - 控制变量法
    - 随机分为多组
    - 多组间的特征分布保持一致
    - 如更改购物网站的详情页，查看对购买率的影响
- 如果我们几乎不能控制任何变量，这时候就只能进行**观察研究（Observation Study）**
    - 只能依靠现有掌握的数据进行观测
    - 得到的结果并不具有强因果关系（如之前提到的律师与苹果的故事）
    - 可以发现一些有趣的关系，来启发下一步研究或收集数据的方向
    - 例如：吸烟对健康的影响，我们并不能强制一批人吸烟，以此设置为实验组
- 如果我们可以控制部分变量，这时候就可以进行**准实验（quasi-Experience）**
    - 介于如上二者之间，经常用于比较 修改前与修改后的所有用户情况
    - 得到的结果因果关系强度较实验弱，但仍可以对相关研究提供证据
    - 比如：对某新增教材的研究，无法保证教师和学生的分布特征完全一致

### 实验

在社会科学和医学科学中，实验的定义是比较两组或多组之间的结果，并确保除了我们要测试的特性之外，被比较组之间的其他特性是等价的（也就是**控制变量法**）。在实验中，我们是想看改变的这个特性，是否会对某个指标产生影响，比如看改变网站上按钮的布局是否会导致更多的访问者点击它。为了比较我们应用操纵时和不应用操纵时的结果（如旧的网站布局与新的网站布局），或者为了比较不同级别的操纵（如药物剂量），有**多个组是必要的**。我们还需要组间的等效性，这样我们就可以尽可能地确定结果的差异只是由于我们改变实验特性带来的差异。

此外，在对用户进行分组时，要确保随机性，保证各个分组中的用户特征分布是一致的，如年龄分布、性别分布等等。

### 观察研究

观察性研究则是以缺乏控制来定义的。观察性研究也被称为自然或相关性研究。在观察性研究中，对感兴趣的变量不施加任何控制，也许是出于道德上的考虑，或者是缺乏实施操纵的权力。这种情况经常出现在医学研究中，例如，如果我们想研究吸烟对健康的影响，吸烟会带来潜在的风险，这使得强迫人们进行吸烟行为是不道德的。所以，我们需要**依靠现有的数据或群体来做出我们的判断**。由于我们缺乏对变量的控制，我们**通常不能在观察性研究中推断出因果关系**。观察到的变量之间的任何关系可能是由于未观察到的特征，或者因果关系的方向可能是不确定的。(正如开头提到的律师与苹果的例子，我们将在后面的课程中更多地讨论这个问题。)

但是，这并不意味着观察性研究没有用。一个有趣的关系可能会给进行更多研究或收集更多数据提供灵感。这些研究可以通过排除越来越多的假设，帮助加强我们对感兴趣的特征关系的理解。

### 准实验

介于观察研究和实验之间的是准实验。在这里，可以满足真正实验的一些控制要求，但不是全部。例如，向所有用户推出一个新的网站界面，看看他们在上面花了多少时间，这可能被认为是一个准实验。虽然操作是由实验者控制的，但并没有多组进行比较。实验者仍然可以使用改变前的人群行为，并与改变后的行为进行比较，对改变的效果做出判断。

但是，有可能存在操纵特征之外的其他特征，导致观察到的结果产生变化。

一个典型的例子是，如果一个研究者想为高中课程测试一些新的补充材料。如果他们选择两所不同的学校，一所学校有新教材，一所学校没有，我们就有了一个准实验，因为这些学校的学生或教师的不同素质可能会对结果产生影响。理想情况下，我们希望在测试前将两所学校尽可能地匹配起来，但我们不能称之为真正的实验，因为学生与学校的分配不能被认为是随机的。

虽然准实验的因果关系推断强度可能不如真正的实验，但结果仍然可以为所研究的关系提供大量有力的证据。

**阅读材料：**

[这篇New York Times的报告](https://www.nytimes.com/interactive/2018/07/18/upshot/nike-vaporfly-shoe-strava.html)在无法进行严格随机实验的前提下，分析了公众对Nike新跑鞋的看法，值得一看！

## 实验的类别

- 组间对比试验（A/B-test）：
    - A组（对照组 control group）：保持原样
    - B组（实验组 experimental group）：进行特性测试
    - A组与B组的用户，会接受不同的产品（页面等），以此来对比分析最终结果
    - 当然，可以进行多组实验，单个对照组VS多个实验组
- 组内对比试验：
    - 也被称作重复测试（repeated measures）实验
    - 用户不需分组，分别对不同的产品进行体验/评分，如测试两款饮料的口感
- 因子设计（Factorial Designs）：
    - 可以操纵多个感兴趣的特征的值。例如，对于两个独立的操纵 "X "和 "Y"，我们有四个条件。"控制"，"只有X"，"只有Y"，"X和Y"；
    - 在工程和物理科学领域比较常见，因为这些领域的系统单元往往受到比较严格的控制；在社会和医学领域则较少见，因为个体差异会阻碍实验的创建和分析。

## 抽样的类别

- 简单随机抽样（simple random sampling）：直接从总量中进行随机抽样，直到满足样本总量。比如，从一个城市中，随机抽取1000人；
- 分层随机抽样（stratified random sampling）：按照类别占比从总量中进行随机抽样。比如，一个城市中包含市区、郊区和农村，人口密度不一样，如果进行简单随机抽样的话，会导致抽样中的农村人口数量太少，影响最终结果。这时候我们可以依据分层随机抽样，在市区抽500人，郊区300人，农村200人，这样就可以保证每个类别都有足够数量进行统计分析。

## 评估结果

### 指标的重要性

我们通过测试去查看推荐系统是否更优，这时候就需要去定义评估结果的指标，比如：
- 用户观看视频的长度
- 用户点击视频的排名提升数量
- 用户搜索的次数

虽然如上这些指标，可以在一定程度上，表示出模型的优劣，但是，如果单单盯住某一个指标进行优化，则有可能带来一些问题：
- 用户观看视频越长，说明系统越好，但这也有可能让推荐系统把持续时间较长的视频推送到最前面；
- 用户点击视频的排名提升数量越高，说明系统越好，但这也有可能让推荐系统把排名最靠后的那些视频推到前面；
- 用户搜索次数越少越好，但这也有可能带来用户量的损失。

所以：
- 首先，应确保指标与我们的最终目标保持一致；
- 但，观察指标的变化不是研究的重点，而是变化对研究目标的影响更重要。

### 创建指标

- 评估指标（Evaluation Metrics）
    - 提供评价实验是否成功的指标
    - 例如：平均访问量，单位浏览量的购买率
- 不变指标（Invariant Metrics）
    - 用于检查各组的对等性
    - 例如：访问网页的cookies数量；登陆用户数

### 检查有效性（Validity）
主要检查如下三个方面的有效性：
- 结构有效性（Construct Validity）：评估指标是否与我们的目标一致，比如说之前提到的推荐系统中搜索次数这个指标，就不具有结构有效性；
- 内部有效性（Internal Validity）：实验结果是否能推出有效的因果关系，比如冰淇淋售卖数量与犯罪率成正比，但二者并没有因果关系，都是因为天气炎热（**混淆变量（confounding variables）**）导致的结果；
- 外部有效性（External Validity）：实验结果是否可以推广到更大的群体。

### 检查偏差（Bias）

# 推荐系统

当前推荐系统应用十分广泛，如淘宝推荐猜你喜欢的商品、网易云音乐推荐歌曲、爱奇艺推荐视频等等。

在这部分内容中，我们将会学习&了解几种基础的推荐系统：
- 基于知识（Knowledge Based）
- 基于内容（Content Based）
- 基于协同过滤（Collaborative Filtering Based）

## 推荐系统示例

- 有些推荐基于位置信息，例如交友应用的推荐；
- 有些推荐，只是列出了热门内容，如沃尔玛官网；
- 有些推荐基于之前的偏好设置，如B站。

创建推荐的方式有很多种，需要基于特定的业务场景，来决定使用何种推荐算法。


一些品牌：
- LinkedIn和Facebook的交友推荐；
- Airbnb的体验&目的地推荐；
- 沃尔玛，亚马逊等零售商的商品推荐。

## 基于知识的推荐系统

- 基于排名的推荐系统：
    - 基于某种指标进行排序，如最喜欢的，购买最多的，评分最高的等等；  
    - 按照排名推荐热门电影
- 基于知识的推荐系统：
    - 需要用户提供对产品的偏好；  
    - 在如上推荐系统中，根据用户的喜好选择，添加上一定的筛选条件，如在推荐电影时，用户喜好冒险类的电影，所以，这里就推荐”冒险类”排名靠前的电影，这就是基于知识的推荐系统
    - 示例：贝壳app的筛选推荐。

## 更个性化的推荐系统

现在你已经掌握了一种向用户推荐热门内容的方法，但有时候我们需要在用户没有给出他的喜好时，也给用户推荐更个性化的内容，而不是简单的推荐一些热门内容。

虽然《肖申克的救赎》是豆瓣热门电影Top1，但给所有人都推荐这部电影，并不合适。比如说对于一个家庭来说，虽然父亲可能更喜欢看这部电影，但母亲更偏向于爱情类的电影，而孩子可能只对动画片感兴趣。

那这时候，我们就可以根据**用户与内容的互动**进行推荐，比如淘宝的猜你喜欢。

根据用户与内容互动进行推荐的方式就叫做**协同过滤**。这种方法，我们不需要知道任何用户的背景信息，甚至不需要知道内容的背景信息，依然可以做出推荐，唯一需要获取的数据就是用户与内容的交互行为，比如用户对内容的评分，是否喜欢该内容等等。

其主要分为两类：
- 基于模型（Model），需要使用机器学习技巧
- 基于近邻（Neighborhood），近邻也就是寻找跟当前被推荐用户关系紧密的个人，比如观看相同电影较多的用户群体就算是彼此的近邻。

### 基于近邻的协同过滤

如何确定近邻呢？
- 基于相似度（similarity）
    - 皮尔逊相关性（Pearson's Correlation）
    - 斯皮尔曼相关性（Spearman's Correlation）
    - Kendall's tau
    - 如上这些衡量方法都在-1到1之间，越接近1，就说明越相似。所以，在进行推荐时，就需要找出这些系数最大的用户。    
    
- 基于距离（distance）
    - 欧氏距离（Euclidean Distance）
    - 曼哈顿距离（Manhattan Distance）
    - 如上两个衡量方法在0到无穷大之间，我们需要找的，是那些接近于0的用户。
    
    
对于这些指标，要根据具体业务场景进行选择。
    


实施协同过滤推荐：
- 从近邻交互的内容中，筛选出评分较高/点赞/喜欢的内容
- 从如上筛选出的内容中，删除掉被推荐用户已经看过/交互过的内容
- 将上一步中的结果，推荐给用户

那这样会有什么问题吗？比如说，推荐系统刚刚建立起来的时候，可能没有任何用户或者没有很多用户，这就会导致很多用户并不能获得推荐结果。

这时候就需要使用**基于内容的推荐**方式

## 基于内容的推荐系统

比如说，有个用户刚买了一辆自行车，那么我们就可以基于**内容**，推荐自行车相关的东西，比如头盔、车灯等等。

## 评估

当给用户做出推荐之后，如何知道用户对推荐内容的评分呢？

某些情景下，我们只知道用户与内容是否发生了互动，但我们想知道用户是否喜欢推荐的内容，那这种评分标准（rating scale）有很多，如：
- 喜欢or不喜欢
- 评分范围：非常差、差、中等、好、非常好

更多可以参考：[Survey Response Scales: How to Choose the Right One](https://cxl.com/blog/survey-response-scales/)

## 目标

在通常情况下，推荐系统非常重要，因为它可以给公司带来经济上的收益，那么一个推荐系统的性能需要考虑如下四点：
- 相关性（Relevance）：推荐的内容与用户相关；
- 新奇性（Novelty）：推荐的内容不应该是用户已经接触过的；
- 意外新发现（Serendipity）：这会让用户真正的惊喜，也就是推荐的内容并不是完全与用户历史相似，比如用户经常听经典音乐，然后推荐了一首乡村音乐，用户还意外地发现，自己很喜欢这首歌。这比较难实现，经常需要结合协同过滤与基于内容的推荐；
- 多样性（Diversity）：推荐的内容多样性，才能至少有一个是被用户喜欢的。

 [In this article, Lab41 shows how they worked to quantify these metrics.](https://gab41.lab41.org/recommender-systems-its-not-all-about-the-accuracy-562c7dceeaff)



## 小结

如上我们一共学习&了解了x中推荐方法：
- 基于知识的推荐系统：使用内容的相关知识给用户进行契合需求的推荐，经常用在奢侈品等交易量较少的购物网站，比如珠宝、汽车、二手房等等；
- 协同过滤：使用用户-内容交互数据进行推荐；
- 基于内容的推荐系统：使用内容之间的相似性（内容描述、功能、用途等等）进行推荐

此外，还有一些其他的推荐方法，比如：
- 基于地理位置信息的推荐：[As our smart phones become more addicting every day, it is easy to see why location based recommendations will be more and more popular](https://link.springer.com/referenceworkentry/10.1007%2F978-3-319-17885-1_1580)
![B2wBUe.md.png](https://s1.ax1x.com/2020/11/05/B2wBUe.md.png)

- 基于深度学习的推荐