# 因子投资中的机器学习—— Chapter 1 背景和基本流程

**作者**: 林劲展  
**日期**: 2024-09-13  
**电子邮件**: jinzl@stu.pku.edu.cn  
**电话号码**: +86 13026888733  
**单位**: 北京大学汇丰商学院  
**专业方向**: 数量金融

---

## 项目简介
<p><span style="font-size: 18px;">
我预备着将本人通过书本和论文所学到过的因子投资和机器学习的相关知识整理出来，主要是Pdf和Jupyter Notebook的形式上传到网盘。以书籍和论文作为底本，也包含自己的见解。不仅作为自己的学习记录，也作为公共的材料，以飨Pi-Kuant-Union的各位同志。所以接下来的内容可能暂时属于学习性质，比较适合初接触这个领域的朋友们，或者适合需要一本百科全书式参考手册的朋友们。本项目的更新频率大约是一周一更。
<p><span style="font-size: 18px;">
由于本人本科就读于中国科学技术大学物理学院天文系，属跨行门外汉，关于金融知识的了解可能不够深入，经济学直觉有所欠缺，万望包涵。
<p><span style="font-size: 18px;">
欢迎朋友们对于此项目随时提出宝贵意见。

### 一、因子投资中的机器学习背景
<p><span style="font-size: 18px;">
在因子投资中，机器学习的蓬勃发展源于三个有利因素：海量数据、强大计算能力和经济理论基础。
<p><span style="font-size: 18px;">
首先是数据。当今，专业数据服务商崛起，高频数据和衍生品报价成为主流。因此，收集公司特定的属性变得容易且成本低廉。这意味着输入机器学习的训练集规模足够大。例如每个月进行几百次观测，覆盖数千只股票，以及几百个特征，这就形成了数千万个数据点的样本集。尽管这个数据量看似很大，但时间分辨率可能是一个弱点。因为财务报表数据仅按季度发布，这样的低频数据可能无法捕捉到市场的快速变化，因此可能对短期预测的策略开发不够理想。当然，这种缺点并不适用于高频交易策略。
<p><span style="font-size: 18px;">
其次是计算能力，无论是硬件还是软件。存储和处理速度已经不再是技术障碍，模型甚至可以通过主要厂商（如亚马逊、微软、IBM 和谷歌）以及一些小型公司（如 Rackspace、Techila）提供的云服务来运行。在软件方面，开源软件已经成为常态，由企业（如谷歌的 TensorFlow 和 Keras、Facebook 的 Pytorch、h2o 等）、大学（如 INRIA 的 Scikit-Learn、斯坦福大学的 NLPCore、宾夕法尼亚大学的 NLTK）和小型研究团队（如 caret、xgboost、tidymodels 等框架）资助。因此，机器学习不再是少数计算机科学专家的专属领域，相反，它对任何愿意学习和编程的人都是开放的。
<p><span style="font-size: 18px;">
最后是经济框架。机器学习在金融领域的应用最初是由计算机科学家和信息系统专家引入的（例如 Braun 和 Chandler（1987年），White（1988年）），随后被金融经济学学者（Bansal 和 Viswanathan（1993年））和对冲基金所利用（例如，见 Zuckerman（2019年））。非线性关系随后在资产定价中变得更为普遍（Freeman 和 Tse（1992年），Bansal、Hsieh 和 Viswanathan（1993年））。这些贡献为2010年代以来本领域的蓬勃发展奠定了基础。
<p><span style="font-size: 18px;">
R. Arnott、Harvey 和 Markowitz（2019年）提出，模型须有经济学意义，也即唯一的假设是未来的回报依赖于公司的特征。这些特征与收益表现之间的关系在很大程度上是未知的，可能是随时间变化的。这正是机器学习可以发挥作用的地方：它能够在已知的资产定价异常之外检测一些隐藏的模式。此外，动态训练使得模型可以适应变化的市场条件。

### 二、投资组合构建流程
<p><span style="font-size: 18px;">
构建投资组合的核心在于预测。主要使用监督学习来预测横截面上的收益。监督学习中的基线方程如下：
<p><span style="font-size: 18px;">
$ y=f(X)+\epsilon $
<p><span style="font-size: 18px;">
亦即
<p><span style="font-size: 18px;">
$ r_{t+1,n}=f(x_{t,n})+\epsilon $
<p><span style="font-size: 18px;">
其中$f(x_{t,n})$可以被视为在时间 t 计算的对时间 T+1 的预期收益。
<p><span style="font-size: 18px;">
构建准确的预测需要关注上述方程中的所有项。从时间顺序来看，第一步是收集和处理数据。据我们所知，唯一的共识是，在自变量 X 方面，特征应包括文献中的经典预测因子：市值、会计比率、风险、动量。对于因变量，许多研究人员和从业者使用月度收益，但其他周期在样本外可能表现更好。
<p><span style="font-size: 18px;">
虽然选择 f 似乎是最关键的部分（因为它是最复杂的数学部分），但输入变量的选择和特征工程，至少同样重要。误差项常常被忽略。主流目标是最小化平方误差。事实上，其他选项可能是更明智的选择。

![image.png](attachment:1de03829-56ae-4081-88f4-10c4aef44642.png)

### 三、机器学习的局限性和难点
<p><span style="font-size: 18px;">
预测算法过于依赖历史数据，寄希望于过去的历史规律可以在未来复现，效果往往不佳，哪怕应用更加复杂和先进的计量经济学工具也无益，盲目添加数据和参数亦很少能调高样本外预测准确性。有时，一些启发式猜测却会获得不错的效果。
<p><span style="font-size: 18px;">
金融与机器学习结合的关键在于：
<p><span style="font-size: 18px;">
（一）因果关系，（二）相关性，（三）噪声和有效信号的分辨，（四）经济学观点的输入，（五）不变的时间序列模式。