# 系列三：多因子风险模型
---------
本报告参考一些研报研究BARRA的多因子风险模型，此时涉及到的**因子暴露数据为日频**。

*由于关注的是实现的过程，因此我将每个交易日的因子暴露直接取为前一月的因子暴露，但收益率采用日度收益。*  

***由于计算能力的限制，只对一期的风险实现预测的过程，其他期是完全相同的迭代。***

# 目录
----
- 1 多因子风险模型
    - 1.1 因子选择
        - 1.1.1 国家因子
        - 1.1.2 行业因子
        - 1.1.3 风格因子
    - 1.2 因子收益求解
        - 1.2.1 数据预处理
        - 1.2.2 因子收益求解方式
- 2 风险矩阵估计
    - 2.1 因子收益协方差矩阵估计
        - 2.1.1 Newey-West调整
        - 2.1.2 特征值调整
        - 2.1.3 波动率偏误调整
    - 2.2 特质收益方差矩阵估计
        - 2.2.1 Newey-West调整
        - 2.2.2 结构化调整
        - 2.2.3 贝叶斯压缩调整
        - 2.2.4 波动率偏误调整
- 3 风险预测实例：全市场

# 1 多因子风险模型
------
马科维茨的均值方差理论为资产的风险预测奠定了基础，但该模型存在两个局限性：
- 直接利用股票的历史收益率计算协方差矩阵计算量非常大；
- 由于存在估计误差，样本时间长度必须大于股票数目，当股票数目很大时很难满足这一条件。

在多因子模型框架下，股票的协方差矩阵为：
$$V=XFX^{T}+\Delta$$

其中：

- X为股票的因子暴露矩阵
- F为因子收益的协方差矩阵
- $\Delta$为股票的特质收益方差矩阵

显然，对股票风险的预测转变为对**因子收益的协方差矩阵**和**股票的特质收益方差矩阵**的预测。

## 1.1 因子选择
----
尽管因子的选择是多因子模型非常重要的一环，但这里由于一些限制，我还是采用了已有的因子数据库（风格因子、行业因子）。

### 1.1.1 国家因子
---
BARRA USE4在多因子模型中显式地加入了国家因子：
$$r_{n}=f_{c}+\sum_{i}X_{ni}f_{i}+\sum_{s}X_{ns}f_{s}+u_{n}$$

其中：

- $r_{n}$为股票n的收益率
- $f_{c}$为国家因子收益率
- $X_{ni}$为股票n在行业i上的因子暴露（哑变量，属于该变量取1，否则为0）
- $f_{i}$为行业因子i的收益率
- $X_{ns}$为股票n在风格因子s上的因子暴露
- $f_{s}$为风格因子s的收益率
- $u_{n}$为股票n的特质收益率

加入国家因子后回归方程会存在完全共线性，为求解上述方程需要，加入如下约束：
$$\sum_{i}w_{i}f_{i}=0$$
其中$w_{i}$表示行业i的所有股票市值之和占全市场市值的比例。  

加入国家因子会使得因子的含义变得更加直观、纯粹。记未加入国家因子时，行业因子收益为$\tilde{f_{i}}$，则有：
$$\tilde{f_{i}}=f_{c}+f_{i}$$

国家因子反映的是市场整体的收益水平，加入国家因子后，行业因子代表做多行业组合、做空市场组合的收益，能更加纯粹代表行业因子。

### 1.1.2 行业因子
---
行业分类采用了29个中信一级行业。

### 1.1.3 风格因子
----
包含7大类36个风格因子，大类因子内部的小类因子采用等权合成。

## 1.2 因子收益求解
----

### 1.2.1 数据预处理
---
数据预处理主要是指对因子暴露数据的处理，包含如下4个步骤：

- 去极值：依然采用中位数去极值法。
- 缺失值处理：和之前不同了，这里先对缺失值进行处理。缺失值填充为该股票所在行业的均值。
- 标准化：因子暴露减去全市场股票市值加权的平均值再除以等权标准差，采用市值加权的平均值是为了让国家因子代表的市场组合对任何风格因子暴露为0。
- 正交化处理：将待处理的因子暴露作为因变量，选定的因子暴露作为自变量进行WLS回归，权重为股票市值，取回归残差作为正交化处理后的因子暴露。

*由于缺少对各因子之间全面的相关分析，因此本文并未进行正交化。*

### 1.2.2 因子收益求解方式
---
在每个截面上，因子收益的求解，即求解如下优化问题：
$$min\; \; w_{n}\left ( r_{n}-f_{c}-\sum_{i}X_{ni}f_{i}-\sum_{s}X_{ns}f_{s} \right )^{2}$$
$$s.t.\sum_{i}W_{i}f_{i}=0$$

其中：

- $w_{n}$代表股票n的市值占全市场的权重
- $W_{i}$代表行业i所有股票市值之和占全市场的权重

除了采用数值解法，还有一种巧妙的解法。现在考虑不包含国家因子的优化问题（自然，此时也不需要施加约束条件），求解因子收益变成如下优化问题：
$$min\; \; w_{n}\left ( r_{n}-\sum_{i}X_{ni}\tilde{f_{i}}-\sum_{s}X_{ns}f_{s} \right )^{2}$$

且：
$$\tilde{f_{i}}=f_{i}-f_{c}\tag{1.1}$$

为了得到原优化问题的解，可先通过WLS求解此优化问题，再根据(1.1)式和下式：
$$f_{c}=\sum_{i}W_{i}f_{i}$$

可得到加入原优化问题的解。

# 2 风险矩阵估计
---
首先介绍一个衡量风险预测准确度的指标——**偏差统计量**。定义资产k的样本外标准化收益为：
$$b_{k,t}=\frac{r_{k,t\sim t+\delta }}{\sigma _{k,t}}$$

偏误统计量$B_{k}$定义为在一段窗口期T内，样本外标准化收益的标准差，表示实际风险与预测风险的比。若$B_{k}> 1$，则风险被低估；反之则风险被高估。由于采样误差的存在，即便是准确的风险预测，其偏差统计量也难以等于1。因此定义一个偏差统计量的置信区间：
$$\left [ 1-\sqrt{2/T},1+\sqrt{2/T} \right ]$$

若偏误统计量落在置信区间内，则认为风险预测是准确的。

*需要注意的是，上述置信区间假设收益率是正态分布，但实际上分布存在尖峰后尾的特征，因此这也是一个比较强的条件。*

## 2.1 因子收益协方差矩阵估计
---
在计算因子收益协方差矩阵时，要求截面期数大于因子数目，若采用月频数据，时间窗口非常长，需要包含与当前市场状态相关性较弱的数据，因此多因子风险估计大多采用日度数据，计算出日频协方差矩阵后，再利用Newey-West调整将日频协方差矩阵调整为月频矩阵。  

由于近期的数据比远期数据更能代表市场目前的状态，因此在计算协方差矩阵时，采用半衰加权方式：
$$F_{a,b}^{raw}=cov\left ( a,b \right )_{t}=\sum_{s=0}^{h}\lambda _{t-s}\left ( f_{a,t-s}-\bar{f_{a}} \right )\left ( f_{b,t-s}-\bar{f_{b}} \right )/\sum_{s=0}^{h}\lambda _{t-s}$$

其中：

- $\lambda _{t-s}=\left (\frac{1}{2}  \right )^{s/\tau }$
- $\bar{f_{a}},\bar{f_{b}}$为t-h到t截面期内因子收益率的半衰加权均值

对于协方差矩阵中协方差项和方差项的计算，统一取时间窗口$h=252$、半衰期$\tau=90$。

### 2.1.1 Newey-West调整
---
上述计算出的协方差存在一个很明显的问题：**未考虑因子收益序列的自相关性**，因此$F^{raw}$并不是一个相合估计，即随着样本量的增大，$F^{raw}$并不能逼近真实协方差矩阵，为了得到相合估计，需要将因子收益序列的自相关性考虑进来。  

若因子收益是D阶自相关的，则一个简单的相合估计可以表示为：
$$\Omega =F^{raw}+\sum_{d=1}^{D}\left ( \hat{\Omega }_{d}+{\hat{\Omega }_{d}}' \right )$$

其中$\hat{\Omega }_{d}$是因子收益的自协方差矩阵（收益经过demean处理）：
$$\hat{\Omega }_{d}=\sum_{t=1}^{T-d}\lambda ^{T-d-t}f_{t}{f}'_{t+d}/\sum_{t=1}^{T-d}\lambda ^{T-d-t}$$

这一修正的本质就是用自协方差矩阵修正自相关的部分，它有一个比较明显的问题：修正之后的矩阵不一定满足半正定的要求。*Newey and West(1987)*在调整过程中加入了Bartlett权重解决了这一问题：
$$\hat{\Omega } =F^{raw}+\sum_{d=1}^{D}w\left ( d,D \right )\left ( \hat{\Omega }_{d}+{\hat{\Omega }_{d}}' \right )$$
$$w\left ( d,D \right )=1-\frac{d}{D+1}$$

上述得到的协方差矩阵是日频的，为了应用于月频的策略，需要将协方差矩阵调整至月频。因此最终Newey-West调整之后的协方差矩阵为：
$$F^{NW}=21\cdot \hat{\Omega }$$

在调整的过程中，取滞后阶数D=2。

### 2.1.2 特征值调整
---
*Shepard(2009)* 指出，根据历史数据估计协方差矩阵，在满足正态性、平稳性、股票数目足够多的的假设下，最优投资组合的真实风险与预测风险之间存在如下关系：
$$\sigma ^{true}=\frac{\sigma ^{pred}}{1-K/T}$$

其中：

- K：股票数目或因子数目
- T：有效样本数

在有效样本数一定的条件下，股票（因子）数目越多，风险越被低估。  

究竟是什么原因导致最优投资组合的风险被低估呢？是否是风险模型统一低估了所有资产的风险？为了找出原因，*Menchero、Wang and Orr(2012)* 对比了单一股票、随机权重投资组合和以协方差矩阵特征向量为权重的投资组合（以下简称“特征组合”）的偏误统计量。其中特征组合的预测风险即为该组合对应的特征向量对应的特征值的平方根。  

结果显示单一股票、随机权重投资组合的偏误统计量都接近1，表明这两者的风险预测是准确的。但特征组合的偏误统计量与真实波动率呈负相关，即模型低估了低波动率特征组合的风险，随着波动率增大，低估程度越来越小。*Menchero、Wang and Orr(2012)* 认为，最优投资组合的风险低估很可能与特征组合的风险偏误（即特征值偏误有关），基于这一假设，他们提出特征值调整：基于蒙特卡洛模拟估计采样误差带来的特征值偏误，从而对特征值偏误进行调整。  

特征值调整的方法如下。对Newey-West调整之后的协方差矩阵$F^{NW}$进行特征值分解：
$$D_{0}={U}'_{0}F^{NW}U_{0}$$

其中：

- $D_{0}$为特征值构成的对角阵
- $U_{0}$第k列对应$F^{NW}$的第k个特征向量

以$U_{0}$第k列为权重的特征组合的风险恰好等于第k个特征值的平方根，且特征组合之间不相关。  

对于任意已知的风险协方差矩阵，采样误差带来的特征值偏误具有确定的概率分布。因此，虽然不知道真实的协方差矩阵，但可以将已有的$F^{NW}$视作真实的协方差矩阵，将以$U_{0}$为权重的特征组合的方差$D_{0}$视作特征组合真实的方差。**通过蒙特卡洛模拟，计算真实的协方差矩阵的特征值与模拟收益数据得到的协方差矩阵的特征值的比值，从而衡量采样误差带来的特征值偏误**。  

第m次蒙特卡洛模拟的步骤如下：

1. 假设特征组合的收益满足正态分布，随机生成K×T的收益率矩阵$b_{m}$，K即特征组合数目（也是因子数目）。$b_{m}$的第k行服从均值为0，标准差为$D_{0}\left ( k,k \right )$的正态分布。根据特征组合收益与因子收益率的关系，可以得到因子收益矩阵如下：
$$f_{m}=U_{0}b_{m}$$
2. 根据得到的因子收益矩阵，计算因子收益协方差矩阵$F_{m}$
3. 将模拟得到的因子收益协方差矩阵$F_{m}$进行特征值分解，得到模拟特征组合权重矩阵$U_{m}$和模拟特征组合方差矩阵$D_{m}$：
$$D_{m}={U}'_{m}F_{m}U_{m}$$
4. 根据模拟特征组合权重矩阵$U_{m}$和真实协方差矩阵$F^{NW}$计算得到真实特征组合方差矩阵$\tilde{D}_{m}$：
$$\tilde{D}_{m}={U}'_{m}F_{m}U_{m}$$
需要注意的是由此计算得到的方差矩阵$\tilde{D}_{m}$不一定是一个对角阵，但我们依然可以将对角线元素看作特征组合的真实方差。  

共进行M次模拟以获得对特征值偏误的稳定估计：
$$\lambda \left ( k \right )=\sqrt{\frac{1}{M}\sum_{m=1}^{M}\frac{\tilde{D}_{m}\left ( k \right )}{D_{m}\left ( k \right )}}$$
$$\lambda \left ( k \right ):第k个特征值的特征值偏误$$

由于实际收益数据具有尖峰厚尾的分布特征，因此还需要对上述特征值偏误进行调整，调整后的特征值偏误$\gamma \left ( k \right )$如下：
$$\gamma \left ( k \right )=\alpha \left [ \lambda \left ( k \right )-1 \right ]+1$$

其中$\alpha$为一个大于1的常数，这里取经验值1.5。由此得到特征值调整之后的协方差矩阵为：
$$F^{eigen}U_{0}\left ( \gamma ^{2}D_{0} \right ){U}'_{0}$$
$$\gamma ^{2}：对角阵，其对角线元素依次为\gamma \left ( k \right )^{2}$$

其他模拟参数选择：

- 蒙特卡洛模拟次数：M=3000
- 收益模拟期数：T=100

根据2009年12月1日-2014年10月31日的日度收益数据对2014年11月第一个交易日的月频风险做出预测