# 因子逻辑——投资者的"凸显"收益偏好

## 理论基础

有效市场假说认为股票价格反映了所有可用信息，投资者无法通过观察市场变化或者分析市场数据来预测未来
股票价格的走势。尽管如此，仍有大量的实证研究表明金融市场中存在许多资产定价模型所无法解释的异象。为了
解释这些异象，许多学者开始从行为金融学的角度对投资者进行投资决策时的心理展开研究，数十年来涌现了大量
高质量的行为金融学实证研究文献。

在行为金融学领域中，最具代表性的人物之一莫过于 2002 年因提出前景理论（Prospect Theory, 1979）而获得
诺贝尔经济学奖的学者 Kahneman 及其搭档 Tversky。前景理论研究了人们如何对未来事件做出预测、决策和行为
选择，以及这些决策和行为选择如何受到情绪、偏见和其他心理因素的影响。投资者在多项资产中进行选择时，可
能会出现不同的结果，每个结果都存在相应的发生概率。因此，某个决策的最终价值等于所有可能发生的结果的概
率加权平均，投资者会在所有的决策中选择价值最高的作为最终决策，即∑ 𝜋(𝑥)𝑣(𝑥)，𝜋(𝑥)为结果发生的概率，𝑣(𝑥)为某项选择所具有的价值。基于累积前景理论，Barberis 等（2016）在个股层面上构建了每只股票的 TK（Tversky、Kahneman）价值，认为 TK 价值较高的股票对于投资者而言具有更高的吸引力，因此投资者倾向于过
度高估高 TK 的股票，而低估了低 TK 股票的价值，一个做多低 TK 价值股票、做空高 TK 价值股票的策略组合能够在统计上获得显著的超额收益。

近几年，凸显理论（Salience Theory）亦是行为金融学领域中对资产定价具有重要影响的一个热门研究方向。
BGS（2012）认为在资产的横向比较中，投资者的注意力往往会被吸引到平均而言最具有凸显性的回报上，而不凸显的回报往往会被忽略。例如，我们可能只会记得某只股票当月发生过涨停，而不记得它微涨 2%的时候。因此，投资者对于不同的收益大小会存在不同的心理权重，将这种心理偏好以定量的形式进行表达，能够帮助更加精细化地描绘资产价格相对于其真实价值的偏离程度。Cosemans 等（2021）基于凸显理论构建了 ST 指标，将投资者的投资决策心理进行了还原。当 ST 为正时，股票的最高回报较为突出，导致投资者过度关注股票的上涨潜力，从而成为风险寻求者；当投资者过分关注股票的负收益并强调其下行风险时，ST 为负，相关的股票将面临过度低估。

将前景理论与凸显理论进行对比可以发现：在前景理论中，投资者进行投资决策的心理权重偏差在于给予了和尾部收益相关的小概率事件更高的权重；而在凸显理论中，极端收益被加权的原因并不是因为它们的发生概率小，而是因为它们在截面上相对市场平均收益来说具有凸显性，凸显理论模型认为资产的溢价不是由投资者的偏好驱动的，而是由资产收益相对市场平均收益脱颖而出的程度驱动的，当中既包含了时序信息，也包含了截面信息。


# 因子构建

**Step1:计算股票收益率的凸显性系数**$\sigma$

$$\sigma(r_{i,s},\overline{r_{s}})=\frac{|r_{i,s}-\overline{r_{s}}|}{|r_{i,s}|+|\overline{r_{s}}|+\theta} \tag{1}$$

其中$r_{i,s}$是股票s日的日度收益,$\overline{r_{s}}$是s日截面上所有股票的平均收益。为了防止分母为0的情况$\theta$设置为0.1。

**Step2:根据**$\sigma$**计算凸显性权重**$\omega_{i,s}$

然后将每个股票根据过去N日每天的$\sigma(r_{i,s})$进行排序,该股票每日的排序为$k_{i,s}$。根据排序值计算Salience Weights $\omega_{i,s}$

$$\omega_{i,s}=\frac{\delta^{k_{i,s}}}{\sum_{s'}\delta^{k_{i,s'}}\pi_{s'}}\tag{2}$$

其中$\delta$(默认为0.7)是一个参数,用于控制Salience扭曲的成都;$\pi_{d}=1/N$。

**Step3:计算STR因子**

计算每N日内日度的$\omega_{i,s}$与收益的协方差就是该股票的ST值。

$$STR_{i}=cov[\omega_{i,s},r_{i,s}] \tag{3}$$

# 数据获取

## 获取中证500成分股动态调整数据

In [1]:
from scr.cn_index.collector import get_instruments,normalize_intruments

In [5]:
get_instruments(index_name='csi500',qlib_dir='../凸显理论STR因子/qlib_data/',method='parse_instruments')
normalize_intruments('../凸显理论STR因子/qlib_data/instruments/csi500.txt')  

2023-03-24 22:55:49.139 | INFO     | scr.index:parse_instruments:242 - start parse csi500 companies.....


login success!


Download CSI500: 100%|██████████| 845/845 [34:58<00:00,  2.48s/it]  


logout success!


2023-03-24 23:30:49.448 | INFO     | scr.index:get_changes_with_history_companies:183 - parse changes from history companies......
  0%|          | 0/761 [00:00<?, ?it/s]2023-03-24 23:30:49.581 | INFO     | scr.utils:get_calendar_list:68 - get calendar list: CSI500......
2023-03-24 23:30:50.567 | INFO     | scr.utils:get_calendar_list:127 - end of get calendar list: CSI500.
100%|██████████| 761/761 [00:31<00:00, 23.87it/s]
2023-03-24 23:31:21.748 | INFO     | scr.index:get_changes_with_history_companies:232 - end of parse changes from history companies.
2023-03-24 23:31:21.790 | INFO     | scr.cn_index.collector:get_new_companies:491 - get new companies......


login success!
logout success!


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[self.END_DATE_FIELD] = today
2023-03-24 23:31:23.656 | INFO     | scr.cn_index.collector:get_new_companies:500 - end of get new companies.
2023-03-24 23:31:23.658 | INFO     | scr.index:parse_instruments:253 - parse history companies by changes......
3234it [00:05, 557.42it/s]
2023-03-24 23:31:29.490 | INFO     | scr.index:parse_instruments:288 - parse csi500 companies finished.
2023-03-24 23:31:29.493 | INFO     | scr.cn_index.collector:normalize_intruments:505 - start normalize instruments...
2023-03-24 23:31:29.495 | ERROR    | scr.cn_index.collector:normalize_intruments:508 - ../凸显理论STR因子/qlib_data/instruments/all.csv not exists.
