# 导入库

In [1]:
import os
from pathlib import Path
os.chdir(Path(os.getcwd()).parent.parent)

In [2]:
os.getcwd()

'D:\\LFProjects\\NewPythonProject'

# 因子路径结构

因子文件位于factor文件夹中，然后根据因子类别设置子文件夹，目前有CarryFactor, MomentumFactor, TradeHoldFactor，表示期限结构因子、动量因子和成交持仓因子（龙虎榜因子），而期限结构因子又有不同的具体的计算方式，每种计算方式的因子构成一个py文件，同时在里面实现一个因子类。例如：
![image.png](attachment:image.png)
factor文件夹中有CarryFactor文件夹，代表期限结构因子这一类因子，CarryFactor文件夹中又有一系列py文件，每个py文件中又有同名的类。
![image-2.png](attachment:image-2.png)

# 如何构建因子

## 因子基类BaseFactor

1.根据因子路径结构中所说，如果需要创建新的一类因子，则需要在factor文件夹中创建一个子文件夹，我们称新建的这类因子叫A类因子。\
2.决定是否要创建该类因子的基类。

In [3]:
from factor.base import BaseFactor

### 因子基类BaseFactor的属性和方法

In [6]:
[i for i in dir(BaseFactor) if not i.startswith("__")]

['_abc_impl',
 '_get_param_names',
 'compute_factor',
 'get_continuous_contract_data',
 'get_continuous_field',
 'get_factor_value',
 'get_field',
 'get_maturity_date',
 'get_params',
 'get_string',
 'get_symbol_list',
 'init_basics_data',
 'set_factor_value',
 'set_params']

从上面可知，BaseFactor定义了一系列方法：\
1.compute_factor非常重要，这是确定因子计算逻辑的方法，使用者需要在compute_factor方法中完成因子值的计算，得到因子值DataFrame，即index为交易日期，columns为品种代码，data为因子值数据。同时在完成计算后将因子值DataFrame传给factor_value属性，并返回因子值DataFrame。\
2.获取数据的方法，如get_continuous_contract_data, get_continuous_field, get_field, get_maturity_date, get_symbol_list，具体可以见下面的例子。\
3.继承自BaseClass的set_params和get_params，用于获取参数和修改参数。

## 单类因子的基类

某一些因子会有这类因子的特性，通过定义这类因子的基类，可以简化这类因子的各个因子的计算逻辑。常见的情形：\
1.因子在计算时一些代码是公共的。\
2.同类因子中的不同因子都需要同一个获取数据的方法。\
例如，期限结构因子，一次性在compute_factor中计算完因子会比较复杂，可以先定义一个方法compute_single_factor，再在compute_factor中对每个品种使用compute_single_factor，从而每个期限结构因子都需要重写compute_single_factor，不需要重写compute_factor，下面是期限结构因子的基类：

In [7]:
import pandas as pd
from tqdm import tqdm
from pandas import DataFrame
from abc import abstractmethod
from factor.base import BaseFactor

from utils.utility import stack_dataframe_by_fields

class BaseCarryFactor(BaseFactor):

    """
    期限结构因子基类

    See Also
    ________
    bases.bases.BaseClass
    factor.bases.BaseFactor
    """

    def __init__(self, **params) -> None:
        """
        Constructor

        Parameters
        __________
        **params: 关键字可变参数

        See Also
        ________
        factor.bases.BaseFactor
        """
        super().__init__(**params)

    @abstractmethod
    def compute_single_factor(self, symbol: str) -> DataFrame:
        """
        计算单品种的期限结构因子, 需要各期限结构因子重写

        Parameters
        ----------
        symbol: str
                品种代码

        Returns
        -------
        因子值: DataFrame
                默认的index, 三列, datetime, underlying_symbol(均为symbol), factor
        """
        raise NotImplementedError

    def compute_factor(self) -> DataFrame:
        """
        计算因子，通过对compute_single_factor实现

        Returns
        -------
        因子值: DataFrame
                index为datetime, columns为underlying_symbol, data为factor
        """
        symbol_list = self.get_symbol_list()
        factor_list = []
        for symbol in tqdm(symbol_list):
            factor = self.compute_single_factor(symbol)
            factor_list.append(factor)
        factor = pd.concat(factor_list, axis=0)
        factor = stack_dataframe_by_fields(data=factor,
                                           index_field='datetime',
                                           column_field='underlying_symbol',
                                           data_field='factor')
        factor = factor.rolling(window=self.window, min_periods=1).mean()
        self.factor_value = factor
        return factor

单类因子的基类并不是必需的，如果这一类因子并没有特性的写法，就无须定义。但是在一些情形下，我们需要对因子实例进行类型识别，就需要是事先定义好这类因子的基类。例如：期限结构因子中的CarryFactor有FarNearFactor, MainNearFactor1, MainNearFactor2, MainNearFactor3, MainSubFacor1, MainSubFactor2，他们都是BaseCarryFactor的子类，这是共同的身份。

## 以动量因子为例构建因子

1.动量因子MomentumFactor1继承自动量因子基类BaseMomentumFactor。\
2.在\_\_init\_\_中定义了参数R, contract, price, rebalance_num，并利用super()调用父类的\_\_init\_\_方法，后面三个参数与获取连续数据相关。\
3.在compute_factor中定义了动量因子的计算逻辑，因子值DataFrame计算完毕后将其传给factor_value属性，并返回因子值DataFrame。其中get_continuous_field是用于获取连续合约数据的。

In [8]:
from pandas import DataFrame
from factor.MomentumFactor.base import BaseMomentumFactor

class MomentumFactor1(BaseMomentumFactor):

    """
    将过去一段时间的日平均日收益率作为的动量因子

    Attributes
    __________
    R: int, default 5
        回溯期，即过去R天的平均收益率

    contract: str, default main
              连续合约以什么合约为基础，main or active_near

    price: str, default close
            选取连续合约的什么价格, close or settlement

    rebalance_num: int, default 1
                    选择几日换仓, 1 or 3 or 5

    """

    def __init__(self, R: int = 5, contract: str = 'main', price: str = 'close', rebalance_num: int = 1) -> None:
        """
        Constructor

        Parameters
        ----------
        R: int, default 5
            回溯期，即过去R天的平均收益率

        contract: str, default main
                连续合约以什么合约为基础，main or active_near

        price: str, default close
                选取连续合约的什么价格, close or settlement

        rebalance_num: int, default 1
                    选择几日换仓, 1 or 3 or 5
        """
        super().__init__(R=R, contract=contract, price=price, rebalance_num=rebalance_num)

    def compute_factor(self) -> DataFrame:
        """
        计算因子值

        Parameters
        ----------

        Returns
        -------
        momentum: DataFrame
                    动量因子
        """
        # 获取收盘价
        params = self.get_params()
        R = params['R']
        contract = params['contract']
        price = params['price']
        rebalance_num = params['rebalance_num']
        price_df = self.get_continuous_field(contract=contract, price=price, rebalance_num=rebalance_num, field='continuous_price')
        return_df = price_df.pct_change()
        momentum = return_df.rolling(window=R, min_periods=0).mean()
        self.factor_value = momentum
        return momentum