# 导入库

In [1]:
import os
from pathlib import Path
os.chdir(Path(os.getcwd()).parent.parent)

In [2]:
os.getcwd()

'D:\\LFProjects\\NewPythonProject'

# 信号路径结构

信号文件夹位于signals文件夹中，然后根据信号类别设置子文件夹，目前有CrossSectionSignal, TimeSeriesSignal, GroupSignal, CompositeSignal，分别表示横截面信号、时间序列信号、分组回测信号、复合信号（融合横截面和时间序列）。而同一类信号又有不同的具体的计算方式，每种计算方式的信号构成一个py文件，同时在里面实现一个同名信号类。例如：
![image.png](attachment:image.png)
signals文件夹中有CrossSectionSignal文件夹，代表横截面信号这一类信号，CrossSectionSignal文件夹中又有一系列py文件，每个py文件中又又同名的类。
![image-2.png](attachment:image-2.png)

# 如何构建信号

## 信号基类BaseSignal

1.根据信号路结构所说，如果需要创建新的一类信号，则需要在signals文件中创建一个子文件夹。

In [3]:
from signals.base import BaseSignal

### 信号基类BaseSignal的属性和方法

In [4]:
[i for i in dir(BaseSignal) if not i.startswith("__")]

['_abc_impl',
 '_get_param_names',
 'get_groupby_field',
 'get_params',
 'get_string',
 'set_commodity_pool',
 'set_factor_data',
 'set_params',
 'transform']

从上面可知，BaseSignal定义了一系列方法:\
1.set_factor_data和set_commodity_pool，因为要生成信号，首先就需要设定因子值和商品池。\
2.transform中实现信号的具体计算方式，最终得到一个DataFrame,index为交易日期，columns为品种代码，data为信号值，1为做多，-1为做空，0为不持仓。

## 单类信号的基类

某些信号会有该类信号的特性，通过定义这类信号的基类，可以简化这类信号的各个具体信号的计算逻辑，常见的情形:\
1.信号在计算时一些代码时公共的。\
2.同类信号中的不同信号都需要同一个获取数据的方法。

In [6]:
from pandas import DataFrame
from signals.base import BaseSignal

class BaseCrossSectionSignal(BaseSignal):
    """
    横截面信号基类
    """
    def __init__(self, **params) -> None:
        """
        Constructor
        """
        super().__init__(**params)

    def transform(self, *args, **kwargs) -> DataFrame:
        pass

## 以CompositeSignal1为例构建信号

1.复合信号CompositeSignal1继承自复合信号基类BaseCompositeSignal。\
2.在\_\_init\_\_中定义了参数quantile和rank，并利用uper()调用父类的\_\_init\_\_方法。\
3.在transform中定义了该信号的计算逻辑，信号DataFrame计算完成后将其传给signal_df属性，并返回信号DataFrame。

In [7]:
import numpy as np
import pandas as pd
from pandas import DataFrame
from signals.CompositeSignal.base import BaseCompositeSignal

class CompositeSignal1(BaseCompositeSignal):
    """
    复合信号生成器1

    1.先根据0将因子值分成大于0和小于0的两组

    2.

    if rank == 'descending':
        大于0的组中取大于quantile分位数的品种做多, 小于0的组小于1-quantile分位数的品种做空

    if rank == 'ascending':
        大于0的组中取大于quantile分位数的品种做空, 小于0的组小于1-quantile分位数的品种做多

    Attributes
    __________
    quantile: float, default 0.5
                分位数, 0 < quantile <1

    rank: str, default descending
          排序方式, descending表示因子值大的做多, ascending表示因子值小的做多

    """
    def __init__(self, quantile: float = 0.5, rank: str = 'descending') -> None:
        """
        Constructor

        Parameters
        __________
        quantile: float, default 0.5
                分位数, 0 < quantile <1

        rank: str, default descending
                排序方式, descending表示因子值大的做多, ascending表示因子值小的做多
        """
        super().__init__(quantile=quantile, rank=rank)

    def transform(self) -> DataFrame:
        """
        生成信号, 1表示做多, -1表示做空,
        Returns
        -------
        signal_df: DataFrame
                    信号DataFrame, index为交易时间, columns为品种代码, data为信号值
        """
        # 预先检查
        if not isinstance(self.factor_data, DataFrame):
            raise ValueError("Please specify the factor_data first!")
        else:
            factor_data = self.factor_data

        if not isinstance(self.commodity_pool, DataFrame):
            raise ValueError("Please specify the commodity pool first!")
        else:
            commodity_pool = self.commodity_pool

        factor_data[~commodity_pool] = np.nan

        params = self.get_params()
        rank = params['rank']
        quantile = params['quantile']

        if rank == 'ascending':
            factor_data = - factor_data

        def apply_quantile(series):
            series.fillna(0.0, inplace=True)
            quantile1 = series[series > 0].quantile(q=quantile, interpolation='midpoint')
            quantile2 = series[series < 0].quantile(q=1 - quantile, interpolation='midpoint')
            signal_series = pd.Series(data=0.0, index=series.index)
            signal_series[series >= quantile1] = 1.0
            signal_series[series <= quantile2] = -1.0
            return signal_series

        signal_df = factor_data.apply(func=apply_quantile, axis=1)
        self.signal_df = signal_df
        return signal_df

## 分组信号（特殊）

分组信号是一类特殊的信号，因为其不是单纯的做多做空，而是分组，多组内的品种都做多但是计算回测结果时归属到不同的组别，因此会对每个品种在每个交易日做许多不同的标签：

-2: 已上市被纳入商品池但没有因子值\
-1: 已上市但没被纳入商品池\
0: 没有上市\
1, 2, 3, 4, 5, ...: 1是因子值最大的组，2其次，其他以此类推

In [8]:
import numpy as np
import pandas as pd
from pandas import DataFrame

from signals.GroupSignal.base import GroupSignalType
from signals.GroupSignal.base import BaseGroupSignal

class GroupLongSignal1(BaseGroupSignal):

    group_signal_type = GroupSignalType.AllGroupSignal
    """
    分组做多品种信号生成器1

    Attributes
    __________
    group_num: int, default 5
                分组组数

    rank: str, default descending
            排序方法, descending表示因子值大的品种做多, ascending表示因子值小的品种做多

    """
    def __init__(self, group_num: int = 5, rank: str = 'descending') -> None:
        """
        Constructor
        """
        super().__init__(group_num=group_num, rank=rank)

    def transform(self) -> DataFrame:
        """
        生成信号
        
        Returns
        -------
        signal_df: DataFrame
                    信号DataFrame, index为交易时间, columns为品种代码, data为信号值
        """
        if not isinstance(self.factor_data, DataFrame):
            raise ValueError("Please specify the factor_data first!")
        else:
            factor_data: DataFrame = self.factor_data

        if not isinstance(self.commodity_pool, DataFrame):
            raise ValueError("Please specify the commodity pool first!")
        else:
            commodity_pool: DataFrame = self.commodity_pool

        volume_df: DataFrame = self.get_groupby_field(field='volume', method='sum')
        factor_data: DataFrame = factor_data.reindex_like(volume_df)
        commodity_pool = commodity_pool.reindex_like(volume_df).fillna(False)
        factor_data[~commodity_pool] = np.nan

        params = self.get_params()
        group_num: int = params['group_num']
        rank: str = params['rank']

        if rank == 'ascending':
            factor_data = - factor_data

        def modified_qcut(series, q: int, labels):
            """
            修正的quct
            Parameters
            ----------
            series: 排序值

            Returns
            -------
            组别: Series
            """
            # 如果有效数据个数小于组别，则全部为0，即不持仓
            if series.count() < q:
                new_series = pd.Series([0.0]*len(series))
                new_series.index = series.index
                return new_series
            else:
                return pd.qcut(x=series, q=q, labels=labels)

        signal_df: DataFrame = factor_data.rank(axis=1,ascending=False, na_option='keep', method='first')\
            .apply(func=modified_qcut, axis=1,
            q=group_num, labels=range(1, group_num+1, 1)).astype(float)

        # 将没上市的状态记为0
        signal_df[volume_df.isnull()] = 0
        # 将已上市但没被纳入商品池的状态记为-1
        signal_df[(volume_df.notnull())&(~commodity_pool)] = -1
        # 将已上市且被纳入商品池的但没有因子值的状态记为-2
        signal_df[(volume_df.notnull())&(commodity_pool)&(factor_data.isnull())] = -2

        self.signal_df = signal_df
        return signal_df