# 量化交易的定义：

- 量化交易(量化投资)是指借助现代**统计学和数学(机器学习)的方法**，利用计算机技术来进行交易（主要是研究和分析）的证券投资方式。

- 用数量模型验证及固化这些规律和策略，然后严格执行已固化的策略来**指导投资**

- 掌握技能：
    - 投资策略：金融市场，经济环境
    - 科学研究：模型，数据挖局
    - 计算机技术： 变成，IT互联网


# 量化交易分类：


- 我们所做的量化投资：市场中性策略  （量化分析）
    1. 趋势性交易：金融专业出生，对财务、金融市场非常了解，（交易员、基金经理）
    2. 市场中性策略：**计算机专业出生，擅长编程、机器学习技术、数据挖掘技术（量化分析）**，量化交易交易人员
    3. 高频交易：非常擅长算法编程，c/C++,做交易 （算法高手）
    
    
- 金融产品以及衍生品的投资策略：
    - **股票：市场中性策略占大多数、涉及少量的趋势性交易**
    - 期货：趋势性交易策略占大多数（期货不属于金融产品）


- 量化交易优势：
    1. 严格的纪律性：人的缺点，程序、分析技术可以解决
    2. 多层次，包括在**大类资产配置、行业选择、精选个股**
    3. 多角度，量化交易的核心投资思想包括宏观周期、市场结构、估值、成长、盈利质量、分析师盈利预测、市场情绪等多个角度
    4. 多数据，就是海量数据的处理
    5. 靠数学模型获利：运用概率分析，提高买卖成功的概率


- 总结：
    - **股票的量化投资可以说是一种价值投资，去挖掘市场中的价值股票，而并非去预测股票涨跌来进行投资等等，受到量化公司和基金公司等推崇**
    - **量化分析是众多投资机构的工具、分析手段而已**


# 量化交易项目的实施

- 量化投资涵盖了整个交易过程，需要一个完整的作为研究的**量化回测框架**和**实盘交易系统**作为支撑。


## 1. 量化交易研究：

    量化回测框架提供完整的数据和回测机制，进行策略评估研究，并能够实时进行模拟交易，为实盘交易提供选择。我们的研究一般在回测平台当中做


## 2. 策略

- 量化策略是一个分析的结果，拿结果去固定一套逻辑，用来**分析、判断和决策**。 
- 策略也可以理解为，分析数据之后，决策买什么以及交易时间。
- 量化策略既可以自动执行（框架，平台，算法自动执行），也可以人工执行。


    
## 3. 流程：

1. 获取数据：
    - 由回测框架提供，包括行情数据和基本面数据
    - 公司财务、新闻数据
2. 数据分析挖掘：
    - 传统分析方法、机器学习，数据挖掘方法
    - 数据处理，标准化，去极值，中性化分组回测，行业分布
    - 选股的依据。用分析结果，指导策略
3. 构建策略:
    - 获取历史行情，历史持仓信息，调仓记录等
    - 止盈止损单，限价单，市价单
4. 策略回测:
    - 回测框架，为什么叫回测：在历史数据中进行测试
    - 股票涨跌停、停复牌处理
    - 市场冲击，交易滑点，手续费
5. 策略分析:
    - 订单分析，成交分析，持仓分析
    - 分析回测的结果，如果不好，返回第二步
6. 模拟交易:
    - 接入实时行情，实时获取成交回报
    - 实时监控，实时归因分析
7. 实盘交易:
    - 接入真实券商账户


# 一. 回测框架介绍：

## 1. 策略创建运行流程：

- 初始运行信息：
    * **起始日期：在历史数据，回测区间(5~10年)**
    * **初始资金：有多少钱用于这个策略的投资**
    * **回测频率：每日交易判断/每分钟交易判断（市场中性，判断周期可能更长，一个月等等）**
    * 选择股票池


- 编写策略逻辑：
    - 获取股票行情、基本面数据
    - 选择哪些股票、以及交易时间
    
    
- 分析结果：
    - 策略指标分析


## 2. 策略主体运行流程分析（编写策略逻辑）：
    
- 在**init**方法中实现**策略初始化逻辑**
    - 策略的股票池：在那些股票中进行交易判断（例如：HS300）
    
    
- 在**before_trading**进行一些**每日开盘之前的操作**
    - 比如获取历史行情做一些数据预处理，获取当前账户资金等。
    
    
- 在**handle_bar**方法中实现**策略具体逻辑**，包括交易信号的产生、订单的创建。**handle_bar内的逻辑会在每次bar数据更新的时候被触发。**


- **context对象：用于函数之间的内容传递**


- 每日回测流程：
    1. def init(context)
        - 初始化一次
    2. def before(context)
        - 每日开盘前调用（可跳过）
    3. def handle_bar(context,bar_dict)
        - 交易信号，调仓

    
    
## 3. 策略结果分析

    回测完成后，在'回测结果'页面会展示回测的仓位、盈亏、交易、风险等信息
    
    
# 二. 获取数据接口：

## 1. 数据接口种类
    
- 获取指定行业、板块以及概念股票列表
    - HS300，ZZ500，SZ50
    
    
- history_bars - 指定股票合约历史数据
    - 基本交易数据(k线图，阴线阳线)
    - 行情数据（市值）
    
    
- **get_fundamentals - 查询财务数据**
    - 分析公司的价值：基本面数据，公司的数据
    

## 2. 常见的指数股（order_book_id）代码：

    "000001.XSHG"    上证A股
    "000300.XSHG"    沪深300
    "000905.XSHG"    中证500
    "000016.XSHG"    深圳50
    由于指数成分股实时更新，实行淘汰制

## 3. 获取股票合约数据 - history_bars

- 调用接口，获取数据

- 指定股票合约历史数据：行情数据：基本交易信息

- **不能在init中调用**


## 4. 查询财务数据：基本面数据和公司数据 - get_fundamentals

- 回测的时候，主要拿来去选股

- 在before_trading或handle_bar中调用，不能在init里调用

- 在回测的时候，不用提供日期数据（获取哪一天的数据）

- 财务数据：https://www.ricequant.com/data/fundamentals#stk_fundamental_gen


- 通过fundamentals获取以上的属性
    - q = query(fundamentals.eod_derivative_indicator.pe_ratio)


- 获取财务数据，默认只获取A股的财务数据：
    - get_fundamentals(q, entry_date=None, interval='1d', report_quarter=False)

### 4.1 过滤指标条件：

- query().filter：过滤大小

- query().order_by()：排序，默认升序(降序：xxx.asc())

- query().limit()：限制数量

- filter(fundamentals.stockcode.in_(股票池))：在指定的股票池当中过滤

通过财务数据选股票，不会每天都去获取，隔一个星期、一个月去定期获取一些符合条件的股票

## 5. scheduler定时器定时数据获取

- 每日/周/月运行一次指定的函数，只能在init内使用。

#### 每天运行
- scheduler.run_daily(function)
- 使传入的function每日运行。注意，function函数一定要包含（并且只能包含）context, bar_dict两个输入参数
    
#### 每周运行
- scheduler.run_weekly

#### 每月运行
- scheduler.run_monthly(function,tradingday=t)
- function：自定义函数
- tradingday表示交易日:
    - 如tradingday=1，表示此月的第一个交易日
    - tradingday的负数表示倒数日期
    - 如某月只有三个交易日，则此月的tradingday=3与tradingday=-1表示同一。

### 5.1 添加定时器之后，每日交易流程：

1. init() 只初始化一次, 包括定时器
2. before_trading()
3. get_data(context,bar_dict)
4. handle_bar()
5. after_trading()

- 如果月定时器只在第一个交易日交易时：
    - 第一个交易日执行12345
    - 其他交易日执行1245


In [None]:
# 获取行业/板块/概率股票列表信息：

def init(context):
    # 单个股票代码
    context.stock = "0000000007.XSHE"
    # 行业股票代码
    context.stock_list = industry('A01')
    # 板块股票代码
    context.stock_sector = sector("energy")
    # 指数股票代码（使用较多，相当于股票池）
    context.stock_index = index_components("000300.XSHG")

def before_trading(context):
    print(打印对应的输出)

def handle_bar(context, bar_dict):
    # 1. 获取股票合约数据 - history_bars：
    
    # 获取行情数据，基本的每日交易数据
    close = history_bars(context.stock,5,'1d','close')
    # 第一个参数：股票的代码（只能(默认)获取一个）；
    # 第二个参数：总共获取的数据：5（从当前日期运行开始到之前的5天的行情数据）
    # 第三个参数：频率，1d，按照一天获取数据
    # close：获取收盘的价格
    
    # 获取多个指标：开盘收盘价
    close_open = history_bars(context.stock,5,'1d',['close', 'open'])
    
    # 把频率改成1分钟：获取从今天开始，前面1分钟的前5天的数据，要改成分钟回测（back test）
    
    # close_1m = history_bars(context.stock,5,'1m','close')
    logger.info(close)  # 类型为ndarray

    # 2. 获取股票合约数据 - bar_dict：
    # 通过bar对象获取数据，且只能获取当天数据，不能获取历史数据
    # 例：运行到9月28日，只能获取9/28的数据
    # 只能获取当前的交易信息
    logger.info(bar_dict[context.s1].close)

# 三. 回测交易接口

    选好了股票之后，其实就可以选择购买或者卖出了。
    但是注意了这里所说的交易，是在历史数据当中回测的时候去每天判断交易。
    并不是后面的模拟交易或者实盘交易。
    在handle_bar函数里运行
    
## 1、用于股票的交易函数

- order_shares - 指定股数交易（股票专用）
- order_lots - 指定手数交易（股票专用）
    - 一手就是100股，买了20手，就是2000股
- order_value - 指定价值交易（股票专用）
- order_percent - 一定比例下单（股票专用）
- order_target_value - 目标价值下单（股票专用）
    
### 1.1 交易函数API

#### 1.1.1 指定股数交易（股票专用）- order_shares

order_shares(id_or_ins, amount, style=MarketOrder())
    - id_or_ins：指定股票代码
    - amount：买的股票数

- 指定股数的买/卖单，最常见的落单方式之一。
- 如有需要落单类型当做一个参量传入，
- 如果忽略掉落单类型，那么默认是市价单（market order）。

#### 1.1.2 目标价值下单（股票专用) - order_target_value

order_target_value(id_or_ins, cash_amount, style=OrderType)
- 如果现在的投资组合中持有价值￥3000的平安银行股票的仓位并且设置其目标价值为￥10000，以下代码范例会发送价值￥7000的平安银行的买单到市场。


#### 1.1.3 目标比例下单（股票专用）- order_target_percent

order_target_percent(id_or_ins, percent, style=OrderType)

- 假设投资1千万
- 则，每天的持有该股价值为：1千万*0.1 = 1百万
- 如果超出1百万，则卖出；少于1百万，则买入

### 1.2 交易不能成交的注意事项

    portfolio内可用资金不足
    下单数量不足一手（股票为100股）
    下单价格超过当日涨跌停板限制
    当前可卖（可平）仓位不足
    股票当日停牌
    合约已经退市（到期）或尚未上市
    
### 1.3 何为市价单和限价单
    
- 撮合机制: 以每日收盘价去进行买入 =（撮合方式）当前bar收盘价
    
    
- 限价单(挂单)：当时市价20.1，指定价格交易(预定)，20.5卖出，19.2 买入，否则拒单


- 市价单：目的为了快速成交，当前市价多少，买入、卖出就是多少(常用)


- 滑点的设置影响：在回测当中使用，更好模拟实际交易中订单对市场的冲击，成交价格更高一些，一般设置为0.1。
    - 例：原本买入交易的成交价为10元，则设置之后成交价将变成11元（由于购买的人较多），即买得更贵。
    
    
- 交易的卖空设置：股票默认当天买入，第二天才能卖出，不用设置


### 1.4 交易的费用

一旦发生了交易，投资组合的资金就会发生变化！那么接下来要介绍的投资组合是什么？



## 2. 投资组合

投资组合的管理 = 股票的管理 + 资金的管理 = 仓位 + 账户 + 资金

### 2.1 定义

投资组合是由投资人或金融机构所持有的股票、债券、金融衍生产品等组成的集合，目的是分散风险。

### 2.2 查看投资组合信息 - portfolio

context.portfolio
- 资金：可用资金，市场价值（跟随股价变动），总价值
    - 当日总价值 = 当日可用资金 + 当日市场价值 + 手续费
- 仓位：当前持有的股票代码等相关信息

**context.portfolio.position.keys() 返回的是一个股票名称列表**

context.portfolio.position[context.s1].quantity 返回的是持股数量


stock_account:也可以查看股票账户的资金信息

### 2.3 策略的评价指标

#### 收益指标：

1. **回测收益率**
    - 最终总价值-初始总价值/初始总价
    - 3年收益率与5年收益率不能比较 
    
2. **年化收益率**
    - 年化收益率 = (1+R) ^ (1/t) - 1
    - t = 策略运行累计自然日数量/365
    - R = 累计收益率
    - 我们更加**注重年化收益率**，对于股票来讲，年化达到15~30%已经算是比较好的策略。年化收益率越高越好

3. **基准收益率**
    - 以大盘（默认沪深300）的数据为基准，观察市场表现情况作为标准来看我们的策略。
    - 基准收益率拿来对比我们的策略收益率，【策略】的表现期望【超过】【基准收益率】才获得了【比较好】的收益


#### 风险指标
风险指标指的是在获得收益的时候，承担一些风险值

1. 回撤区间：
    - 从最高点，到亏的最低点的区间。
    - 最大回撤越大，说明最高点与最低点之差也越大
    - 最大回撤最好保持10~30%之间，越小越好
    
2. 夏普比率：
    - 夏普比率越大，说明单位风险所获得的风险回报越高。
    - 达到1.5以上已经是很好的结果（一般[0.7, 1.5]）
    - 风险越大，收益越大，夏普比例的值越好（大）
    
    
    
# 股票量化策略

  * 股票量化交易策略最基本有两种形式，趋势交易(技术分析)和市场中性(基本面分析)，经常使用的方法为多因子选股和趋势追踪
  * 趋势追踪：通过交易手段获取超额收益
  * 多因子选股策略：是通过选股获得超额收益

## Alpha与Beta

  * 一部分与**市场完全相关，整个市场的平均收益率乘以一个贝塔系数**。贝塔可以称为这个投资组合的系统风险
  * 另一部分和整个**市场无关的叫做阿尔法(Alpha)**
  - Alpha：**超额回报**，比市场回报要高很多
  * 回归方程：y总收益 = 市场表现*beta + alpha收益
    1. Alpha很难得，Beta很容易
    2. Alpha就是精选个股，跑赢市场。
    3. Beta就是有市场行情时跟上，有风险时候躲避
  * 获取alpha超额收益：可以有很多策略，比如多因子选股策略
  
## 多因子策略
* 记忆: 股票的多因子策略的理论基础

  * 找到**某些影响股票收益的因子**然后**利用这些因子进行选股**
  * 特征值：因子
  * 目标值：股票收益（需要计算） 
  * 多因子：基本面数据 + 技术因子的指标，总共上百种因子
    * 大类因子：成长、动量、价值、估值等等，
      * 包含了一些具体的因子
      
      
  * 多因子策略的优势：多元因子，阿尔法收益的来源丰富，多因子持续稳定，根据市场环境的变化选取最优因子和权重，模型可修改
  * 多因子理论基础
    * 资产定价模型：完全跟市场相关 + 无风险利率（国债）
      * 单因子模型：市场风险因子
      * 缺点：无法解释收益高于市价
    * APT模型：不仅仅跟市场相关，还跟某些特征相关 ，没有指出这些因子是哪些（多因子模型）
    * FF三因子模型：肯定存在超额收益，三因子模型指出了**市场风险溢价因子、规模因子、价值因子。**
    * FF五因子：发现原来的三因子不能完全解释所以收益，还存在一些额外alpha收益，加入了**盈利因子和成长因子这两类因子**
    * 这些因子模型：大家**公认的这些类别因子**是肯定能够获得比市场基础回报要多的收益(风险因子收益)，自己寻找更多其它**没有公认额外因子收益(alpha收益)**
    * **广义alpha收益= 公认的风险因子收益+ alpha收益**


# 多因子策略流程

我们可以得出以下步骤

1. 因子挖掘
    - 挖掘因子在研究平台做，因为要研究区间段，所以要把这段数据都拿出来
    - 因子数据的处理
        - 去极值
        - 标准化
        - 中性化
    - 单因子的有效性检测
        - 因子IC分析
        - 因子收益率分析
        - 因子的方向
    - 多因子相关性和和组合分析
        - 因子相关性
        - 因子合成
2. 回测
    - 多因子选股的权重
    - 调仓周期
3. 区别
    - 股票历史数据：get_price vs. history_bars
    - 财务数据：需要穿entry_date vs. 只用传q，默认获取当天的财务数据
    
## 获取合约历史数据 - get_price
    
    get_price(order_book_id, start_date='2013-01-04', end_date='2014-01-04', frequency='1d', fields=None, adjust_type='pre', skip_suspended =False, country='cn')




## 因子数据处理 - 去极值

### 数据的组成：

- 面板数据：
    - Pandas当中的面板数据结构是为了存储三维的结构。由截面数据和序列数据组成
    - [itmes, major, minor], [指标，时间，股票]
    

- 截面数据：
    - 在同一时间，不同【统计单位】相同【统计指标】组成的数据列（常用）
    - panel转截面数据:
    - fund[itmes,0,minor]， 
    - fund[:,"2017-01-01-03",:]
    - 多因子分析使用的是截面数据！！！
    
    
- 序列数据
    - 在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度
    

### 因子去极值处理

    去极值并不是删除”异常数据”,而是将这些数据”拉回”到正常的值
- 基本知识：
    - 中位数
        - Me(Median简写)
        - 从小到大，中间的数
    - 四分位数
        - 小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数
        - 25%，50%，75%
    - 百分位数
        - 数据所处位置为整体的某个%位数
        - 0 quantile = 0 percentile
        - 0.25 quantile = 25 percentile
        - 0.5 quantile = 50 percentile
        - 0.75 quantile = 75 percentile
        - 1 quantile = 100 percentile
            
            
- 三种方法

    1. 分位数去极值
        - 原理：将指定分位数区间以外的极值用**分位点的值**替换掉
        - API：
            - from scipy.stats.mstats import winsorize
            - scipy.stats.mstats.winsorize(a, limits=None)
                - Returns a Winsorized version of the input array Parameters:
                - a : sequence Input array,
                - 注：DataFrame的每一列指标，就是一个array，fund["pe-ratio"]
                - limits : float 数据两端的quantile的值
                  
                
    2. 中位数绝对偏差去极值(**常用方法**)
        - MAD(Median Absolute Deviation)
        - MAD 是一种先需计算所有因子与中位数之间的距离总和来检测离群值的方法。
        - 常用3倍数去极值
        - 计算方法：
            1. 找出因子的中位数 
                - median = median(array(x))
            2. 得到每个因子值与中位数的绝对偏差值
                - |array(x) - median|
            3. 得到绝对偏差值的中位数
                - MAD = median(|array(x) - median|)
            4. 计算MAD_e = 1.4826*MAD，然后确定参数 n，做出调整
                - 用nMAD_e，确定上下限
                - n一般为3（通常把偏离中位数三倍MAD_e，如果样本满足正态分布，且数据量较大，可以证明以上的数据作为异常值。）
        - 和均值标准差方法比，中位数和MAD的计算**不受极端异常值**的影响，结果更加稳健。
        
        
    3. 正态分布去极值
        - 前提是要符合正态分布
        - 缺点: 平均值和标准差容易受影响，结果不好
        
     
### 标准化处理：
- API：
    - from sklearn.preprocessing import StandardScaler
    - std = StandardScaler()
    - std.fit_transform(factor['pe_ratio2'])
    - 调用factor['pb_ratio'] = stand(factor['pb_ratio'])


- 自实现标准化处理函数



### 中性化处理

- 市值中性化是为了在因子选股回测的时候，**防止选到的股票集中在固定的某些股票当中。**因为多因子策略的目的就是为了找到不同的有特点的股票

- 原因：防止回测时候选股集中
- 原理：建立回归关系


- 市值中性化处理：
    - 默认大部分因子当中都包含了市值的影响，
    - 去除其他的因子存在的市值的影响
        - 比如：市净率会与市值有很高的相关性，这时如果我们使用未进行市值中性化的市净率，选股的结果会比较集中。
    - 使用回归法去除【市值因子】对【某因子】的影响
        - 特征值x：【市值因子】，目标值y：【要去除市值因子影响的某因子】
        - 建立某因子跟市值因子之间的一个回归方程，得出系数
        - 最终预测的结果与该因子之间的差值就是不受影响的部分
            - y_predict = 市值因子 * w + b = 预测值（受市值因子影响的部分）
            - y_diff = y - y_predict = 不受市值影响的部分
    - API:
        - from sklearn.linear_model import LinearRegression
            - 把市值设置成特征,市值不进行任何处理
            - 将其它因子设置成目标值
            
            
- 例：
    - 某因子有两个因素(也可以称为改因子的两个特点)：
        - 每股盈利的因素，
        - 每股现金流量的因素。
    - 假设市值是由两个方面影响：
        - 每股盈利
        - 市值大小 
    - 要去除的是，因子里面，包含市值影响的那部分。
        - 每股盈利就是市值的影响，很多因子里都包含每股盈利
    - 解决办法：
        - 建立【市值】与【某因子】的回归方程
        - 某因子（每股盈利+每股现金流量）- 市值（每股盈利+市值大小）= 某因子（每股现金流量）
        - 某因子就是y，市值就是y_predict
        - 此时就是某因子自己的特点
       
       
- 多个因子共同选股的时候，容易选择出一些固定的股票，所以需要中性化处理


- 市值中心化**选股**对比

  - 值中性化处理：定期分散到不同股票里面
  - 没有市值中性化处理：比较集中在某些股票        


# 多因子的筛选
    
- 目标：知道多因子的流程当中**有效性分析**和**多因子相关性合成分析**的目的

# 1. 筛选阶段：

## 单因子的测试框架：
    
    单因子有效性分析 --> 多因子相关性分析 --> 多因子合成
    
判断因子是否有效：
    - 因子与收益率之间的联系（特征值：因子，目标值：收益率）
    
### 挖掘因子的过程：
1. 先从上百个因子当中分析出对股票收益率有效的部分因子（这个数量可以根据筛选的严格程度去做）
    - 在每个大类因子当中去做筛选，每个大类因子中筛选出有效的N个因子
        - 质量、估值、成长等因子
    - 严格：例如20个有效因子
    - 不严格：例如50个有效因子
2. 在筛选的单个因子当中做相关性分析，合并相关性强的因子
    - 最终得出有效的，相关性弱的因子，数量不多，一般在10个左右


海选—>N个因子—>精选—>n个因子
N > n


## 1.1 海选：单因子有效性分析

- 筛选的依据：
    - 因子的【IC分析】
        - 判断因子与收益的相关性强度
        - 正负相关性结果分析
        - IC mean，IC std，IC > 0.02，IR
    - 因子的【收益率分析】
        - 确定因子的股票方向
        - 因子平均收益
    - 得出两张表进行筛选
        - 分析区间
        - 回测区间
        

## 因子的IC分析
    
因子的IC分析需要确定的是**当期因子**与**下期收益率**之间的相关性。IC值越高，相关度越高。判断因子值与收益的关系。


IC相关值：
- IC mean：因子IC的平均值
- IC std：因子IC的标准差
- IC > 0.02：因子IC大于0.02的比例
    - 这里大于0.02可修改，如果更大，那么意味着筛选更加严格（选股越少）
- IR ： 信息比率
    - 因子IR（信息比率）代表因子在历史上表现的稳定性。 
    - IR = IC均值/IC的波动率（IC std）。 
    - 因子在不同的历史时期的表现有可能差别很大， 有的时候表现很好， 有的时候表现很差，表现在IC上，就是IC的波动率很大。 
    - 假设IC均值一定， IC的波动率越小，因子表现越稳定，IR就越大 。
    - IR > 0.3进行筛选，可以修改标准


### 1.1 信息系数（IC）定义

- 某一期的**IC指的是该期因子暴露值**和**股票下期的实际回报值在横截面上**的相关系数
- 当期因子值，与下期收益率进行计算
    - 比如在回测的时候5/1调仓(只选一次股)，接下来的一个月都使用这些因子，所以要看这些因子之前的表现对下个月的影响。
- 因子暴露值 = 因子本身的值
    - 例：周期是一天，准备数据：20180103的因子暴露值，20180104：股票的收益


- 计算方式：
    - 斯皮尔曼相关系数(Rank IC)
        - 斯皮尔曼相关系数表明 X (独立变量) 和 Y (依赖变量)的相关方向。 如果当X增加时， Y 趋向于增加, 斯皮尔曼相关系数则为正
        - 与之前的皮尔逊相关系数大小性质一样，取值 [-1, 1]之间
        - 斯皮尔曼相关系数比皮尔逊相关系数应用更加广泛
        
        
- 信息系数API
    - import scipy.stats as st
        - st.spearmanr(fund['pe_ratio'], fund['return'])
        - 【当期因子值】与【下期收益率】
        
        
### 收益率

- 收益率区间
    - 日收益率
    - 月收益率
    - 年收益率
    
- 计算公式（例如：当前区间D的收益率）
    - return = （close_D - close_D-1）/ close_D-1

    - 当期的收益率 =（当期收盘价 - 上期收盘价）/ 上期收盘价
    - 0104的收益率 = （0104的收益率 - 0103的收益率）/ 0103的收益率
    
    - 计算收益率时，假如是月收益率，就认定每月最后一天价格作为当月的价格
    
    
## 案例：单因子某天的IC分析


## 使用alphalens进行单因子有效性分析

### alphalens的数据结构（先准备数据，再做IC分析）

#### 准备所有分析所需的数据格式:
    - alphalens.utils.get_clean_factor_and_forward_returns(
      factor, 
      prices, 
      groupby=None, 
      quantiles=5, 
      bins=None, 
      periods=(1, 5, 10), 
      filter_zscore=20, 
      groupby_labels=None, 
      by_group=bool, 
      max_loss=0.35)

        - factor：pd.Series.MultiIndex，MultiIndex由时间戳（级别0）和股票（级别1）索引，包含单个alpha因子的值
        - price：DataFrame，所有股票的多天价格数据
        - periods=(1, 5, 10) ：tuple，	默认计算了远期收益(预测能力) 1天5天10天
        - max_loss=0.35：float，计算允许因子数据丢弃的最大百分比，未提供足够的价格数据来计算所有因子值的远期收益率，设置max_loss = 0避免数据出现缺失
        - return: merged_data：	pd.DataFrame.MultiIndex	收益率、行业分组信息

- 获取综合信息
    - 一个简易的summary包含几种综合分析:
        - alphalens.tears.create_summary_tear_sheet(factor_data, long_short=True, group_neutral=False)

#### 因子IC分析：
- 计算因子值和预期收益之间的基于Spearman等级相关的信息系数（IC）(默认每天)
    - alphalens.performance.factor_information_coefficient(factor_data, group_adjust=False, by_group=False)
        - factor_data:按日期（级别0）和资产（级别1）索引的MultiIndex DataFrame，包含单个alpha因子的值，每个期间的正向收益
        - group_adjust: 是否行业分组
        - by_group: 分组计算
        - return: ic DataFrame
    - 计算alpha和beta
        - alphalens.tearse.factor_alpha_beta(factor_data, returns=None, demeaned=True, group_adjust=False, equal_weight=False)
        - alphalens.tears.create_information_tear_sheet
    
      

## 因子收益率
    
    因子收益率分析需要确定因子在不同股票位置上的表现，比如我们知道市值因子是越小越好。那么这个结果怎么来？
    
1. 因子收益率是在固定周期内对**因子暴露值**和**下期的收益率**之间建立横截面回归方程。
    - 因子值 * 因子收益率 + 截距 = 股票收益率（下期的收益率）
    - 注：默认每天进行横截面回归得到的权重系数值
2. 因子的收益率与股票的收益率是有区别
    - 股票收益率：收盘之间计算
    - 因子的收益率：横截面数据回归方程得来，特征值：因子暴露度，目标值：股票收益率

3. 因子收益率系数分析API：
    - alphalens.tears.create_returns_tear_sheet(factor_data, long_short=True,group_neutral=False, by_group=False)
        - factor_data已经包括因子暴露度和下期股票收益率


# 因子的股票方向：

因子收益率在不同股票（**分位数结果**）位置上的表现

把因子值分成：1，2，3，4，5。共5组


- 若Mean Return依次按组递减：
    - **选因子时**，从**因子值小**的开始选股票，即为**升序**
    - 因子值越小，股票收益越大
    
- 若Mean Return依次按组递增：
    - **选因子时**，从**因子值大**的开始选股票，即为**降序**
    - 因子值越大，股票收益越大 


- 因子升序：
    - 因子值越小越好，如市值、估值类（市盈率、市净率、市销率等）
- 因子降序：
    - 因子值越大越好，如ROE、利润、利润增长率类因子
- 因子中性：
    - 因子方向不确定，如周转率、资产负债率等因子

    
    
## 因子在周期内的平均收益率
- performance.factor_returns(factor_return).iloc[:, 0].mean()
    - 默认每期的平均收益率
    
## 单因子的回测框架

## 多因子相关性分析

- 计算因子之间的相关性，选出相关性较高的因子

- 在统一的**大类类别**当中去做分析

- 相关性分析还是使用**斯皮尔曼相关系数**，但是对象是两个因子的**IC值序列(pandas.core.series.Series)**分析


## 多因子合成

### 1. 因子合成

- 目的：将一些相关(高、低)的因子合成一个因子

- 方法：使用PCA方式(使用于较强相关性)

- 每个公司都有自己的因子库，而且每个公司的因子都不一样，区别就在于因子的合成不一样，所以导致结果也不一样

# 多因子选股



## 确定回测内容：

- 回测区间
    - 回测区间大致选择5~10年时间，查看策略的表现
    - 重要的还是模拟交易查看因子策略实时状况
    
    
- 因子选股
    - 通过实盘/模拟交易之后，才能确定方法：
        1. 打分法策略实现回测选股
        2. 回归法策略实现回测选股
            - 通常打分法的效果比回归法好，但还是要看因子的质量，因子不行，两种方法都不行）
            - 这两种方法都是在确定因子的权重来选择固定的股票
                - 确定权重再去选股
    
- 调仓周期
    - 对于Alpha股票策略来说，调仓周期基本以月调仓为主
    
### 打分法选股：

- 打分法是按照因子值的大小排序，所以不需要进行去极值标准化处理。回归法需要

- 确定因子的方向：**可以通过因子收益率在不同股票分位数位置来确定**
    - 因子升序：因子越小越好，假如从小到大分组， 1，2，3，4，5 ，选择前面的组1组
    - 因子降序：因子越大越好，假如从大到小分组，1，2，3，4，5 ，选择前面的组1组
    
- 权重：每个股票所在组的分数

- 对每个股票都有若干个因子的打分分数，然后求和之后，假设前面分组越好，选择总分数越小的前10或20个股票


### 回归法选股


- 打分法：直接用因子去打分，获得结果
- 回归法：效果差在回归阶段，



- 确定要选股的因子有哪些
- 回归法不需要知道因子的股票位置方向
- 两步法：
    1. 选股因子回归系数确定（选股的权重）
      在选股时通常按照月调仓，所以我们回归选择的是**该月的最后一天若干个因子值**与**下一个月的股票收益率**进行横截面回归方程建立。即用**这个月的因子**预测**下个月的收益率**
        - 确定权重的步骤：
            1. 准备交易日列表（每月的最后一个交易日）
            2. 按照交易日列表获取因子特征值，列表最后一个月不需要获取，因为下个月收益无法通过列表，缺失值处理
            3. 获取列表的收盘价格，计算下月收益率
                - 2017-02-29日：这个月的因子值对应是下个月的收益率2017-03-30
            4. 将收益率填充到因子对应的因子数据中的下个月收益率列当中
            5. 选定特征值以及选定目标值进行处理
                - 特征值：去极值、标准化、中性化
                - 目标值：标准化
            6. 进行回归方程估计，得出每个因子对应的权重系数
            
    2. 利用回归系数计算结果选股
      * **当时的因子数据与回归系数计算，得出的是接下来一个月预测的股票收益率**
      * **回归训练部分数据干什么，数据集是什么样的范围，那么回测的时候也要同样的去进行操作**
      * 用特征值和权重系数进行矩阵运算，得出预测下一期的股票收益率然后进行筛选

# 模拟交易

  * 检验策略在实时数据上的表现情况
      - 策略表现好，因子稳定
    
    
# 量化总结

- 数据更新
    - Wind数据源实时更新系统
- 回测系统
    - 自己写一套回测系统 或 使用收费版本的
    - 检验策略历史数据表现、因子的回测表现
- 研究框架：一套数据获取系统
    - 用到特征工程、机器学习
    - 因子进行筛选、组合分析
- 需要一个多因子库
    - 需要实时去跟新因子的表现（因子的回测结果）看因子的收益变化结果
    - 因子库：50个因子，15个因子去选股，要用其它35个因子，替换15个因子当中表现不好
- 交易系统
    - 手动交易、自动交易软件
- 多因子策略
    - 因子测试框架、回测框架
        - 因子测试： 筛选因子
        - 因子回测框架：观察因子表现
    - 多因子打分、回测策略 + 股指期货对冲
    - 股指期货对冲
        - 减小最大回撤区间
        - 解决多因子策略遇到市场行情不好的问题，即解决策略回撤较大问题。通过卖空期货来对冲掉损失的市场价值。    
            - 每支股票都有其对应的期货
            - 期货的特点：可以直接卖空
                - “IF88” 沪深300所有期货
            - 股票与期货成反比。股票涨，期货跌；股票跌，期货涨
            - 当股票下单，期货同时下单，当股票跌的时候，卖出期货，形成对冲

In [None]:
# 去极值，标准化
def percentile(factor,up,down): 
    """自实现分位数去极值，up与down都是percentile"""
    up_scale = np.percentile(factor, up)   
    down_scale = np.percentile(factor, down)   
    factor = np.where(factor > up_scale, up_scale, factor)   
    factor = np.where(factor < down_scale, down_scale, factor)  
    return factor


def mad(factor):
    """自实现3倍中位数绝对值偏差去极值"""
    # 1、找出因子的中位数 median
    median_factor = np.median(factor)
    
    # 2、得到每个因子值与中位数的绝对偏差值 |x – median|
    # 3、得到绝对偏差值的中位数， MAD = median(|x – median|)
    mad = np.median(abs(factor-median_factor))
    
    # 4、计算MAD_e = 1.4826*MAD，然后确定参数 n，做出调整
    # 定义3倍中位数的上下限制
    high = median_factor + (3 * 1.4826 * mad)
    low = median_factor - (3 * 1.4826 * mad)
    
    # 利用3倍中位数的值去极值
    factor = np.where(factor > high, high, factor)
    factor = np.where(factor < low, low, factor)
    return factor

def stand(factor):
    """自实现标准化，相当于StandScaler"""
    mean = factor.mean()
    std_dev = factor.std()
    
    return (factor-mean)/std_dev

In [26]:
# pandas.concat 合并与iloc

# list --> np.array(a) --> numpy
# numpy  --> a.tolist() -->  list(a)

import pandas as pd
import numpy as np

data = pd.DataFrame()

# IC = np.array([[1,2,3],[4,5,6]])
IC = pd.DataFrame([[1,2,3],[4,5,6]]).values.tolist()

# data = pd.concat([data,IC])
# data
IC


# data = pd.DataFrame([[1,2,3],[4,5,6]])
# print(data)
# type(data.iloc[:,0])

[[1, 2, 3], [4, 5, 6]]