In [None]:
"""
对于生成的或来自聚宽的Barra因子，对其进行格式的调整，添加01变量行业因子
使之可以满足后续组合优化所需的格式。
由于每个月进行一次组合优化的配置，所以对每个月的计算配置的当日获取之前一段时间的因子数据，
将过去这一段时间的数据保存为一个新的csv文件以备后续调用
"""

In [None]:
import os
os.chdir('D:/Python/Flies/Guanyun/barra/dataset/')
import pandas as pd
import numpy as np
import akshare as ak
import statsmodels.formula.api as smf
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler
from scipy.stats.mstats import winsorize
import datetime
import math
import matplotlib.pyplot
import alphalens
import copy

# 数据导入和整理

In [7]:
"""
对保存的Barra因子csv文件读取
每个csv文件文件名为Barra因子名.csv，列为stock，行为date
"""
for root, dirs, files in os.walk('jqbarra_2019/'):
    pass
files_list = []
dataset_dict = {}
for file in files : 
    key = file[:-4]
    files_list.append(key)
    dataset_dict[key] = pd.read_csv('jqbarra_2019/' + file, low_memory=False).set_index('Unnamed: 0')
    
"""
去除最后几日的日期，并对所有dataframe对齐日期
获取股票list
"""
date_ = dataset_dict['beta'].index.to_list()
date_ = date_[:-27]
for file in files_list : 
    dataset_dict[key] = dataset_dict[key].loc[date_]
stocks_ = dataset_dict['beta'].columns.to_list()

"""
由于涨跌幅，市值和Barra因子来自不同的平台，这里对它们的股票取交集，
将日涨跌幅和市值也作为因子纳入因子dataframe的dict中去
"""
for key in ['涨跌幅(%)', '总市值(元)']:
    x = pd.read_csv('后复权数据-分类/' + key + '.csv', low_memory=False, encoding='gbk')
    x = x.rename(columns = {"日期": "date"}).set_index('date')
    x_columns = x.columns.to_list()
    for i in range(len(x_columns)) : 
        if x_columns[i][:1] == '6' :   # 将wind的股票名称格式调整为joinquant上的股票名称格式
            x_columns[i] = x_columns[i][:6] + '.XSHG'
        else : 
            x_columns[i] = x_columns[i][:6] + '.XSHE'
    x.columns = x_columns
    x_columns = list(set(x_columns) & set(stocks_))  # 取交集
    x = x.loc[date_,x_columns]
    if key == '涨跌幅(%)': key = 'ret'
    if key == '总市值(元)': key = 'capital'
    print(key)
    dataset_dict[key] = x

# 添加行业

In [41]:
"""
导入行业成分股信息sector_content_df
列为各个申万一级行业分类的行业代码，行为日期，value为该行业该日的成分股list
这样在长期回测中可以减小因为成分股变动造成的影响。（已废用，现在选用2019-04-30的成分股）
最终获得各个股票所属行业，将其作为行业因子加入因子dataframe的dict中去
"""
sector_content_df = pd.read_csv('sector_content_df.csv').set_index('date')
import re
p = re.compile(r'(\d+.[A-Z]+)')
def findall_apply_func(y):
    def findall_apply_inner_func(df_str,y) : 
        return p.findall(df_str)
    return y.apply(findall_apply_inner_func, args=(y,))
sector_content_df = sector_content_df.apply(findall_apply_func,axis=0)
sector_content_df = sector_content_df.loc['2019-04-30',:] 
res = pd.DataFrame()
for sec in sector_content_df.index : 
    res = pd.concat([res,pd.DataFrame(sector_content_df[sec])],axis=1)
res.columns = sector_content_df.index

sec_df = pd.DataFrame(index=date_, columns=stocks_)
for stock in sec_df.columns:
    sec_df[stock] = res[res == stock].dropna(how = 'all', axis = 1).columns[0]
dataset_dict['industry'] = sec_df

# 数据整理成新格式

In [48]:
dataset_stks_df = pd.DataFrame(columns = ['date','stocknames'] + list(dataset_dict.keys()))
for stocknames in stocks_:
    dataset_stks_df = dataset_stks_df.append([{'stocknames':stocknames}], ignore_index=True)
    
# 去除前两年的数据防止因为因子生成时开头有些变化率的因子造成头几年没有数据的情况，然后开始进行数据格式的转换
t = 505
while t <= len(date_) :  
    print(date_[t])
    dates_index = date_.index(date_[t])
    dates_500 = date_[dates_index-505:dates_index-1]
    t += 21  # 每月计算一次

    dataset_df_sum = pd.DataFrame()
    for i in range(len(dates_500)) : 
        tmp_df = copy.deepcopy(dataset_stks_df)
        tmp_df = tmp_df.set_index('stocknames')
        tmp_df['date'] = dates_500[i]
        for key in dataset_dict.keys() : 
            try:
                tmp_df[key] = pd.DataFrame(dataset_dict[key].loc[dates_500[i]]).sort_index()
            except:
                print('no data of ' + key + ' in date: ' + dates_500[i])
                pass
        tmp_df['stocknames'] = tmp_df.index
        tmp_df = tmp_df.reset_index(drop=True)        

        if len(dataset_df_sum) == 0 : 
            dataset_df_sum = copy.deepcopy(tmp_df)
        else: 
            dataset_df_sum = pd.concat([dataset_df_sum, tmp_df],axis=0)
    dataset_df_sum = dataset_df_sum[[
        'date', 'stocknames', 'capital', 'ret', 'industry', 'size', 'beta',
        'momentum', 'residual_volatility', 'non_linear_size',
        'book_to_price_ratio', 'liquidity', 'earnings_yield', 'growth', 'leverage'
    ]]    
    dataset_df_sum.to_csv('D:/Python/Flies/Guanyun/barra/dataset/barra processing/total_data_jqdata_2019/' + 'barra_data_' + str(t) + '.csv')
    dataset_df_sum = pd.DataFrame()

2019-01-28
2019-01-28
2019-03-05
2019-03-05
2019-04-03
2019-04-03
2019-05-08
2019-05-08
2019-06-06
2019-06-06
2019-07-08
2019-07-08
2019-08-06
2019-08-06
2019-09-04
2019-09-04
2019-10-11
2019-10-11
2019-11-11
2019-11-11
