# 5.3  回归个股日收益率与关注度

投资者的关注（从而产生买卖）会导致个股股价变动。如下的“股价-关注度数据.csv”数据里有4只个股，我们对每只分别进行股价日收益率和关注。以下是03.06-多级索引中的代码。现在我们想研究对每只股票的日收益率的绝对值与关注度的回归关系。作为一次课堂练习，我们从思路到程序。

In [17]:
import pandas as pd

data = pd.read_csv(r'data/股价-关注度数据.csv', encoding='ISO-8859-1', sep='\t')
data['Trddt'] = pd.to_datetime(data['Trddt'])
#【注意】Trddt列原来是字符串型，必须转换为时间-日期型，以下才能设置索引
data.set_index(['Stkcd', 'Trddt'], inplace=True)#设置多级索引：一级'Stkcd'，二级'Trddt'; 必须inplace=True，否则不改变原表
data.sort_index(ascending=True, inplace=True)#对索引排序，即按'Stkcd'和'Trddt'升序排列
for stkcd in data.index.levels[0]:
    print('股票代码: ' + str(stkcd))
    print(data.loc[stkcd])

股票代码: 516
            Clsprc  Attention
Trddt                        
2011-01-04    5.67          0
2011-01-05    5.69          0
2011-01-06    5.69          0
2011-01-07    5.70          0
2011-01-10    5.50         63
2011-01-11    5.52          0
2011-01-12    5.55          0
2011-01-13    5.52          0
2011-01-14    5.42          0
2011-01-17    5.15          0
2011-01-18    5.60         63
2011-01-19    5.62          0
2011-01-20    5.37          0
2011-01-21    5.41          0
2011-01-24    5.33          0
2011-01-25    5.27          0
2011-01-26    5.33          0
2011-01-27    5.39          0
2011-01-28    5.45          0
2011-01-31    5.54          0
2011-02-01    5.56          0
2011-02-09    5.51          0
2011-02-10    5.69         61
2011-02-11    5.66          0
2011-02-14    5.74          0
2011-02-15    5.82          0
2011-02-16    5.91          0
2011-02-17    5.84          0
2011-02-18    5.80          0
2011-02-21    5.99          0
...            ...        ...


写代码的过程是一个**试探**的过程。取得一只股票，构造X和y，然后套到回归模型里，看看是否正确。

In [18]:
data.loc[601118]

Unnamed: 0_level_0,Clsprc,Attention
Trddt,Unnamed: 1_level_1,Unnamed: 2_level_1
2011-01-07,11.01,4336
2011-01-10,12.11,3786
2011-01-11,11.24,3936
2011-01-12,11.26,2651
2011-01-13,10.36,2774
2011-01-14,10.56,2083
2011-01-17,10.46,1955
2011-01-18,9.95,1736
2011-01-19,10.73,1978
2011-01-20,10.97,2179


In [19]:
type(data.loc[601118])

pandas.core.frame.DataFrame

In [20]:
X_df = data.loc[601118]['Attention'] #自变量
X_df.head(10)

Trddt
2011-01-07    4336
2011-01-10    3786
2011-01-11    3936
2011-01-12    2651
2011-01-13    2774
2011-01-14    2083
2011-01-17    1955
2011-01-18    1736
2011-01-19    1978
2011-01-20    2179
Name: Attention, dtype: int64

In [21]:
import statsmodels.api as sm
sm.add_constant(X_df)

  return ptp(axis=axis, out=out, **kwargs)


Unnamed: 0_level_0,const,Attention
Trddt,Unnamed: 1_level_1,Unnamed: 2_level_1
2011-01-07,1.0,4336
2011-01-10,1.0,3786
2011-01-11,1.0,3936
2011-01-12,1.0,2651
2011-01-13,1.0,2774
2011-01-14,1.0,2083
2011-01-17,1.0,1955
2011-01-18,1.0,1736
2011-01-19,1.0,1978
2011-01-20,1.0,2179


In [22]:
X = X_df.values #转换成numpy数组
X

array([4336, 3786, 3936, ...,  586,  596,  629], dtype=int64)

In [23]:
X.reshape((len(X),1))

array([[4336],
       [3786],
       [3936],
       ...,
       [ 586],
       [ 596],
       [ 629]], dtype=int64)

In [24]:
X = X.reshape((len(X),1))
X = sm.add_constant(X)
X

array([[1.000e+00, 4.336e+03],
       [1.000e+00, 3.786e+03],
       [1.000e+00, 3.936e+03],
       ...,
       [1.000e+00, 5.860e+02],
       [1.000e+00, 5.960e+02],
       [1.000e+00, 6.290e+02]])

In [25]:
#y是今天比昨天的收益率

In [26]:
price = data.loc[601118]['clsprc']

KeyError: 'clsprc'

In [None]:
price_series = data.loc[601118]['Clsprc']
price_series.head()

In [None]:
#今天比昨天涨了几块钱
price_series.shift(1).head()

In [None]:
#今天比昨天涨了几块钱
price_series - price_series.shift(1)

In [None]:
#今天比昨天收益率
(price_series - price_series.shift(1))/price_series.shift(1)

In [None]:
y_series = ((price_series - price_series.shift(1))/price_series.shift(1)).dropna()
y_series

In [None]:
#今天比昨天收益率的绝对值
import numpy as np
y_series = np.abs(y_series)

In [None]:
y = y_series.values
y = y.reshape((len(y),1))
y

In [None]:
#突然想到，X第1行是2011.1.7交易日的数据，而y的第1个是2011.1.10交易日的。
#那么，要删除X的第一行:
X[1:, :]

In [None]:
result = sm.OLS(y, X[1:, :]).fit()
result.summary()

R^2是0.16，还可以，看来上市公司（601118）的关注度与股价有关系。x1的系数的很小，10^-6的量阶，这部分是由于关注度的值很大，而收益率的值很小。另外，该系数的p值0.00<0.1，表示它在统计上是显著（不为0）的。

In [None]:
result.params

In [None]:
result.rsquared

（插一个问题，如何将jupyter文件转成py文件，你去看一下File菜单，试出download子菜单可以办到）
下面我们要写一个循环，去得到多只股票的x1系数和R方的平均值。请你完成。提示：把上面的代码放到for stkcd这个循环里，累加每只股票的x1系数和R方，再除以循环次数。

In [None]:
help(result)

整个代码：

In [28]:
import numpy as np
result_df = pd.DataFrame({'stkcd':[], 'const':[], 'Attention':[], 'const pvalue':[], 'Attention pvalue':[], 'f_pvalue':[], 'R^2':[], 'adjusted R^2':[]})
for stkcd in sorted(data.index.levels[0]):
    #取得股票stkcd的子DataFrame
    X = sm.add_constant(data.loc[stkcd]['Attention'])[1:] #删除掉第0行，因收益率从第1行开始有
    prices = data.loc[stkcd]['Clsprc']
    y = np.abs(((prices - prices.shift(1))/prices.shift(1)).dropna())#取得相邻两天的收益率的绝对值
    result = sm.OLS(y, X).fit()
    result_df = result_df.append({'stkcd':stkcd, 'const':result.params['const'], 'Attention':result.params['Attention'], 'const pvalue':result.pvalues['const'], 'Attention pvalue':result.pvalues['Attention'], 'f_pvalue':result.f_pvalue, 'R^2':result.rsquared, 'adjusted R^2':result.rsquared_adj}, ignore_index=True)    

print(result_df)

      stkcd     const     Attention  const pvalue  Attention pvalue  \
0     516.0  0.015157  9.764844e-06  6.740027e-93      2.420190e-38   
1  600000.0  0.003580  4.560394e-07  3.408449e-03      1.370306e-12   
2  600004.0 -0.010152  1.416518e-05  1.645106e-13      1.584360e-69   
3  601118.0  0.010647  6.044737e-06  1.045009e-44      2.419974e-76   

       f_pvalue       R^2  adjusted R^2  
0  2.420190e-38  0.085726      0.085237  
1  1.370306e-12  0.024409      0.023929  
2  1.584360e-69  0.139631      0.139215  
3  2.419974e-76  0.162168      0.161735  


  return ptp(axis=axis, out=out, **kwargs)
