### CSV数据的读取

In [1]:
import numpy as np

c, v = np.loadtxt('datafile.csv', delimiter=',', usecols=(1, 2), unpack=True) 
print(c) 
print(v)

[178.02 178.65 178.44 179.97 181.72 179.98 176.94 175.03 176.67 176.82
 176.21 175.   178.12 178.39 178.97 175.5  172.5  171.07 171.85 172.43
 172.99 167.37 164.34 162.71 156.41 155.15 159.54 163.03 156.49 160.5
 167.78 167.43 166.97 167.96 171.51 171.11 174.22 177.04 177.   178.46
 179.26 179.1  176.19 177.09 175.28 174.29 174.33 174.35 175.   173.03
 172.23 172.26 169.23 171.08 170.6  170.57 175.01 175.01 174.35 174.54
 176.42]
[38313330. 22676520. 29334630. 31464170. 32191070. 32130360. 24518850.
 31686450. 23273160. 27825140. 38426060. 48706170. 37568080. 38885510.
 37353670. 33772050. 30953760. 37378070. 33690660. 40113790. 50908540.
 40382890. 32483310. 60774900. 70583530. 54145930. 51467440. 68171940.
 72215320. 85957050. 44453230. 32234520. 45635470. 50565420. 39075250.
 41438280. 51368540. 32395870. 27052000. 31306390. 31087330. 34260230.
 29512410. 25302200. 18653380. 23751690. 21532200. 20523870. 23589930.
 22342650. 29461040. 25400540. 25938760. 16412270. 21477380. 33113340

In [2]:
# 算术平均值
mean_c = np.mean(c)
print(mean_c)
# 最值，最值之差
print(np.max(c), np.min(c))
print(np.ptp(c))
# 中位数
print(np.median(c))
# 方差
print(np.var(c))
# 根据方差定义求方差（方差指的是各个数据与所有数据算数平均数的离差平方和的均值）
print(np.mean((c - c.mean())**2))

172.61491803278687
181.72 155.15
26.569999999999993
174.35
37.598552862133815
37.598552862133815


### 常用指标分析方法
收益率分析：用今天的收盘价减去昨天的收盘价，再除以昨天的收盘价格。

`diff`函数时用数组的第`N`项减第`N-1`项，得到一个`n-1`项的一维数组。本例中我们注意到数组中日期越近的收盘价，数组索引越小，因此得取一个相反数

In [3]:
returns = -np.diff(c)/c[1:] 
print(returns)

[-0.00352645  0.00117687 -0.00850142 -0.0096302   0.00966774  0.01718097
  0.01091242 -0.00928284 -0.00084832  0.00346178  0.00691429 -0.01751628
 -0.00151354 -0.00324077  0.01977208  0.0173913   0.00835915 -0.00453884
 -0.00336368 -0.00323718  0.0335783   0.01843739  0.01001782  0.04027875
  0.00812117 -0.02751661 -0.0214071   0.04179181 -0.02498442 -0.04339015
  0.00209043  0.00275499 -0.00589426 -0.0206985   0.00233768 -0.01785099
 -0.0159286   0.00022599 -0.00818111 -0.00446279  0.00089336  0.01651626
 -0.00508216  0.01032634  0.00568019 -0.00022945 -0.00011471 -0.00371429
  0.01138531  0.00464495 -0.00017416  0.01790463 -0.01081365  0.0028136
  0.00017588 -0.02536998 -0.          0.00378549 -0.00108858 -0.01065639]


然后观察一下每日收益的标准差，就可以看看收益的波动大不大了

In [4]:
print(np.std(returns))

0.01507803284540127


看哪天的收益率是正的

In [5]:
print(np.where(returns > 0))

(array([ 1,  4,  5,  6,  9, 10, 14, 15, 16, 20, 21, 22, 23, 24, 27, 30, 31,
       34, 37, 40, 41, 43, 44, 48, 49, 51, 53, 54, 57], dtype=int64),)


## 波动率计算
专业上我们对价格变动可以用一个叫做“波动率”的指标进行度量。计算历史波动率时需要用到对数收益率，对数收益率很简单，就是$log\frac{C_{t+1}}{C_{t}}$, 依照对数的性质，他等于$log{C_{t+1}}-log{C_{t}}$

在计算年化波动率时，要用样本中所有的对数收益率的标准差除以其均值，再除以交易日倒数的平方根，一年交易日取`252`天。

In [6]:
logreturns = -np.diff(np.log(c))
volatility = np.std(logreturns) / np.mean(logreturns)
annual_volatility = volatility / np.sqrt(1. / 252.)
print(volatility)
print(annual_volatility)

100.09675738825683
1588.9867625597685


## 日期的处理方法

In [9]:
# 对日期字符串进行一些转换处理
import datetime

str_date = '2020/6/19'
d = datetime.datetime.strptime(str_date, '%Y/%m/%d')
print(type(d))
print(d)

<class 'datetime.datetime'>
2020-06-19 00:00:00


通过`python`标准库中的`datetime`函数包，我们通过指定匹配的格式`%Y/%m/%d`

将日期字符串转换为了`datetime`类型对象，`Y`大写匹配完整的四位数记年，`y`小写就是两位数，例如`20`

`datetime`对象有一个`date`方法，把`datetime`对象中的`time`部分去掉，变成一个纯的日期

In [10]:
print(d.date())

2020-06-19


## 综合分析

In [15]:
def datestr2num(bytedate):  
    return datetime.datetime.strptime(
                  bytedate.decode('utf-8'),'%Y/%m/%d').date().weekday()  

dates,c = np.loadtxt('datafile.csv', delimiter=',', usecols=(0,1), converters={0: datestr2num}, unpack=True)
averages = np.zeros(5)

for i in range(5):     
    index = np.where(dates == i)     
    prices = np.take(c, index)     
    avg = np.mean(prices)     
    averages[i] = avg
    print("Day {} prices: {},avg={}".format(i,prices,avg)) 

top = np.max(averages) 
top_index = np.argmax(averages) 
bot = np.min(averages) 
bot_index = np.argmin(averages) 
print('highest:{}, top day is {}'.format(top,top_index)) 
print('lowest:{}, bottom day is {}'.format(bot,bot_index))

Day 0 prices: [[181.72 175.   171.85 155.15 166.97 178.46 174.33 171.08 176.42]],avg=172.3311111111111
Day 1 prices: [[179.97 176.21 171.07 156.41 167.43 177.   174.29 169.23 174.54]],avg=171.79444444444445
Day 2 prices: [[178.44 176.82 172.5  162.71 167.78 177.04 175.28 172.26 174.35]],avg=173.01999999999998
Day 3 prices: [[178.65 176.67 175.5  164.34 160.5  174.22 177.09 172.23 175.01]],avg=172.69
Day 4 prices: [[178.02 175.03 178.97 167.37 156.49 171.11 176.19 173.03 175.01]],avg=172.35777777777778
highest:173.01999999999998, top day is 2
lowest:171.79444444444445, bottom day is 1


**简单分析：** 由于从`csv`中读取的数据类型为`bytes`，所以我们写了一个转换函数，先将`bytes`类型的日期数据进行解码`bytedate.decode('utf-8')`，`weekday()`表示转换为一个表示周几的数字

`np.loadtxt`函数中的参数`converters={0: datestr2num}`，就是说针对第一列的数据，我们利用这个转换函数将其转化为一个数字，并将这个整形元素构成的数组赋值给`dates`变量

最后，用循环依次取出每个工作日的收盘价构成的数组，对其求平均值。然后得到周一到周五，五个平均值的最大值、最小值

**两个使用函数：** 
* **裁剪函数** 

In [16]:
a = np.arange(5)
print(a.clip(1,3))

[1 1 2 3 3]


* **筛选函数**

In [17]:
print(a.compress(a > 2))

[3 4]
