# 时序数据分析技术摘要

## 时间序列数据与分析

**时间序列**是按时间顺序索引（或列出或绘制）的一系列数据点。 常见的时间序列是在连续的等间隔时间点采取的序列。因此，它是一系列离散时间数据。时间序列的例子包括海洋潮汐的高度，太阳黑子的数量以及道琼斯工业平均指数的每日收盘价。

时间序列经常通过折线图绘制。时间序列用于统计，信号处理，模式识别，计量经济学，数学金融，天气预报，地震预测，脑电图，控制工程，天文学，通信工程，以及主要涉及时间测量的任何应用科学和工程领域。

**时间序列分析**包括用于分析时间序列数据的方法，以便提取有意义的统计数据和数据的其他特征。时间序列预测是使用模型根据先前观察到的值预测未来值。虽然回归分析通常采用的方式是测试理论，即一个或多个独立时间序列的当前值会影响另一个时间序列的当前值，但这种时间序列分析不称为“时间序列分析”，其重点是比较不同时间点的单个时间序列或多个相关时间序列的值。中断的时间序列分析是对单个时间序列的干预的分析。

时间序列数据具有自然的时间顺序。这使得时间序列分析不同于横断面研究，其中没有观察的自然顺序（例如，通过参考他们各自的教育水平来解释人们的工资，其中个人的数据可以以任何顺序输入）。时间序列分析也不同于空间数据分析，其中观察通常涉及地理位置（例如，通过位置来计算房价以及房屋的固有特征）。时间序列的随机模型通常会反映出与时间紧密相连的观测结果与进一步分开的观测结果更为密切相关的事实。此外，时间序列模型通常会利用时间的自然单向排序，因此给定时期的值将表示为从过去的值中获得，而不是从未来的值中获得（参见时间可逆性）。

时间序列分析可以应用于实值，连续数据，离散数字数据或离散符号数据（即字符序列，例如英语中的字母和单词）。

## 技术分析（Technical Analysis）

在金融领域，**技术分析**是一种分析方法，通过研究过去的市场时序数据（主要是价格和数量）来预测价格方向。 行为经济学和定量分析使用许多相同的技术分析工具，这些工具作为主动管理的一个方面，与现代投资组合理论的大部分内容相矛盾。 技术和基本面分析的效力受到有效市场假设的争议，该假设指出股票市场价格基本上是不可预测的。

## 相对强弱指数 （Relative Strength Index）

相对强弱指数（RSI）是用于分析金融市场的技术指标。它旨在根据最近交易时段的收盘价格绘制股票或市场的当前和历史优势或弱点。指标不应与相对强度相混淆。相对强弱指数由 J. Welles Wilder 开发，并于1978年出版的1978年6月出版的“商业技术交易系统中的新概念”和“商品期刊”（现为期货杂志）中出版， 已成为最受欢迎的振荡器指数之一。

RSI被归类为动量振荡器，用于测量定向价格变动的速度和幅度。动量是价格上涨或下跌的速度。 RSI计算动量，因为较高的收盘价与较低收盘价的比率：具有更多或更强正变化的股票的RSI高于具有更多或更强负面变化的股票。

RSI最常用于14天的时间范围，以0到100的等级测量，高和低水平分别标记为70和30。更短或更长的时间范围用于交替更短或更长的前景。更极端的高和低水平-80和20，或90和10-发生频率较低，但表明动量更强。RSI提供的信号告诉投资者在货币超卖时买入并在超买时卖出。

测试了具有推荐参数的RSI及其日常优化，并与Marek和Šedivá（2017）中的其他策略进行了比较。测试是及时随机化的公司（例如，Apple，Exxon Mobile，IBM，Microsoft），并表明RSI仍然可以产生良好的结果;然而，在较长时间内，通常通过简单的买入持有策略来克服。


In [1]:
import sqlite3 as sqlite

def create_database (database_dir):
    conn = sqlite.connect(database_dir)
    conn.commit()
    conn.close()
    print(database_dir, "database has been created! ")
    return None

def create_table (database_dir, table_name):
    conn = sqlite.connect(database_dir)
    c = conn.cursor()
    execute = "CREATE TABLE IF NOT EXISTS " + table_name + " (datestamp TEXT, Rate REAL)" 
    c.execute(execute)
    c.close()
    conn.close()
    return

create_database ("test.db")
create_table("test.db", "TEST_TABLE")

test.db database has been created! 


In [2]:
import quandl
import pandas as pd
import sqlite3 as sqlite

#for mac
# quandl_db_dir = r"/Users/seika/sync/codes_sync/goldres/rawdata/quandl.db"
quandl_db_dir = r"./quandl.db"
# for ubuntu
# quandl_db_dir = r"/home/seika/btsync/codes_sync/goldres/rawdata/quandl.db"
# for windows
# quandl_db_dir = r"D:\SEIKA\codes_sync\goldres\rawdata\quandl.db"

def update_metals ():
    # to do, change columns name as standerized name for further use
    xauusd = quandl.get("LBMA/GOLD",authtoken="H1N-FQReeyf7sxuNNcgj")
    print ("LBMA/GOLD data obtained!")
    xagusd = quandl.get("LBMA/SILVER", authtoken="H1N-FQReeyf7sxuNNcgj")
    print ("LBMA/SILVER data obtained!")
    ptusd = quandl.get("LPPM/PLAT", authtoken="H1N-FQReeyf7sxuNNcgj")
    print ("LBMA/PLAT data obtained!")
    conn = sqlite.connect(quandl_db_dir)
    xauusd.to_sql("LBMA/GOLD",conn,if_exists ='replace')
    xagusd.to_sql("LBMA/SILVER",conn,if_exists ='replace')
    ptusd.to_sql("LPPM/PLAT",conn,if_exists ='replace')
    print ("Metals at quandl_db updated!")
    conn.close()
    return None
    
def update_currs ():
    usdcad = quandl.get("CURRFX/USDCAD",authtoken="H1N-FQReeyf7sxuNNcgj" )
    print ("usdcad data obtained")
    usdcny = quandl.get("CURRFX/USDCNY",authtoken="H1N-FQReeyf7sxuNNcgj" )
    print ("usdcny data obtained")
    usdjpy = quandl.get("CURRFX/USDJPY",authtoken="H1N-FQReeyf7sxuNNcgj" )
    print ("usdjpy data obtained")
    conn = sqlite.connect(quandl_db_dir)
    usdcad.to_sql("CURRFX/USDCAD",conn,if_exists ='replace')
    usdcny.to_sql("CURRFX/USDCNY",conn,if_exists ='replace')
    usdjpy.to_sql("CURRFX/USDJPY",conn,if_exists ='replace')
    print ("CURRFX at quandl_db updated!")
    conn.close()
    return None

update_metals()
update_currs()

LBMA/GOLD data obtained!
LBMA/SILVER data obtained!
LBMA/PLAT data obtained!


  chunksize=chunksize, dtype=dtype)


Metals at quandl_db updated!
usdcad data obtained
usdcny data obtained
usdjpy data obtained
CURRFX at quandl_db updated!


## 本地SQLite数据库取回暂存的Quandl数据

In [25]:
def retreive_sqlite_data(quandl_dir, table_name):
    conn = sqlite.connect(quandl_dir)
    df = pd.read_sql_query("SELECT * FROM `%s`" % table_name, conn)
    df = df.set_index(pd.to_datetime(df['Date']))
    return df
df = retreive_sqlite_data(quandl_db_dir, "LBMA/GOLD")
df = df['USD (PM)']
df.columns = ['gold_rate']

In [28]:
type(df)

pandas.core.series.Series

In [27]:
df['2016']['gold_rate'].plot()
df['2017']['gold_rate'].plot()
df['2018']['gold_rate'].plot()

KeyError: 'gold_rate'

# 相对强弱指数 (Relative Strength Index, RSI)

## 定义

相对强弱指数（Relative Strength Index，RSI），一藉比较价格升降运动以表达价格强度的技术分析工具。

## 计算

设每天向上变动为$U$,向下变动为$D$。
给定过去$n$天的"相对强度"则表示为:

$RS = \frac{EMA_{(U,n)}}{EMA_{(D,n)}}$

$RSI = (1 - \frac{1}{1+RS}) \times 100\% $

其中，$EMA_{(U,n)}$为过去$n$天的每日$U$的指数移动平均数, $EMA_{(D,n)}$同理。

**卡特勒相对强弱指数 （Culter's RSI）**

卡特勒相对强弱指数在计算中采用简单移动平均(SMA)代替指数移动平均(EMA)，两种方法的计算结果差异并不显著，因此较多人采用。

$RS=\frac{SMA_{(U,n)}}{SMA_{(D,n)}}$

$RSI=(1-\frac{1}{1+RS}) \times 100\%$

或者：

$RSI=\frac{SMA_{(U,n)}}{SMA_{(U,n)}+SMA_{(D,n)}}$


## python实现

以下给出一个`python`的实现，输入**数据框** `DataFrame`, 返回包含 *RSI* 指数的数据框。

In [18]:
def cal_ema_rsi(df, col_name , nd):
    # input dataframe and nd (number of days)
    obj_col_name = col_name +  "_ema_rsi_" + str(nd)
    df['delta'] = df[col_name].diff()
    df['delta_up'] = df[df['delta'] > 0]['delta']
    df['delta_dn'] = df[df['delta'] < 0]['delta']
    df['rolling_ema_up'] = df['delta_up'].ewm(span = nd).mean()
    df['rolling_ema_dn'] = df['delta_dn'].ewm(span = nd).mean()
    df['rs'] = -df['rolling_ema_up'] / df['rolling_ema_dn']
    df[obj_col_name] = (1 - 1 / (1 + df['rs'] )) * 100
    df = df.drop(['delta', 'delta_up', 'delta_dn', 'rolling_ema_up', \
                  'rolling_ema_dn', 'rs'] ,axis =1)
    return df

def cal_sma_rsi(df, col_name , nd):
    # input dataframe and nd (number of days)
    obj_col_name = col_name + "_sma_rsi_" + str(nd)
    df['delta'] = df[col_name].diff()
    df['delta_up'] = df[df['delta'] > 0]['delta']
    df['delta_dn'] = df[df['delta'] < 0]['delta']
    df['rolling_sma_up'] = df['delta_up'].rolling(nd, min_periods = 1).mean()
    df['rolling_sma_dn'] = df['delta_dn'].rolling(nd, min_periods = 1).mean()
    df['rs'] = -df['rolling_sma_up'] / df['rolling_sma_dn']
    df[obj_col_name] = (1 - 1 / (1 + df['rs'] )) * 100
    df = df.drop(['delta', 'delta_up', 'delta_dn', 'rolling_sma_up', \
                  'rolling_sma_dn', 'rs'] ,axis =1)
    return df


In [21]:
df = cal_ema_rsi(df, 'USD (PM)', 14)
df['']

Unnamed: 0_level_0,Date,USD (AM),USD (PM),GBP (AM),GBP (PM),EURO (AM),EURO (PM),USD (PM)_ema_rsi_14
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1968-01-02,1968-01-02 00:00:00,35.18,,14.641,,,,
1968-01-03,1968-01-03 00:00:00,35.16,,14.617,,,,
1968-01-04,1968-01-04 00:00:00,35.14,,14.603,,,,
1968-01-05,1968-01-05 00:00:00,35.14,,14.597,,,,
1968-01-08,1968-01-08 00:00:00,35.14,,14.586,,,,
1968-01-09,1968-01-09 00:00:00,35.14,,14.576,,,,
1968-01-10,1968-01-10 00:00:00,35.15,,14.576,,,,
1968-01-11,1968-01-11 00:00:00,35.17,,14.596,,,,
1968-01-12,1968-01-12 00:00:00,35.18,,14.607,,,,
1968-01-15,1968-01-15 00:00:00,35.18,,14.597,,,,
