# 第2回：時系列データの表現と可視化１

以下にプログラムを用意しています。   
解説を読みながら実行していきましょう。
詳細は授業で説明しますので、今は意味が分からなくても大丈夫です。   

## 1. 準備

### 準備（第1回授業で解説済み）

本授業は、東京大学 数理・情報教育研究センターが提供する授業[Python入門](https://sites.google.com/view/ut-python/)の実行環境と知識を前提としています。   
この授業を受けていない方は、[こちらのページ](https://drive.google.com/drive/folders/12zTZY1NvWqpxvZzC2TXmBeNdK3-q2swi)の`guidance.pdf`に従って、Anaconda navigatorのインストールを行ってください。   
また、同じページの`materials`の下にPython入門の教材がすべて収録されています。   
Python言語の知識がない方、あるいは自信のない方は、こちらの教材を使って基礎的な知識を身に付けておいてください。


### データ分析用ライブラリ「pandas」の復習

pandasライブラリにはデータ分析作業を支援するためのモジュールが含まれています。   
東京大学 数理・情報教育研究センターが提供する授業[Python入門](https://sites.google.com/view/ut-python/)を受講していない方や、忘れてしまった方は、Python入門7-1の教材をもう一度復習してください。  
Python入門7-1の教材は、[こちらのページ](https://drive.google.com/drive/folders/12zTZY1NvWqpxvZzC2TXmBeNdK3-q2swi)の「materials/7」に置かれています(このページにアクセスするにはECCSアカウントが必要です）。

### 第２回の必須演習と発展敵演習

第２回で必ず演習してきていただきたいのは以下の３つです。
- TimeSriesDataAnalysis1.ipynb (この教材）
- TimeSriesDataAnalysis2.ipynb
- TimeSriesDataAnalysis3.ipynb

以下は発展的演習です。   
興味のある方はやってみてください。
- Stooq.ipynb：ポーランドの株価・為替情報ポータル。日本の株価データが取得できます
- WorldBank.ipynb：世界銀行が提供する各種情報（貧困、経済、気候変動など）が取得可能

## 2. 株価の取得と記録

pandas_datareaderは、株価や為替に関する情報や、各種統計データにリアルタイムでアクセスすることを可能とするパッケージです。   
[pandas-datareaderマニュアル](https://pydata.github.io/pandas-datareader/devel/remote_data.html#iex)

datareaderのサービスを提供しているサイトには以下のようなものがあります。   
これらのサービスは変更される可能性があります。最新は[こちら](https://pandas-datareader.readthedocs.io/en/latest/readers/index.html)を確認してください。

- Federal Reserve Economic Data (FRED)
- Fama-French Data (Ken French’s Data Library)
- Bank of Canada
- Engima
- Eurostat
- The Investors Exchange (IEX)
- Moscow Exchange (MOEX)
- Morningstar
- NASDAQ
- Organisation for Economic Co-operation and Development (OECD)
- Quandl
- Robinhood
- Stooq.com
- Tiingo
- Thrift Savings Plan (TSP)
- World Bank

### 2.1 オンラインからの株価の取得

pandas_datareaderを使ってトヨタの株価を取得してみましょう。   
今回はIEXのサイトからオンラインで株価の変動履歴情報を取得します。  
[The Investors Exchange (IEX)](https://en.wikipedia.org/wiki/IEX)は米国の証券取引所の一つです（「フラッシュ・ボーイズ 10億分の1秒の男たち」という小説で有名になった会社ですね）。   
DataReaderの第１引数である`'TM'`はTOYOTA MOTOR CORPのティッカーコード（銘柄コード）です。

**ここでエラーが出た人は3.に進んで下さい。**

In [1]:
import pandas_datareader.data as web
from datetime import datetime

start = datetime(2018, 1, 1) # 取得開始日
end = datetime(2019, 3, 31) # 取得終了日
df = web.DataReader('TM', 'iex', start, end)
df.head(5) # 最初の5行を出力

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-02,121.2592,122.2108,121.0118,122.1537,83545
2018-01-03,122.4487,123.9289,122.3345,123.8284,162349
2018-01-04,124.9513,125.7601,124.9418,125.7601,161798
2018-01-05,126.6641,127.3873,126.6356,127.3778,135309
2018-01-08,127.492,128.2628,127.1494,128.2438,131364


以上のプログラムで取得できた情報は以下の5種類です。  
このうちopen, high, low, closeの単位はIEXならドルです。これら４つを合わせてOHLCという略称で呼ぶこともあります。   
出来高はその日売買が成立した株数のことで、これだけ単位が違います。

```
open : 始値
high : 高値
low : 安値
close : 終値
volume: 出来高
```

## 2.2 取得銘柄の変更

株式のティッカーコードはニューヨーク証券取引所やNASDAQで決められますが、IEXにおける定義は以下で検索することができます。   

[The Investors Exchange (IEX)におけるティッカーシンボル](https://iextrading.com/trading/eligible-symbols/)

ティッカーシンボルを書き換えて、他の企業の株価も取得してみましょう。   
例えば…
- TM: TOYOTA MOTOR CORP -SPON ADR
- HMC: 2019-04-09	HONDA MOTOR CO LTD-SPONS ADR
- CAJ: 2019-04-09	CANON INC-SPONS ADR
- MFG: 2019-04-09	MIZUHO FINANCIAL GROUP-ADR
- SNE: 2019-04-09	SONY CORP-SPONSORED ADR
- AAPL: APPLE INC
- GOOG: ALPHABET INC-CL C (無議決権株)
- GOOGL: ALPHABET INC-CL A (議決権有り）

ニューヨーク証券取引所かNASDAQに上場している企業が対象です（日本企業は14社程度だと思います）。


In [16]:
import pandas_datareader.data as web
from datetime import datetime

start = datetime(2018, 1, 1)
end = datetime(2019, 3, 31)
df = web.DataReader('TM', 'iex', start, end)
df.head(5) # 最初の5行だけ表示

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-02,123.4915,124.4606,123.2396,124.4025,83545
2018-01-03,124.7029,126.2104,124.5866,126.1081,162349
2018-01-04,127.2516,128.0754,127.2419,128.0754,161798
2018-01-05,128.996,129.7325,128.9669,129.7228,135309
2018-01-08,129.8391,130.6241,129.4902,130.6047,131364


###  2.3 csvファイルへの記録

pandas-datareaderのように、Webサーバにアクセスして情報を取得するサービスでは、同じユーザから大量のアクセスが自動的に送られてくるのを防ぐため、単位時間当たり〇〇回まで、といったアクセス制限が設けられています。   
それを超えるとエラーメッセージが返ってくるので、同じデータは毎回Webから取ってくるのではなく、自分のコンピュータに保存しておくようにしましょう。   

pandasはDataFrameをcsv形式に変換して保存するモジュールを用意しています。  
取得したデータを`stock.csv`という名前で保存します。

In [17]:
df.to_csv("stock.csv")

## 3.  csvファイルの読み込み

csvファイルはExcelで開いてみることができます。   
このノートブックが置かれているフォルダに株価の履歴を記録した`stock.csv`ができているはずなので、これをExcelで開いてみてください。   
ただし、**上書き保存は絶対にしないでください。**  
Excelは日付や数値を独自形式に書き換えてしまうことがあり、それを保存するとデータの内容が変わってしまい、以下のプログラムが動作しなくなる可能性があります。  
たとえば日付を勝手に違うフォーマットに書き換えてしまいます（例：「2019-04-01」-->「2019/4/1」）

csvファイルをpandasで読み込んで、`date`キーの値を
最初の5行だけを表示して見ましょう。   
途中、いくつか処理をしていますが、その内容は授業で説明します。   

In [2]:
import pandas as pd

sdf = pd.read_csv('stock.csv')
sdf['date'] = pd.to_datetime(sdf['date']) # 'date'キーの値は日付を表す文字列なので、to_datetimeを適用してdatetime64型に変換
sdf.set_index('date', inplace=True) # 次に、set_index()メソッドで'date'キーの列をインデックスに指定する。
sdf.head(5)

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-02,123.4915,124.4606,123.2396,124.4025,83545
2018-01-03,124.7029,126.2104,124.5866,126.1081,162349
2018-01-04,127.2516,128.0754,127.2419,128.0754,161798
2018-01-05,128.996,129.7325,128.9669,129.7228,135309
2018-01-08,129.8391,130.6241,129.4902,130.6047,131364


## 4 ローソク足チャートを表示しよう

株価と言えばローソク足チャートですね。   

```
ローソク足チャート（ローソクあしチャート）は、株価などの相場の値動きを時系列に沿って図表として表す手法の一つ。ローソクチャートともいう。

単位期間を定め、単位期間中に初めに付いた値段を始値（はじめね）、最後に付いた値段を終値（おわりね）、最も高い値段を高値（たかね）、最も安い値段を安値（やすね）とし、この四種の値段（四本値＝よんほんね）をローソクと呼ばれる一本の棒状の図形に作図し、時系列に沿って並べて値段の変動をグラフとして表したものである。

```
参照：[Wikipedia::ローソク足チャート](https://ja.wikipedia.org/wiki/%E3%83%AD%E3%83%BC%E3%82%BD%E3%82%AF%E8%B6%B3%E3%83%81%E3%83%A3%E3%83%BC%E3%83%88)

matplotlibで頑張ってローソク足チャートを描くこともできますが、ここではローソク足チャートを簡単に描画できる`mpl_finance`というモジュールを使います。   
[mpl_financeのHP](https://pypi.org/project/mpl-finance/)   

`mpl_finance`はかつては`matplotlib.finance`という名前で、`matplotlib`のサブモジュールでしたが、matplotlibがversion 2.0にアップデートした際に別モジュールとして切り離されました（[参照](https://matplotlib.org/api/finance_api.html))。

### 4.1 前処理

mpl_finance.candlestick_ohlcという関数を使ってローソク足チャートを描画します。  
まず、この関数が受け付ける形式に株価データを変形しましょう。   
この関数は、1行目から時間順に株価データが並んでおり、1列目に日付（ただし数値化されたもの）、2～4列目にOpen, High, Low, Closeが並んだ二次元配列を受け取ります。  
このようなohlcを作成します。

In [13]:
from datetime import datetime

start = datetime(2018, 12, 14) # 開始日
end = datetime(2019, 1, 10) # 終了日

ohlc = sdf.loc[start:end, ['open', 'high', 'low', 'close']] # 出来高以外の値をコピー
ohlc.head() # どのようなデータなのか、最初の5行を出力

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-12-14,120.33,121.02,119.9,120.1
2018-12-17,120.0,120.51,119.12,119.55
2018-12-18,120.88,121.27,119.84,120.01
2018-12-19,120.51,122.0,118.87,119.38
2018-12-20,119.0,119.53,117.38,118.45


このDataFrameのインデックスはdatetime形式です。  
これを、matplotlibのdatesという関数を使って数値に直します。   
これは、西暦1年1月1日を1日目として、その日が何日目であるかを表した数値です。

In [14]:
import matplotlib.dates as mdates

ohlc.index = mdates.date2num(ohlc.index) # indexをdatetime形式から数値に変換
ohlc.head() # indexが日付から数値になりました

Unnamed: 0,open,high,low,close
737042.0,120.33,121.02,119.9,120.1
737045.0,120.0,120.51,119.12,119.55
737046.0,120.88,121.27,119.84,120.01
737047.0,120.51,122.0,118.87,119.38
737048.0,119.0,119.53,117.38,118.45


DataFrameを二次元配列のリストに変換します。

In [15]:
data = ohlc.reset_index().values # DataFrameを二次元配列のリストに変換
print(data[:5,:])

[[7.37042e+05 1.20330e+02 1.21020e+02 1.19900e+02 1.20100e+02]
 [7.37045e+05 1.20000e+02 1.20510e+02 1.19120e+02 1.19550e+02]
 [7.37046e+05 1.20880e+02 1.21270e+02 1.19840e+02 1.20010e+02]
 [7.37047e+05 1.20510e+02 1.22000e+02 1.18870e+02 1.19380e+02]
 [7.37048e+05 1.19000e+02 1.19530e+02 1.17380e+02 1.18450e+02]]


### 4.2 ローソク足チャートの描画

いよいよmpl_finance.candlestick_ohlcでローソク足を描画しましょう。  
図が見やすくなるように、いろいろなパラメータを設定しています。   
それらを変更したり消したりすると図がどう変化するか試してみましょう。

ここでは、X軸のlocatorとformatterを設定しています。   
- locatorは軸の間隔を設定します
 + set_major_locator: 主軸の間隔
 + set_minor_locator: 補助軸の間隔
- formatterは軸ラベルの書式を設定します
 + set_major_formatter: 主軸のラベル
 + set_minor_formatter: 補助軸のラベル

locatorやformatterは指定するパラメータによって、毎月15日、2日おき、毎週月・木、3か月おきなど、様々な設定が可能です。   
[マニュアル](https://matplotlib.org/api/dates_api.html)を見て、パラメータを変更してみましょう


In [16]:
%matplotlib notebook
import matplotlib.pyplot as plt
import mpl_finance
import matplotlib.dates as mdates
from matplotlib.dates import MO, TU, WE, TH, FR, SA, SU # locatorをWeekdayLocatorにするなら必要


fig = plt.figure(figsize=(7, 3)) # figure(図を配置する画面)のサイズを指定
ax = plt.subplot() # figureには複数の図を配置できるので、そのうち図を1つ描画する空間を準備

# mpl_financeのcandlestick_ohlc関数を使ってローソク足を描画
mpl_finance.candlestick_ohlc(ax, data, width=0.7, colorup='g', colordown='r')

ax.grid()  # グリッド表示を描画

############# X軸のlocator の設定 #################
#locator = mdates.AutoDateLocator() #  # x軸の主軸の間隔を自動調整する
#locator = mdates.DayLocator(bymonthday=None, interval=2) # x軸を主軸の間隔を日単位にする。毎月15日や2日おきなども可能
#locator = mdates.WeekdayLocator(byweekday=(MO, TH))  # x軸の主軸の間隔を毎週月木にする
locator = mdates.WeekdayLocator(byweekday=(MO))  # x軸の主軸の間隔を毎週月木にする
#locator = mdates.MonthLocator() # x軸の主軸の間隔を月単位にする
#locator = mdates.YearLocator() # x軸の主軸の間隔を年単位にする
ax.xaxis.set_major_locator(locator) # X軸の主軸の間隔を設定
ax.xaxis.set_minor_locator(mdates.DayLocator()) # X軸の補助軸の間隔を日付に設定（X軸にメモリが追加される）

############# X軸のformatterの設定 #################
ax.xaxis.set_major_formatter(mdates.AutoDateFormatter(locator)) # X軸の主軸のラベルをdateフォーマットにする

fig.autofmt_xdate() # X軸の日付ラベルが見やすくなるよう回転
#plt.setp(ax.get_xticklabels(), rotation=30, horizontalalignment='right')# 軸を右揃えにして斜めに
fig.tight_layout() # 図がはみ出さないようにレイアウト
plt.savefig('fig/TimeSeriesDataAnalysis1.png') # 図を画像として保存

<IPython.core.display.Javascript object>