## 日経平均株価（月次）データのダウンロード
* 日経平均プロファイルのサイトから『日経平均株価ー月次データ」をダウンロード
    * https://indexes.nikkei.co.jp/nkave/index?type=download

In [None]:
!wget  -O "./data/nikkei_stock_average_monthly_jp.csv" "https://indexes.nikkei.co.jp/nkave/historical/nikkei_stock_average_monthly_jp.csv"

In [1]:
import json  # jsonデータ用
import pandas as pd  # csvデータ用

# 日経平均が格納されたcsvファイル
path_nikkei = 'data/nikkei_stock_average_monthly_jp.csv'

# 対象年度(2014年から2017年)
years = list(range(2014, 2018))

In [2]:
# 日経平均を読み込む
df_nikkei = pd.read_csv(
    path_nikkei,
    encoding='Shift-JIS', # UTF-8ではないため文字コードを指定
    skipfooter=1,         # 末尾の1行を無視
    engine='python'       # skipfooterを有効にするための設定
)

# センチメントスコアを読み込む
with open('polarity_scores_mecab.jsonl', 'r') as f:
    pol_scores = [json.loads(line.strip()) for line in f]

In [3]:
# 2015年以降の前年同月比を計算(終値 and 9月)
rates = []
for y in years:
    before = df_nikkei.query(f'データ日付=="{y}/09/01"').iloc[0]['終値']
    after = df_nikkei.query(f'データ日付=="{y+1}/09/01"').iloc[0]['終値']
    rate = after / before
    rates.append(rate)

print("日経平均株価日付,前年同月比,年度,極性値")
for i, (year, rate) in enumerate(zip(years, rates)):
    business_year = pol_scores[i]['year']
    pol = pol_scores[i]['sum']
    print(f"{year+1}/09/01,{rate:.3f},{business_year},{pol:.0f}")

日経平均株価日付,前年同月比,年度,極性値
2015/09/01,1.075,2014,10309
2016/09/01,0.946,2015,4696
2017/09/01,1.237,2016,8300
2018/09/01,1.185,2017,3208
