## CSVファイルの内容をSQLiteに格納
日足と出来高のデーターをcsv ファイルがある。

![image.png](attachment:image.png)

python で扱いやすいように SQLiteファイルに次に示すテーブルを作成し、csvファイルの内容を格納します。

```
CREATE TABLE `t1605` (
    `id`    INTEGER,
    `Date`    TEXT,
    `Open`    INTEGER,
    `Hight`    INTEGER,
    `Low`    INTEGER,
    `Close`    INTEGER,
    `Volume`    INTEGER,
    `adjClose`    INTEGER,
    PRIMARY KEY(`id`)
);
```
SQLiteファイルには、全銘柄分のTable を用意し tXXXX というTable名にした


![image.png](attachment:image.png)

CSVファイルには、**調整後終値** というフィールドもありますがraw_prices テーブルには入れま
せん。このフィールドの情報は「2.6 分割と併合への対応」で使います。

あるディレクトリに存在するXXXX.T.csv（XXXXは銘柄コード）という名前の全てのCSVファイルの情報をraw_pricesテーブルに格納するには、以下のようなプログラムを作成すればよいでしょう。

In [2]:
import os
import csv
import requests
import datetime
import glob

import sqlite3

# データベースファイルのパス
dbpath = 'stock_sql/raw_prices.sqlite'

# データベース接続とカーソル生成
connection = sqlite3.connect(dbpath)
# 自動コミットにする場合は下記を指定（コメントアウトを解除のこと）
# connection.isolation_level = None
cursor = connection.cursor()


# 対象銘柄を格納したファイル

f1 = glob.glob(os.path.join("stock_data/", "*.csv"))

i = 0
for path in f1:
    file_name = os.path.basename(path)
    code = file_name.split('.')[0]

    if not os.path.exists(path):
        continue

    # データベースの作成
    # CREATE
    cursor.execute("DROP TABLE IF EXISTS t{}".format(code))
    cursor.execute(
        "CREATE TABLE IF NOT EXISTS t{} (id INTEGER PRIMARY KEY, Date TEXT, Open INTEGER, High INTEGER, Low INTEGER, Close INTEGER, Volume INTEGER, adjClose INTEGER)"
        .format(code))

    # エラー処理（例外処理）
    try:

        csv_file = open(path, "r", encoding="ms932", errors="", newline="")
        f2 = csv.DictReader(csv_file, delimiter=",", doublequote=True,
                   lineterminator="\r\n", quotechar='"', skipinitialspace=True)

        baseDate = datetime.datetime.strptime('1983/1/1', "%Y/%m/%d")

        counter = 0
        startDate = ""
        endDate = ""
        for line in f2:
            strDate = line["Date"]
            tmpDate = datetime.datetime.strptime(strDate, "%Y/%m/%d")

            # 値を用意
            id = (tmpDate - baseDate).days
            Date = strDate
            Open = int(float(line["Open"]))
            High= int(float(line["Hight"]))
            Low = int(float(line["Low"]))
            Close = int(float(line["Close"]))
            Volume = int(line["Volume"])
            adjClose = int(float(line["Adj Close"]))

            # INSERT
            sql = "INSERT INTO t{} VALUES ({}, '{}', {}, {} ,{}, {}, {}, {})".format(code, id, Date, Open, High, Low, Close, Volume, adjClose)
            cursor.execute(sql)

            #for log
            if len(startDate) == 0:
                startDate = Date
            endDate = Date
            counter += 1
 
        # 保存を実行（忘れると保存されないので注意）
        connection.commit()

        # print log
        print("{} について - > {} ～ {} まで {} 行の Table が出来ました".format(code, startDate, endDate, counter ))

    except sqlite3.Error as e:
        print('sqlite3.Error occurred:', e.args[0])
        connection.commit()
 
# 接続を閉じる
connection.close()

OperationalError: unable to open database file

処理をしている様子です　1301.csv ～ 9997.csv まで 3時間くらいかかりました

![o0933082414402378292.gif](attachment:o0933082414402378292.gif)


## 2.6 分割 と 併合 への 対応

![image.png](attachment:image.png)

上図は、DeNA （銘柄コード:2432）の2009年6月から2010年12月までの終値をプロットしたもので す。2010年5月26日に755000円だった株価が次の日の5月27日には2661円になっています。大暴落 です。5月26日以前に、DeNAの株を持っていた人は、みんな大損したのでしょうか？
 
もちろんそんなことはなくて、これは株式分割が行われた ためです。DeNAは、2010年の5月31日を基準日として1株を300株とする株式分割を行っていま す。5月26日と27日の株価のギャップは、この株式分割により生じています。
 
このような株式分割または併合は、それなりの頻度で行われています。たとえば、2018年の1 ～3月が基準日である株式分割は73件、株式併合は11件も行われています。毎日の生の株価を相手にデーター分析を行うと、分割・併合が行われたタイミングで、株の価値はほとんど変化して いないのに暴落・暴騰したと判断を誤ってしまいます。

株価の分析を行う場合は、分割・併合前の株価を分割・併合後の1株の価値に変換した値を用いるとよいでしょう。この調整が行われた株価、特に終値のことを調整後終値と呼びます。たと えば、先ほどのDeNAの例でいえば5月26日以前の1株は、5月27日以降の300株に相当するため、5 月26日以前の株価をすべて300分の1に調整した値を使います。

![image.png](attachment:image.png)

上図は、同じ区間のDeNAの調整後終値をプロットしたものです。これを見ると、5月 27日で暴落したわけではなく、むしろ6月にかけては株価は上昇傾向にあったことが見てとれま す。
 
## 2.6.1 分割・併合データーの必要性
調整後の株価を得る方法はふたつあります。
すでに調整が行われたあとの株価を入手する
調整前の株価データーに対して分割・併合の情報を適用して調整後株価を得る
日足CSVファイルには、調整後終値というフ ィールドが存在します。よって、このCSVのデーターの修正後終値の値のみを使う限り、株式の 併合・分割については特に気にする必要はありません。
 
一方で、日々、その日その日の株価の情報を蓄積していく方法を使っている場合、過去の株価 を参照する場合は株式の併合・分割を考慮する必要があります。そのためには、分割・併合がい つどのような割合で行われたかの情報が必要です。
 
また、分割・併合に関する情報は、株価だけでなくアナリストの予想などの株価を含む昔の投 資情報を利用して分析を行う場合にも必要となります。〇月×日の記事に2000円という株価が記 載されていたとき、その2000円が今日の株価の2000円と同じ意味をもつのかは、分割・併合の情 報がないとわかりません。


 ## 2.6.2　分割・併合データーの取得と保存
１．調整前終値と調整後終値から求める
分割・併合がいつ、どのような割合で行われたかは、調整前終値と調整後終値のデーターがあ れば、そこから求めることができます。
 
例えば、DeNAの日足CSVの2010年5月 26日・27日近辺のレコードは以下のようになっています。

```csv
日付,始値,高値,安値,終値,出来高,調整後終値
: 略
2010/5/28,2767,2773,2669,2720,1851800,2720
2010/5/27,2541,2710,2451,2661,2278400,2661
2010/5/26,765000,774000,721000,755000,7962,2516.42
2010/5/25,785000,787000,751000,757000,6885,2523.08
```

連続する2日間の調整前終値の変化率と調整後終値の変化率が異なる場所が、分割・併合が行< われた場所で、ふたつの変化率の比が分割・併合の割合です。

分割・併合の権利確定日の調整前終値をRi・調整後終値をAi、翌営業日の権利落ち日の調整前 終値をRi+1・調整後終値をAi+1、分割・併合の割合をdとおくと、次の等式がなりたちます。

![image.png](attachment:image.png)


この式に、DeNAの5月26日、27日の調整前終値・調整後終値を代入すると、次のようになり

![image.png](attachment:image.png)

これを計算すると、d≒300となるので5月26日を権利確定日として1株が300分割されたことが
分かります。なお、丸め誤差などによりぴったり計算は300にはなりません。

 

分割・併合の情報は次のdivide_union_dataのようなテーブルを作成しSQLiteに格納するとよ
いでしょう。DeNAの1:300の分割の場合、beforeに1をafterに300を入れます。

```
CREATE TABLE divide_union_data (
  code TEXT, -- 銘柄コード
  date_of_right_allotment TEXT, -- 権利確定日
  before REAL, -- 分割・併合前株数
  after REAL, -- 分割・併合後株数
  PRIMARY KEY(code, date_of_right_allotment)
);
```

日足CSVファイルが、ある特定のディレクトリに保存されている場合に、そのディレクトリ内のすべてのCSVファイルから各銘柄の分割・併合の情報を生成してdivide_union_dataテーブルに格納するPythonコードは以下のように書けるで しょう。なお、このコード内のgenerate_from_csv_dir関数は 前述と同じです。実際のプ ログラムでは、CSVファイルから日足データーをSQLiteに格納するときに合わせて、分割・併合 情報も格納するようにするとよいでしょう。

In [None]:
import csv
import glob
import datetime
import os
import sqlite3


def generater_devide_union_from_csv_file(csv_file_name):
    with open(csv_file_name, encoding="shift_jis") as f:
        reader = csv.reader(f)
        next(reader)  # 先頭行を飛ばす

        def parse_recode(row):
            d = datetime.datetime.strptime(row[0], '%Y/%m/%d').date() #日付
            r = float(row[4])  # 調整前終値
            a = float(row[6])  # 調整後終値
            return d, r, a

        _, r_n, a_n = parse_recode(next(reader))

        for row in reader:
            d, r, a = parse_recode(row)

            if(a <= 0.):
                continue
            if(r <= 0.):
                continue

            rate = (a_n * r) / (a * r_n)

            if(rate ==  0.):
                r_n = r
                a_n = a
                continue

            if abs(rate - 1) > 0.005:
                if rate < 1:

                    before = round(1 / rate, 2)
                    after = 1
                else:
                    before = 1
                    after = round(rate, 2)
                yield d, before, after

            r_n = r
            a_n = a




def all_csv_file_to_divide_union_table(db_file_name, csv_file_dir):

    f1 = glob.glob(os.path.join(csv_file_dir, "*.csv"))


    try:

        connection = sqlite3.connect(db_file_name)
        cursor = connection.cursor()

        for path in f1:
            file_name = os.path.basename(path)
            code = file_name.split('.')[0]

            print("{} の集計をはじめます".format(code))
            counter = 0
            for date_of_right_allotment, before, after in generater_devide_union_from_csv_file(path):

                sql = "INSERT INTO divide_union_data VALUES ({}, '{}', {}, {})".format(code, date_of_right_allotment,before, after)
                cursor.execute(sql)

                print("{}, {}, {}".format(date_of_right_allotment, before, after))
                counter += 1

            # 保存を実行（忘れると保存されないので注意）
            if(counter > 0):
                connection.commit()

        # 保存を実行（忘れると保存されないので注意）
        connection.commit()

    except sqlite3.Error as e:
        print('sqlite3.Error occurred:', e.args[0])
        connection.commit()


if __name__ == "__main__":
    all_csv_file_to_divide_union_table("prices.sqlite", "../data/")

実行すると下図の画面になります

![image.png](attachment:image.png)


たとえば

>7938 の集計をはじめます
1991-03-26, 1.1, 1
2017-09-27, 1, 10.0

は、リーガルコーポレーション（7938） が 
1991-03-26 に 株数を 1.1 → 1 に併合 

![image.png](attachment:image.png)

2017-09-27 に 株数を 1 → 10 に分割

![image.png](attachment:image.png)

したことを表します。

こういうテーブルができました

![image.png](attachment:image.png)