# データのダウンロード

In [1]:
# 開始日と終了日を指定(YYYY-MM-DD)
START_DATE = "2019-04-03"
END_DATE = "2022-07-23"

# ファイルの保存先を指定　※コラボでGoogleドライブをマウントした状態を想定
SAVE_DIR = "./original_data/"

# リクエスト間隔を指定(秒)　※サーバに負荷をかけないよう3秒以上を推奨
INTERVAL = 3

# URLの固定部分を指定
FIXED_URL = "http://www1.mbrace.or.jp/od2/K/"

# 時間を制御する time モジュールをインポート
from time import sleep

# HTTP通信ライブラリの requests モジュールをインポート
from requests import get

# 日付を扱うための datetime モジュールをインポート
from datetime import datetime as dt
from datetime import timedelta as td

# フォルダ(ディレクトリ)を作成する makedirs モジュールをインポート
from os import makedirs

# 開始合図
print("作業を開始します")

# ファイルを格納するフォルダを作成
makedirs(SAVE_DIR, exist_ok=True)

# 開始日と終了日を日付型に変換して格納
start_date = dt.strptime(START_DATE, '%Y-%m-%d')
end_date = dt.strptime(END_DATE, '%Y-%m-%d')

# 日付の差から期間を計算
days_num = (end_date - start_date).days + 1

# 日付リストを格納する変数
date_list = []

# 日付リストを生成
for i in range(days_num):
    # 開始日から日付を順に取得
    target_date = start_date + td(days=i)

    # 日付型を文字列に変換してリストに格納(YYYYMMDD)
    date_list.append(target_date.strftime("%Y%m%d"))

# URL生成とダウンロード
for date in date_list:

    # URL生成
    yyyymm = date[0:4] + date[4:6]
    yymmdd = date[2:4] + date[4:6] + date[6:8]

    variable_url = FIXED_URL + yyyymm + "/k" + yymmdd + ".lzh"
    file_name = "k" + yymmdd + ".lzh"

    # ダウンロード
    r = get(variable_url)

    # 成功した場合
    if r.status_code == 200:
        f = open(SAVE_DIR + file_name, 'wb')
        f.write(r.content)
        f.close()
        print(variable_url + " をダウンロードしました")

    # 失敗した場合
    else:
        print(variable_url + " のダウンロードに失敗しました")

    # 指定した間隔をあける
    sleep(INTERVAL)

# 終了合図
print("作業を終了しました")

作業を開始します
http://www1.mbrace.or.jp/od2/K/201904/k190403.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190404.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190405.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190406.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190407.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190408.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190409.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190410.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190411.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190412.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190413.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190414.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190415.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190416.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190417.lzh をダウンロードしました
http://www1.mbrace.or.jp/od2/K/201904/k190418.lzh をダウンロードしました

# データの解凍

In [2]:
# ダウンロードしたLZHファイルが保存されている場所を指定
LZH_FILE_DIR = "./original_data/"

# 解凍したファイルを保存する場所を指定
TXT_FILE_DIR = "./text_data/"

# 正規表現をサポートするモジュール re をインポート
import re

# LZH形式のファイルを解凍するパッケージ lhafile をインポート
import lhafile

# オペレーティングシステムの機能を利用するパッケージ os をインポート
import os

# 開始合図
print("作業を開始します")

# ファイルを格納するフォルダを作成
os.makedirs(TXT_FILE_DIR, exist_ok=True)

# LZHファイルのリストを取得
lzh_file_list = os.listdir(LZH_FILE_DIR)

# ファイルの数だけ処理を繰り返す
for lzh_file_name in lzh_file_list:

    # 拡張子が lzh のファイルに対してのみ実行
    if re.search(".lzh", lzh_file_name):

        file = lhafile.Lhafile(LZH_FILE_DIR + lzh_file_name)

        # 解凍したファイルの名前を取得
        info = file.infolist()
        name = info[0].filename

        # 解凍したファイルの保存
        open(TXT_FILE_DIR + name, "wb").write(file.read(name))

        print(TXT_FILE_DIR + lzh_file_name + " を解凍しました")

# 終了合図
print("作業を終了しました")

作業を開始します
./text_data/k170729.lzh を解凍しました
./text_data/k200510.lzh を解凍しました
./text_data/k210703.lzh を解凍しました
./text_data/k190805.lzh を解凍しました
./text_data/k190811.lzh を解凍しました
./text_data/k200504.lzh を解凍しました
./text_data/k210717.lzh を解凍しました
./text_data/k170715.lzh を解凍しました
./text_data/k160506.lzh を解凍しました
./text_data/k170701.lzh を解凍しました
./text_data/k160512.lzh を解凍しました
./text_data/k210918.lzh を解凍しました
./text_data/k220603.lzh を解凍しました
./text_data/k180419.lzh を解凍しました
./text_data/k170926.lzh を解凍しました
./text_data/k220617.lzh を解凍しました
./text_data/k210924.lzh を解凍しました
./text_data/k190622.lzh を解凍しました
./text_data/k180425.lzh を解凍しました
./text_data/k210930.lzh を解凍しました
./text_data/k180814.lzh を解凍しました
./text_data/k210501.lzh を解凍しました
./text_data/k200712.lzh を解凍しました
./text_data/k150823.lzh を解凍しました
./text_data/k210515.lzh を解凍しました
./text_data/k200706.lzh を解凍しました
./text_data/k180828.lzh を解凍しました
./text_data/k160704.lzh を解凍しました
./text_data/k170517.lzh を解凍しました
./text_data/k210529.lzh を解凍しました
./text_data/k160710.lzh を解凍しました

# データの加工

In [4]:
# テキストファイルが保存されている場所を指定
TXT_FILE_DIR = "./text_data/"

# CSVファイルを保存する場所を指定
CSV_FILE_DIR = "./result/"

# CSVファイルの名前を指定
CSV_FILE_NAME = "results.csv"

# CSVファイルのヘッダ情報を指定
CSV_FILE_HEADER = "タイトル,日次,レース日,レース場,レース回,\
3連単_組番,3連単_払戻金,3連複_組番,3連複_払戻金,2連単_組番,2連単_払戻金,2連複_組番,2連複_払戻金\n"

# 正規表現をサポートするモジュール re をインポート
import re

# オペレーティングシステムの機能を利用するパッケージ os をインポート
import os

# 開始合図
print("作業を開始します")

# CSVファイルを格納するフォルダを作成
os.makedirs(CSV_FILE_DIR, exist_ok=True)

# CSVファイルを作成しヘッダ情報を書き込む
csv_file = open(CSV_FILE_DIR + CSV_FILE_NAME, "w", encoding="shift_jis")
csv_file.write(CSV_FILE_HEADER)
csv_file.close()


# テキストファイルからデータを抽出し、CSVファイルに書き込む関数
def get_data(text_file):
    # CSVファイルを追記モードで開く
    csv_file = open(CSV_FILE_DIR + CSV_FILE_NAME, "a", encoding="shift_jis")

    # テキストファイルからデータを抽出
    for contents in text_file:

        # 文字列「競争成績」を検索してタイトル・日次・レース日・レース場を取得
        # rは正規表現でraw文字列を指定するおまじない
        if re.search(r"競走成績", contents):
            # 1行スキップ
            text_file.readline()

            # タイトルを取得
            line = text_file.readline()
            title = line[:-1].strip()

            # 1行スキップ
            text_file.readline()

            # 日次、レース日、レース場を取得
            line = text_file.readline()
            day = line[3:7].replace(' ', '')
            date = line[17:27].replace(' ', '')
            stadium = line[62:65].replace('　', '')

        # 文字列「払戻金」を検索してレース結果を取得
        if re.search(r"払戻金", contents):

            line = text_file.readline()

            # 空行まで処理を繰り返す = 12レース分を取得
            while line != "\n":
                results = line[10:13].strip() + "," \
                          + line[15:20] + "," + line[21:28].strip() + "," \
                          + line[32:37] + "," + line[38:45].strip() + "," \
                          + line[49:52] + "," + line[53:60].strip() + "," \
                          + line[64:67] + "," + line[68:75].strip()

                # 抽出したデータをCSVファイルに書き込む
                csv_file.write(title + "," + day + "," + date + "," + stadium + "," + results + "\n")

                # 次の行を読み込む
                line = text_file.readline()

    # CSVファイルを閉じる
    csv_file.close()


# テキストファイルのリストを取得
text_file_list = os.listdir(TXT_FILE_DIR)
#text_file_list = ['B220407.TXT']
# ファイルの数だけ処理を繰り返す
for txt_file_name in text_file_list:

    # 拡張子が txt のファイルに対してのみ実行
    if re.search(".TXT", txt_file_name):

        # テキストファイルを開く
        text_file = open(TXT_FILE_DIR + txt_file_name, "r", encoding="shift_jis")

        # データを抽出する
        get_data(text_file)

        # テキストファイルを閉じる
        text_file.close()

print(CSV_FILE_DIR + CSV_FILE_NAME + " を作成しました")

# 終了合図
print("作業を終了しました")

作業を開始します
./result/results.csv を作成しました
作業を終了しました
