python3.5以上
Ubuntu18.04
pdfminer
bs4
urllib
OMEGA RESULTのウェブサイトから、競技日とセッション()ごとにスタートリストPDFをまるごと取ってくる
- arg1: day{n}を入力。大会4日目なら3
- arg2: sessionを入力。午前競技ならm、午後競技ならe
プログラム10行目のurlHeaderの大会IDを適切なものに書き換える。OMEGAのリザルトページで取得したい大会のURLを開くと全部似たような感じになっていて、なんとなく大会IDがわかる。
カレントディレクトリに対して、./output/pdf/day{n}{session}
保存先ディレクトリは先に作っておいてください
- ex) $ mkdir -p ./output/pdf/day{1..6}{e,m}
3日目のmorningセッションをダウンロード
$ python3 pdfgetter.py 1 m
PDFからスタートリストに関するテキスト情報を取得してレース映像のリネーム用のファイル名を自動生成する
- arg1: textに変換するpdfのファイルパス
ファイル内冒頭に大会名を指定する箇所がある。
変数: gameName
標準出力 + テキストファイル
テキストファイルは./output/text/以下に出力される。
出力フォルダは事前に作っておく。ex) $ mkdir ./output/text
$ python3 convert.py ./output/pdf/day1e/1e_01_Men_Freestyle_400m_Final.pdf
OMEGAのPDFからSEIKOのDAT形式のテキストを標準出力に出力する。データにしたい場合はリダイレクトしてテキストにつなげてください。
- arg1: 変換したいPDFのファイルパス
$ python3 convertResultDat.py ./output/pdf/day1e/1e_01_Men_Freestyle_400m_Final.pdf