Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[bookmeter_wish] 数学図書館の情報 #2

Open
stepney141 opened this issue May 19, 2022 · 3 comments
Open

[bookmeter_wish] 数学図書館の情報 #2

stepney141 opened this issue May 19, 2022 · 3 comments
Labels
enhancement New feature or request

Comments

@stepney141
Copy link
Owner

  • 数学図書館の蔵書情報をPDFで掲示してもらえることになった
  • PDFをパースして読み込み、蔵書情報の判定機能に追加する
@stepney141 stepney141 added the enhancement New feature or request label May 19, 2022
@stepney141
Copy link
Owner Author

使えそうなライブラリ: https://github.com/lublak/pdfdataextract

@stepney141
Copy link
Owner Author

stepney141 commented May 25, 2022

現在残っている問題

  • 読書メーターから取得できるのは全てISBN-10だが、数学図書室の蔵書リストは原則としてISBN-13で載っている
  • PDFをテキストに変換した際、本来あるべきスペースが消えてISBNの前に日付の数字が繋がってしまう場合がある。この余計な部分を上手く避けて直後のISBNだけにマッチする正規表現が必要
  • 数学図書館の蔵書リストは「中央図書館との重複図書」を除いているため、数学図書館側のOPACも確認して蔵書確認を行う必要がある
    • 週2回、同じOPACへ集中的に500回以上もアクセスしたら色々まずそうなので、アクセス数を削減する必要がある
    • 考えられる方法:「キャッシュをしてOPACの確認頻度を減らす」「そもそもOPACへ所蔵確認しに行く書籍自体を減らす」
    • 書籍のジャンルを取得することができれば理工系図書に限って検索することができるが、実装がめんどくさい...
      • 国会図書館APIあたりでできそうではある

ToDo

  • 正規表現をどうにかする
  • ISBN-10からISBN-13へのコンバータを作り、数学図書室の検索に使用する
  • 数学図書館OPACの確認機能を実装する

@stepney141
Copy link
Owner Author

pdfdataextractをやめてPDF.jsを使うようにしたら、正規表現の問題はなんか解決した

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

1 participant