英語論文から単語を抽出&登場回数順にソートし、さらに意味も載った単語帳まで作ってみた。
I extracted the words from the English papers
and sorted them by the number of times they appeared in the paper,
and even made a vocabulary book with the meanings of the words!
詳しい説明(Qiita) https://qiita.com/mkunu/items/9b59e77de964a109e46b
- 論文pdfを収集。
- 各pdfをそれぞれtxtに変換。
- 作った各txtを1つにまとめる。
- txt内の各単語の登場回数を調べる。
- Mac内蔵辞書を使って単語帳(登場回数順)の作成。
- 各pdfをそれぞれtxtに変換。
- 大量のPDFファイルを、pdfminerを使ってtextファイルに変換する
https://qiita.com/monchy-monchy/items/85ded85423be6108f05b - PDFMinerでPDFから日本語テキストを抽出する
https://qiita.com/korkewriya/items/72de38fc506ab37b4f2d
- 作った各txtを1つにまとめる。
- 同上
- txt内の各単語の登場回数を調べる。
- Mac内蔵辞書を使って単語帳(登場回数順)の作成。
- Python Tips: Mac の辞書アプリを Python から利用したい
https://www.lifewithpython.com/2016/07/python-use-mac-dictionary-app.html