<a href="https://colab.research.google.com/github/tomonari-masada/course2024-nlp/blob/main/KAKEN_API.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 科研費データをAPIで取得する方法

## 利用規約
* https://support.nii.ac.jp/sites/default/files/cinii/webapi-term.pdf
  * 「作成アプリケーション等によって，研究所及び第三者のサービスの利用者に影響を与えるような短時間で大量のアクセスを行わないこと。」と書いてあるので、注意しましょう。

## 開発者としての登録（アプリケーションIDの取得）
* まず、開発者としての登録が必要です。
* 下記の場所でAPI利用登録をし、アプリケーションIDを取得します。
  * https://support.nii.ac.jp/ja/cinii/api/developer
* APIを使うときは、このアプリケーションIDを、検索語などと一緒に検索システムに渡します。

## キーワード検索の結果を取得し解析するPython の実装例

In [None]:
import urllib
import requests
from bs4 import BeautifulSoup

url = "https://kaken.nii.ac.jp/opensearch/"

# 次の行には自分のアプリケーションIDを書くこと。
my_appid = "xxxxxxxxxxxx"

* 検索語など、APIのパラメータを適当に設定する。
  * どんなパラメータがあるかについては下記文書を参照。
    * https://bitbucket.org/niijp/kaken_definition/src/master/KAKEN_API_parameters_document_Ja.pdf

In [None]:
# 適当に検索語を設定する。
query = "生成AI 医療"

params = {
    "appid": my_appid,
    "kw": query,
    "st": 1,
    "rw": 20,
}

* HTMLを取得する。
  * ここではrequestsライブラリのgetを使っている。

In [None]:
res = requests.get(f"{url}?{urllib.parse.urlencode(params)}")
soup = BeautifulSoup(res.text, "html.parser")

* 戻ってきたHTMLファイルの解析は、自分で適当に実施する。
  * 下記はあくまでひとつの例。

In [None]:
elems = soup.select("#result-list > div > div.listContainer > ul > li")
for elem in elems:
  project = elem.find_all("a", class_="link-page")[0].text
  print(f"研究課題 {project}")
  for tr in elem.find_all("tr"):
    th_text = tr.find_all("th")[0].text.strip()
    td_text = tr.find_all("td")[0].text.strip()
    td_text = " ".join([subtext.strip() for subtext in td_text.split("\n")])
    print(th_text, td_text)
  print("-"*60)