# ウェブデータ処理２：WebAPIの活用

画像処理で紹介したような深層学習を使ったアルゴリズムでは、メモリやGPGPUなど高スペックなコンピュータを必要としますが、極めて精度の高い結果を導くことができましたね。   
他にも、マシンのリソースや環境を考えなくてよければ、大規模なデータで高速に計算し、高い精度の結果を導くことのできるアルゴリズムは数多くあります。

アプリケーションを開発する場合は、当然このような高性能のアルゴリズムを使いたいと思いますよね。   
ですが、このようなアルゴリズムは、皆さんのスマートフォンやノートPCでは、スペックが足りなくて動かないかもしれません（例えば深層学習の類はそうなることが多いです）。   
それではどうしたらいいでしょうか？

もしそのアプリの利用を想定しているスマホやノートPCがインターネットにつながっていると想定できるのであれば、
データを高スペックなサーバにインターネット経由で送りつけ、サーバで高度な処理を行った後、
その結果をまたインターネット経由で送り返してもらえばいいです。   
このような機能を実現する仕組みをWeb API (Web Application Programming Interface）と呼びます。   
（もちろん、低スペックマシンでオフラインで動作するようなコンパクトで高性能なアルゴリズムを開発することも重要な課題です！）

Google、Microsoft、Amazon、facebook、IBM、Twitter、Yahoo、docomoなど、Webサービスを提供する大手企業のほとんどはWeb APIを提供しています。   
以下に一例をあげます（リンク先にはWebAPI以外のサービスについても書かれています）。

- [Google Cloud API](https://cloud.google.com/apis/docs/overview?hl=ja&visit_id=637774811093469412-1310531679&rd=1#monitoring-your-usage)
- [Microsoft Azure API Management](https://docs.microsoft.com/ja-jp/azure/api-management/api-management-key-concepts)
- [AWS Amazon API Gateway (WebAPIを構築するサービス）](https://aws.amazon.com/jp/api-gateway/)
- [facebook for developpers](https://developers.facebook.com/)
- [IBM Watson API](https://www.ibm.com/jp-ja/watson)
- [Twitter](https://developer.twitter.com/)
- [Yahoo!
デベロッパーネットワーク](https://developer.yahoo.co.jp/)
- [ドコモAIエージェントAPI](https://www.nttdocomo.co.jp/biz/service/ai_agent_api/)

WebDataProcessing3.ipynbで`pandas-datareader`でオンラインで株価を取得しますが、それもWeb APIの一種です。   

`pandas-datareader`では無料でサービスを利用できましたが、Web APIは基本的に有料のサービスです。   
各社のAPIを利用する場合は、まずそのサイトでアカウントを作成し、場合によってはクレジットカード番号の登録が求められる場合もあります（その場合でも、利用開始後しばらくは無償であったり、一定期間内の利用が一定以内であれば無料、それ以上は利用した分に応じて課金されるような仕組みをとっている場合が多いです）。    
また、無償で利用可能なサイトでは、悪用されないように、個人情報に加え、何のために利用するのかといった説明を記載させ、数日程度の審査を通じてアカウントが発行される場合もあります。   

今回の教材には、TwitterとIBM Watsonのプログラムを載せていますが、これらのプログラムを実行するためには、アカウントの登録が必要で、その際に各社に皆さんの個人情報を登録する必要があります。   
本授業の一環として皆さんの個人情報を企業に渡すことをお勧めすることは本意ではないので、   
**`WebDataProcessing?.ipynb ('?'は1から4の整数)`以外のファイルは今回は実行不要です。**   

一方、`pandas-datareader`のように、無償・アカウント不要でWeb APIサービスを提供してくれているサイトもあります。   
今回はその一つである国立国会図書館サーチ APIを利用させていただくことにしましょう。   
くれぐれもwhileループなどで高頻度でアクセスしないでくださいね！


## 国立国会図書館サーチ API

[国立国会図書館](https://iss.ndl.go.jp/information/api/)は、「検索用API」「ハーベスト用API」「書影API」の3種類のAPIを提供しています。   
同ページによると、2020年7月現在、「(2) 個人・非営利団体等の方＞データ利用により利益を得ない場合」は利用申請は不要とあります。   
規約は変わる可能性があるのでご注意ください。

### 検索用API

検索条件（検索クエリとも呼びます）はqueryで指定しています。   
[国立国会図書館 API仕様の概要](https://iss.ndl.go.jp/information/api/)を参照し、いろいろと変えてみましょう。


In [None]:
import requests
import urllib.parse

# クエリは題名（title)に「東京大学」を含み、2018年以降の本とします
query = urllib.parse.quote('title="web3" AND from="2020"')

# urlにqueryをつないでリクエストを送ります
# 「maximumRecords=10」は、検索結果の書誌情報を10件返してほしいという意味です。
url = 'https://iss.ndl.go.jp/api/sru?operation=searchRetrieve&maximumRecords=10&query='+query
res = requests.get(url)


In [None]:
# 送り返されてきたデータをテキスト形式で表示してみましょう。
# これはXML形式です。
print(res.text)

<?xml version="1.0" encoding="UTF-8"?>
<searchRetrieveResponse xmlns="http://www.loc.gov/zing/srw/">
  <version>1.2</version>
  <numberOfRecords>96</numberOfRecords>
  <nextRecordPosition>11</nextRecordPosition>
  <extraResponseData>
&lt;facets&gt;
  &lt;lst name=&quot;REPOSITORY_NO&quot;&gt;
    &lt;int name=&quot;R000000004&quot;&gt;40&lt;/int&gt;
    &lt;int name=&quot;R100000001&quot;&gt;20&lt;/int&gt;
    &lt;int name=&quot;R100000002&quot;&gt;20&lt;/int&gt;
    &lt;int name=&quot;R100000096&quot;&gt;17&lt;/int&gt;
    &lt;int name=&quot;R100000067&quot;&gt;7&lt;/int&gt;
    &lt;int name=&quot;R000000025&quot;&gt;4&lt;/int&gt;
    &lt;int name=&quot;R100000038&quot;&gt;2&lt;/int&gt;
    &lt;int name=&quot;R000000016&quot;&gt;1&lt;/int&gt;
  &lt;/lst&gt;
  &lt;lst name=&quot;NDC&quot;&gt;
    &lt;int name=&quot;0&quot;&gt;31&lt;/int&gt;
    &lt;int name=&quot;3&quot;&gt;6&lt;/int&gt;
    &lt;int name=&quot;5&quot;&gt;1&lt;/int&gt;
  &lt;/lst&gt;
  &lt;lst name=&quot;ISSUED_DATE&quo

XML形式をそのままでは見づらいので、XMLパーサを使ってパースします。   
ここでは`lxml`というパーサを使います。   
検索結果として、返ってきた10件の本について、その題名（title)、著者（creator, 情報がない可能性がある）、言語（情報がない可能性がある）を出力してみましょう。

In [None]:
from lxml import etree

root = etree.fromstring(res.content)

num = 1
for record in root.findall('.//recordData', root.nsmap):
    print(record.find('recordPosition'))
    print('==== Search Result: '+str(num)+' ================')
    num += 1
    book = etree.fromstring(record.text)
    print("title:" + str(book.find('./{*}title').text)) # 題名
    if book.find(('./{*}creator')) is not None: # 著者名（情報がない可能性がある）
        print("creator:" + str(book.find('./{*}creator').text))
    if book.find(('./{*}language')) is not None: # 著者名（情報がない可能性がある）
        print("language:" + str(book.find('./{*}language').text))


None
title:#熱盛エンタメ(VOL.12)メタバースで進化するライブ配信ビジネスWeb3で目指す世界の実現へ
creator:前田 裕二,武井 保之
language:jpn
None
title:Beyond 5G実現を加速させるWeb3に基づく共創型デジタルツインに関する研究開発
creator:金井 謙治,山崎 託,宮田 純子,金光 永煥,峯 荒夢,森 慎太郎,中里 秀則
language:jpn
None
title:Bitcoinの革新性が導くWeb 3 : cryptoeconomicsという方法論とトラストレス
creator:首藤 一幸
language:jpn
None
title:DAO、DeFi、多種多様なトークン : Web3.0、メタバースが描く金融ビジネス
creator:保木 健次
language:jpn
None
title:Embedded Finance活用が重要に : 既存金融のあり方、見直し迫る可能性も
creator:山本 英生,相川 あずさ
language:jpn
None
title:ICOトークンの発行に係る収益認識
creator:齊藤 洸
language:jpn
None
title:ITの仕事に就いたら「最低限」知っておきたいDXの常識
creator:イノウ著
language:jpn
None
title:Inside USA メタバース、Web3はまだ絵に描いた餅か
creator:山本 康正
language:jpn
None
title:Metaverse, Web3.0の特許情報から見た分析と課題 : 新市場における日本企業の特許分析からみたポジショニングは?
creator:大嶋 洋一
language:jpn
None
title:NFT市場規模は4.7兆円を突破 Web3.0と新規事業のチャンス
language:jpn
