# Webアプリに入る前に知っておくべきデータに関する前提知識

### 目標：APIを理解して使いこなし、そのデータを扱えるようになる事

目次
https://docs.google.com/document/d/1crmJ0DjAl77ab9aK8K9DshfQu25fS3EWXCC0m4AajZo/edit


## 3全体像：楽天のAPIから情報を取得する

### 3.1.おさらい：APIとは？

APIは、Application Programming Interfaceの略であり、プログラムやアプリケーション開発に必要な機能やデータを提供するインターフェースを指します。

例として、スマートフォンにはカメラアプリや音楽アプリ、地図アプリなどが存在します。これらのアプリケーションは、スマートフォンのOS（Operating System）が提供するAPIを用いて、カメラやGPS機能といったハードウェアやソフトウェアにアクセスしています。

APIはアプリケーションが他のアプリケーションやシステムと連携する手段であり、開発者が他のアプリケーションやサービスと容易に連携できるように設計されています。APIにはWeb API、データベースAPI、ソーシャルメディアAPIなど、多様な種類があります。

オンラインランキングやアカウントログイン機能の開発の際、GoogleやFacebookなどのサービスが提供するAPIを利用してアカウント情報を取得することができます。

APIは現代のソフトウェア開発において極めて重要な役割を担っており、様々なアプリケーションやサービスで利用されています。

今回取り上げる楽天APIを利用すれば、ホテルの価格比較サイトなどで活用することが可能です。

### 3.2.実際にやる事

SimpleHotelSearchにアクセスして、沖縄の那覇市のホテル情報を取得します。

<img src="img/img032.jpg">

参照：https://www.ebisumart.com/blog/ec-api/

In [6]:
import requests

#ライブラリrequestsを使うためにimportすることで機能を使う事が出来ます。
# アクセス先と認証と要求するデータの内容を指定します。
 #アクセス先を指定する必要があるので、アクセス先をREQUEST_URLという変数に代入しておきます。
# アクセスを許可されたユーザーという事を証明するために、APP_IDに認証IDを代入しておきます。
# アクセス先と認証を用意できたので、なんのデータが欲しいかをparamsに代入しておきます。
# paramsでの指定方法はAPIの作成者によって変わりますので、事前に確認しておく必要があります。

REQUEST_URL = 'https://app.rakuten.co.jp/services/api/Travel/SimpleHotelSearch/20170426' 
APP_ID = "1034235205250283151"

params = {
    "format":"json",
    "largeClassCode": "japan",
    "middleClassCode":"okinawa",
    "smallClassCode":"nahashi",
    "applicationId":APP_ID
}


# アクセス先と認証と要求するデータの内容を指定出来たので、requestsのgetメソッドを使ってアクセスします。
# その結果をresに代入します。

res = requests.get(REQUEST_URL, params)

# 欲しいデータはresのjsonに格納されているので、res.json()をresultに代入しておきましょう。
# これでAPIで取得したデータはresultに代入されます。

result = res.json()

In [7]:
# 実際にresultに格納されたデータを見てみましょう。
result

{'pagingInfo': {'recordCount': 419,
  'pageCount': 14,
  'page': 1,
  'first': 1,
  'last': 30},
 'hotels': [{'hotel': [{'hotelBasicInfo': {'hotelNo': 182884,
      'hotelName': 'ホテルリソルトリニティ那覇',
      'hotelInformationUrl': 'https://img.travel.rakuten.co.jp/image/tr/api/hs/dQ4dX/?f_no=182884',
      'planListUrl': 'https://img.travel.rakuten.co.jp/image/tr/api/hs/cHNRi/?f_no=182884&f_flg=PLAN',
      'dpPlanListUrl': 'https://img.travel.rakuten.co.jp/image/tr/api/hs/TDZXm/?noTomariHotel=182884',
      'reviewUrl': 'https://img.travel.rakuten.co.jp/image/tr/api/hs/RmfmX/?f_hotel_no=182884',
      'hotelKanaName': 'ほてるりぞるとりにてぃなは',
      'hotelSpecial': '2022年4月1日開業。国際通りまで徒歩圏の絶好の立地。大浴場を備え、上質なくつろぎをご提供。',
      'hotelMinCharge': 4200,
      'latitude': 94341.93,
      'longitude': 459641.13,
      'postalCode': '900-0029',
      'address1': '沖縄県',
      'address2': '那覇市旭町7',
      'telephoneNo': '098-863-9269',
      'faxNo': '098-863-9279',
      'access': 'ゆいレール「旭橋駅」出入口2より徒歩3分',
      'pa

ブラウザでもrequestsがアクセスしてる先をブラウザでも見てみましょう

In [8]:
# requestsがどんなURLでリクエストしたかをres.urlで確認出来ます。
res.url

'https://app.rakuten.co.jp/services/api/Travel/SimpleHotelSearch/20170426?format=json&largeClassCode=japan&middleClassCode=okinawa&smallClassCode=nahashi&applicationId=1034235205250283151'

res.urlで出力したURLを整理してみると

https://app.rakuten.co.jp/services/api/Travel/SimpleHotelSearch/20170426?  
format=json  
&largeClassCode=japan  
&middleClassCode=okinawa  
&smallClassCode=nahashi  
&applicationId=1011509919335500197  

となり、?の後ろ側にリクエストしたいパラメーターがついている事がわかります。

これは楽天トラベルに書いてある

https://app.rakuten.co.jp/services/api/Travel/SimpleHotelSearch/20170426?  
applicationId=[アプリID]  
&format=xml  
&largeClassCode=japan  
&middleClassCode=akita  
&smallClassCode=tazawa  

と要求してるパラメータの順番が違うだけで、同じ事を要求の仕方をしているのがわかると思います！

requestでは?の後ろのパラメータを

In [3]:
# paramの設定

params = {
    "format":"json",
    "largeClassCode": "japan",
    "middleClassCode":"akita",
    "smallClassCode":"tazawa",
    "applicationId":APP_ID
}

という形で格納し、requests.get(REQUEST_URL, params)で１つのリクエスト付きURLにしています。

よってURLの後ろにあるパラメータとrequestsのparamsが同じ変数を指定している事がわかりますね！

URL属性以外にもrequests.Responseクラスには以下のような属性がある（一部）。

| 属性 | 説明 |
| --- | --- |
| text | レスポンスの内容（content属性）を文字列にデコードしたもの |
| content | レスポントの内容（バイト列）。テキスト表現ではなくバイナリデータを扱うときにはこちらを使用する |
| encoding | content属性をtext属性にデコードする際に使用したエンコーディング |
| apparent_encoding | https://pypi.org/project/charset-normalizer/もしくはhttps://pypi.org/project/chardet/によって推測されたエンコーディング。encoding属性の値とapparent_encoding属性の値が異なることもある |
| headers | レスポンスヘッダーを大文字小文字の区別をしない辞書の形式で格納したもの |
| url | リクエストしたURL。リダイレクトが発生した場合には、リダイレクト先のURL |
| history | get関数でリクエストしたURLがリダイレクトされた場合に、リダイレクトされた結果を示すrequests.Responseクラスのインスタンスを古いものから順に並べたリスト |
|  |  |

requests.Responseクラスのインスタンスが持つ属性（一部）  
参照：https://atmarkit.itmedia.co.jp/ait/articles/2209/27/news035.html

では、http経由でデータを取得する所から演習しましょう。

### 3.3.http経由でデータを取得

#### http通信のリクエストをしてみよう

リクエストをするためのライブラリをインポートしておきましょう！

In [4]:
#ライブラリrequestsを使うためにimportすることで機能を使う事が出来ます。

インポートすることによってrequestsの機能を使う事ができます。
ではrequestsを使って、ブラウザのようにhtmlが取得できるかどうか確認してみましょう！
requests.get("ここに接続したいサイトのURL")とすることでhtmlが取得できます。

<img src="img/img025.png">

参照：https://www.itmanage.co.jp/column/about-http-https/

ブラウザと同じように取得できているかどうかは、ブラウザの検証機能にある、ページソース表示で確認できます！

In [5]:
#アクセスして取得したサイトデータをresに代入しておきます。今回はTech0のサイトにアクセス


In [6]:
#resに代入しておいたサイトデータprintでかくにんします。


#これを得られた結果とブラウザのページソース表示で得られるhtmlを比較して、ブラウザと同じ機能であることを確認しましょう！

#### 楽天からデータを取得してみましょう

楽天側が用意した仕様に沿ったアクセス先とリクエストパラメータを設定していきましょう！
アクセス先とAPIキーとパラメーターを設定します

In [7]:
# アクセス先と認証IDと要求するデータを指定します。



In [8]:
# param

requests.get(アクセス先, リクエストパラメータ)を指定して、APIサーバーにデーターを要求しましょう！

In [9]:
# resにリクエストして得られた結果を代入します。


リクエストが成功したか、ステータスの数字で確認しましょう！
- 200なら正常に通信完了
- 404ならアクセス先が間違えています。
- その他の400番台はパラメータが間違えています！

In [10]:
#変数だけを指定する事でprint()を省略できます。


通信の結果、返ってきたデータの中身を変数resultにjsonとして格納してから確認してみましょう！
res.json()とすることで、レスポンスデータの中にあるjsonデータをしてすることができます。

In [11]:
# resultにresの中にあるjsonデータを代入します。


# 代入したデータを見てみましょう。


## 4.全体像：取得したデータをエクセルのように扱う

### 4.1.実際にやる事

APIから得られたjsonで得られたデータを確認します。  
jsonだと人間にはわかりずらく、データ加工が難しいため、pandasを使ってエクセルのように変換します。

In [12]:
# result['hotels'][0]['hotel'][0]['hotelBasicInfo']['hotelName']　を変数を扱う事で、どのホテルのデータでも見れるようにしましょう。
# i = 0として１つ目のホテルの情報を見てみましょう。

# printで表示

### 4.2.データの確認と扱い方

取得しただけではデータを活用できないので、取得したデータを扱っていきます。  

全体像としては
- 取得したjsonデータを確認
- jsonでは確認しずらく、扱いずらいので、pandasというライブラリを使って扱いやすくする

#### 取得したデータの中身を詳しく確認してみましょう。

※取得したデータの全体像

<img style="background-color:#fff;" src="img/img034.png">
<img style="background-color:#fff;" src="img/img035.png">

参照：https://jsoncrack.com/editor

取得したデータの内容は result['hotels'][ここ行の場所]['hotel'][0]['hotelBasicInfo'] に格納されており、  
result['hotels'][0]['hotel'][0]['hotelBasicInfo']とすることで、１つ目に格納されているホテルの詳細を取得する事ができます

In [13]:
# データの中身を紐解いていく

どんなホテルの詳細情報項目があるか確認してみましょう！  
result['hotels'][0]['hotel'][0]['hotelBasicInfo'].keys()で確認することができます。

In [14]:
# result['hotels'][0]['hotel'][0]['hotelBasicInfo']になんの項目が含まれているかをkeys()で確認できます。


hotelNameという項目があるので、ホテルの名前などを取得してみましょう

In [15]:
# ホテル名の取得

In [16]:
#URLの取得

In [17]:
# 最低料金

In [18]:
# 平均レビュー

#### データを扱いやすくするために可視化する

##### pandasを使ったデータの可視化

APIで得られたデータをpandasを用いてエクセルのような見やすいデータに変換してみましょう！

ライブラリのpandasをインポートしましょう！
as pdとつけて、短くpdとコーディングできるようにします。

In [19]:
#pandasのインポート

データをpandasのDataFrameに格納してみましょう！  
また、DataFrameとはどのような変換をしてくれるか確認してみましょう。


In [20]:
# １つめのホテルのデータをhotel_infoに代入します。


# pd.DataFrame(ここに変換したいデータ,index=[ここにpandasに認識してほしい行数indexの番号])を代入します。


indexの数字を変数iにして、他のホテル情報も確認してみましょう！  
iの数字を変えると取得できるホテルを変更できる事も確認してみましょう

In [21]:
#index番号の指定。ここの数字を変えると格納されるデータが変わります。

# その番号に対応するホテル情報を取得し、hotel_infoに代入


# pd.DataFrame(ここに変換したいデータ,index=[ここにpandasに認識してほしい行数indexの番号])を代入します。


個別のデータを格納できたので、データ全体を格納してみましょう。

そのためにAPIで取得したホテルのデータ数を確認してみましょう！
len(確認したい配列)でデータ数を確認できます！

In [22]:
# len(ここに配列に含まれる要素)で配列に含まれる要素の数を取得できます。


30あるホテルのデータをfor文を使ってまとめてみましょう！

In [None]:

#空のpandasデータフレームを用意して、生成した1つ１つのデータフレームをこのdfに結合して１つにします。


# iにrange(0,len(result['hotels']))である0～29の数字が１つずつ代入されて実行されます。
# 今回は30のデータとわかっているのでfor i in range(0,30)でも問題ないですが、30とは限らないのでデータ園生数であるlen(result['hotels'])を使います。

#格納する配列をhotel_infoに代入する
#hotel_infoに代入されたホテルのデータをデータフレームに変換します。

#dfに結合して１つにまとめます。

まとめたデータをdisplay(df) で確認してみましょう！

In [23]:
# dfの表示

df.columnsで項目の確認ができます！  
これはresult['hotels'][0]['hotel'][0]['hotelBasicInfo'].keys()で取得した値と一致します

In [24]:
#カラムの表示

##### pandasを使ったデータ整理

まとめたデータから名前と値段と評価だけを取り出してみましょう！  
１つのカラムを取得する時は欲しいカラム名である"カラム名"を代入したdf["カラム名"]で取得できましたが、  
複数選択する場合は、の代わりに配列である["カラム名1","カラム名2","カラム名3"]を代入してdf[["カラム名1","カラム名2","カラム名3"]]とする必要があります。

In [25]:
#[ 'hotelName', 'hotelMinCharge', 'reviewAverage']を表示

欲しいデータに絞って出力してみましょう！  
pandasの機能であるto_csvを使うとcsvファイルとして保存ができます

In [26]:
# dfの'hotelName', 'hotelInformationUrl', 'hotelMinCharge', 'telephoneNo', 'reviewAverage'を指定して、
# ここにデータフレーム.to_csv(ここにファイル名,データフレームで認識されているindex数字も出力するかどうか)で保存できます。
# このデータではindexの数字は必要ないので、index = Falseにします。


今度は保存したcsvをdf2として読み込んでみましょう！

In [27]:
# pd.read_csv(ここにファイル名)でロードして、df2に代入します。


まとめたデータから評価が4.5以上のホテルを検索してみましょう！

In [28]:
# df[ ここにそれぞれの行に対して出力するかどうかの条件文　]でデータを抽出できます。
# 今回は評価が4.5以上なので、df['reviewAverage'] > 4.5を条件とします。


### 課題

検索して絞ったデータをdf2に格納して、ホテル名と評価とレビューだけ出力してみましょう！

In [29]:
# レビュー4.5以上を絞り込む
# ホテル名と評価とレビューだけ出力

- 同じ要領で楽天トラベル以外の楽天市場のデータを取得してください。
- たどったフローを箇条書きまたは図式化してTAに提出してチェックうけてください
- 発展
    - 他のサービスのAPIで自分で構造化データまで取得してください。
    - それを人に説明してください