- HTTP(Hypertext Transfer Protocol)  
    要求と応答を交換するウェブクライアントとウェブサーバーのための仕様  
- HTML(Hypertext Markup Language)  
    応答のプレゼンテーションの書式  
- URL(Uniform Resource Locator)  
    サーバーとサーバー上のリソースを位置に表現する方法

ウェブはクライアントサーバーシステムになっている  
クライアントはサーバーに要求を送り(リクエスト)を送り、TCP/IP接続を開設し、HTTPを介してURLその他の情報を送り、応答(レスポンス)を受け取る  

最もよく知られたウェブクライアントはウェブブラウザで、様々な方法で要求を送ることができる  
アドレスバーにURLを入力したり、ウェブページのリンクを手動でクリックしで送る場合もある  
返されてくるデータはHTMLドキュメント、JavaScriptファイル、CSSファイル、イメージなどのウェブサイトの表示に使われるものが多いが、実際には表示用のデータに限らず、どのようなデータでも送ることができる

# 9.1  ウェブクライアント

## 9.1.2  Pythonの標準ウェブライブラリ

In [1]:
import urllib.request as ur

In [2]:
url = "http://raw.githubusercontent.com/koki0702/introducing-python/master/dummy_api/fortune_cookie_random1.txt"

In [3]:
conn = ur.urlopen(url)

In [4]:
print(conn)

<http.client.HTTPResponse object at 0x0000021FA2315F88>


標準ライブラリの urllib.request をインポートする  
requestの urlopen 関数に実際のURLを渡すことで、リモートサーバーへのTCP/IP接続を開設、HTTPResponse オブジェクトを返す

In [5]:
data = conn.read()

In [6]:
print(data)

b'You will be surprised by a loud noise.\\r\\n\\n[codehappy] http://iheartquotes.com/fortune/show/20447\n'


HTTPResponseオブジェクトの read メソッドを使うことで、ウェブページからのデータを受け取ることができる

In [7]:
conn.status

200

HTTPResponseオブジェクトの status アトリービューとにはHTTPステータスコードが入っている接続状況が入っている  
- 1xx(情報)  
    サーバーは要求を受け取ったが、クライアントに対して知らせるべき追加情報がある  
- 2xx(成功)  
    要求は正しく機能している。200以外の成功コードには使い情報が含まれている  
- 3xx(リダイレクト)  
    リソースが移動しているので、応答はクライアントに対して新しいURLを返す  
- 4xx(クライアントエラー)  
    クライアントサイドに問題がある。404(見つからない)などが有名  
- 5xx(サーバーエラー)  
    500は汎用のエラーコードで、502(不正なゲートウェイ)はウェブサーバーとバックエンドアプリケーションサーバーの間の接続に問題があるときに返される

In [8]:
print(conn.getheader("Content-Type"))

text/plain; charset=utf-8


ウェブサーバーは好みの形式でデータを送り返すことができる  
データ形式は、HTTP応答ヘッダーのContent-Typeで指定されている  
HTTPResponseオブジェクトの getheader メソッドにヘッダー名を入れることで指定されている内容を取得できる  
text/plainはMIMEタイプ(ファイルの種類を示す情報)で、ただのテキストということになる

In [9]:
for key, value in conn.getheaders():
    print(key.ljust(30), value)

Connection                     close
Content-Length                 99
Content-Type                   text/plain; charset=utf-8
Cache-Control                  max-age=300
Content-Security-Policy        default-src 'none'; style-src 'unsafe-inline'; sandbox
ETag                           "b5376c69f703fe889df5526e797b01c8d647f5713bf7eb55ffdafb9be242efbe"
Strict-Transport-Security      max-age=31536000
X-Content-Type-Options         nosniff
X-Frame-Options                deny
X-XSS-Protection               1; mode=block
Via                            1.1 varnish (Varnish/6.0)
X-GitHub-Request-Id            670C:4803:2C914E:2FF48C:5F729247
Accept-Ranges                  bytes
Date                           Tue, 29 Sep 2020 02:09:00 GMT
Via                            1.1 varnish
X-Served-By                    cache-tyo19924-TYO
X-Cache                        MISS, MISS
X-Cache-Hits                   0, 0
X-Timer                        S1601345341.642737,VS0,VE291
Vary                       

HTTPResponseの getheaders メソッドを使うことですべてのHTTP応答ヘッダーを構文解析し、辞書にして返してくれる

## 9.1.3  標準ライブラリを越えて

In [10]:
import requests

In [11]:
url = 'http://raw.githubusercontent.com/koki0702/introducing-python/master/dummy_api/fortune_cookie_random2.txt'

In [12]:
resp = requests.get(url)

In [13]:
resp

<Response [200]>

In [14]:
print(resp.text)

I know that there are people who do not love their fellow man, and I people like that!
    -- Tom Lehrer, Satirist and Professor
    [codehappy] http://iheartquotes.com/fortune/show/21465



In [15]:
resp.headers

{'Connection': 'keep-alive', 'Content-Length': '165', 'Content-Type': 'text/plain; charset=utf-8', 'Cache-Control': 'max-age=300', 'Content-Security-Policy': "default-src 'none'; style-src 'unsafe-inline'; sandbox", 'ETag': 'W/"32125d7518ed78392fd5cebe024ddbe33a46d6771675c19f29f0d9aed08e90ce"', 'Strict-Transport-Security': 'max-age=31536000', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'deny', 'X-XSS-Protection': '1; mode=block', 'Via': '1.1 varnish (Varnish/6.0), 1.1 varnish', 'Content-Encoding': 'gzip', 'X-GitHub-Request-Id': 'EDDC:168A:B4070:CC3AD:5F729248', 'Accept-Ranges': 'bytes', 'Date': 'Tue, 29 Sep 2020 02:09:19 GMT', 'X-Served-By': 'cache-tyo19931-TYO', 'X-Cache': 'MISS, MISS', 'X-Cache-Hits': '0, 0', 'X-Timer': 'S1601345359.795568,VS0,VE273', 'Vary': 'Authorization,Accept-Encoding, Accept-Encoding', 'Access-Control-Allow-Origin': '*', 'X-Fastly-Request-ID': 'eb9aca0d0a7420cc0616308146732139d8348afd', 'Expires': 'Tue, 29 Sep 2020 02:14:19 GMT', 'Source-Age': '0'}

外部ライブラリの requests モジュールはurllib.requestよりも簡単に使うことができる  
まずrequestsモジュールをインポートし、requestsのget関数にURLを渡して Responseオブジェクトを作る  
Responseオブジェクトの text を使うことでテキストを、headers を使うことでHTTPヘッダーを取得できる

# 9.2  ウェブサーバー

ウェブフレームワークとはウェブサイトを作成するための機能を提供するもので、ルーティング(URLを解析してサーバー関数呼び出しを行う)、テンプレート(動的に情報を組み込めるHTMLファイル)、デバッグなどが含まれている  
Pythonベースのウェブフレームワークは多数ある

## 9.2.1  Pythonによるもっとも単純なウェブサーバー

`$ python -m http.server`

と、pythonでhttp.serverを呼び出すことで、Pythonによる飾りっ気のないHTTPサーバーが実行される  
問題がなければ初期ステータスメッセージが表示される

`Serving HTTP on :: port 8000 (http://[::]:8000/) ...`

:: の部分は任意のTCPアドレスという意味で、ウェブクライアントはサーバーがどのようなアドレスでもアクセスできる  
この状態だとカレントディレクトリからの相対パスでファイルを要求すればファイルが返されるようになっている  

`http://localhost:8000`

とウェブブラウザで入力すると、カレントディレクトリのファイル一覧が返される  
そしてサーバーは次のようなアクセスログ行を表示する  

`::1 - - [02/Jul/2020 13:22:05] "GET / HTTP/1.1" 200 -`  

上の行は次のように解釈できる  
- ::1  
    クライアントのIPアドレス
- ひとつ目の-  
    リモートユーザー名(分かった場合)  
- ふたつ目の-  
    ログインユーザー名(必須とされている場合)
- [02/Jul/2020 13:22:05]  
    アクセス日時  
- "GET / HTTP/1.1"  
    ウェブサーバーに送られたコマンド  
    ・ GET : HTTPメソッド  
    ・ / : 要求されたリソース(ルートディレクトリ)  
    ・ HTTP/1.1 : HTTPのバージョン  
- 200  
    ウェブサーバーが返してきたHTTPステータスコード
    
ファイルをクリック、もしくはhttp://localhost:8000/pydata/catlogo.pngと打ち込むことで  
ファイルの画像が返されたり、アクセスログが残されたりする

`::1 - - [02/Jul/2020 13:38:51] "GET /pydata/catlogo.png HTTP/1.1" 200 -`

デフォルトのポート番号は8000だが

`$ python -m http.server 9999`

とすると、ポート番号を変更することができる  

`Serving HTTP on :: port 9999 (http://[::]:9999/) ...`

## 9.2.2  WSGI

ウェブの初期の時代にクライアントがウェブサーバーに外部プログラムを実行させ、その結果を受け取れるようにするCGI(Common Gateway Interface)というものが作られた  
CGIはクライアントから送られてきた入力引数を受け取り、サーバーを介して外部プログラムに渡すこともできた  
しかし、それらのプログラムは個々のクライアントアクセスごとに新たに起動されていて、ごく小さなプログラムでも起動にはかなりの時間がかかりスケーラビリティ(システムの規模に応じて柔軟に対応できる度合いのこと)がなかった

起動時の遅れを防ぐために、ウェブサーバーには言語インタープリタ(人間に分かりやすい高水準プログラミング言語（高級言語）で書かれたコンピュータプログラムを、コンピュータが解釈・実行できる形式に変換しながら同時に少しずつ実行していくソフトウェア)が組み込まれるようになった  
Apacheは、mod_phpモジュール内でPHP、mod_perlモジュール内でPerl、mod_python内でPythonを実行するようになった

Pythonウェブ開発は、Pythonアプリケーションとウェブサーバーの間の普遍的なAPIであるWSGI(Web Server Gateway Interface)が定義されてから飛躍的に発展した  
ここで取り上げるPythonウェブフレームワーク、ウェブサーバーはどれもWSGIを使っている

## 9.2.3  フレームワーク

HTTPとWSGIの細部はウェブサーバーが処理するが、実際にサイトのためのPythonコードを書くときはウェブフレームワークを使う  
ウェブフレームワークは、少なくともクライアントからの要求とサーバーの応答を処理する  
さらに以下の機能の一部または全部を提供することもある  
- ルーティング : URLを解析し、対応するサーバーファイルかサーバーのPythonコードを見つける
- テンプレート : サーバーサイドのデータをHTMLページに流し込む
- 認証と権限付与 : ユーザー名、パスワード、パーミッション(許可)を処理する
- セッション : ユーザーがウェブサイトに来ている間、一時的なデータストレージを維持管理する

## 9.2.4  Bottle

BottleはひとつのPythonファイルだけから作られているので非常に試しやすく、デプロイも簡単

In [1]:
# python - pyworks\bottle1.py
from bottle import route, run

@route("/")
def home():
    return "It isn't fancy, but it's my home page"

run(host="localhost", port=9999)

Bottle v0.12.18 server starting up (using WSGIRefServer())...
Listening on http://localhost:9999/
Hit Ctrl-C to quit.

127.0.0.1 - - [29/Sep/2020 11:14:56] "GET / HTTP/1.1" 200 37


上のコードを bottle.py として保存する  
まず bottle モジュールから route と run 関数をインポートする  
route はデコレータとして使うことでURLと直後の関数を対応付けることができ、上では"/"(ホームページ)をhome関数が処理するようにしている  
run関数はbottleに組み込まれているPythonによるテストウェブサーバーを実行する  
bottleプログラムを使うときに必ず必要ではないが、テスト起動する際に役立つ  
上ではhostとport番号を指定している  
そして `$ python bottle.py` とファイルの場所に移動して実行すると上のようなものが返される  
http://localhost:9999 をウェブ上で入力することで return 文のところを表示してくれる

\# index.html  
My <b>new</b> and <i>improved</i> home page!!!

In [None]:
# python3 - pyworks\bottle2.py
from bottle import route, run, static_file

@route("/")
def main():
    return static_file("index.html", root=r".\pyworks")

run(host="localhost", port=9999)

Bottle v0.12.18 server starting up (using WSGIRefServer())...
Listening on http://localhost:9999/
Hit Ctrl-C to quit.



上のhtmlコードをindex.htmlとして、Pythonのコードをbottle2.pyとして保存したとする  
今度は関数内を書き換えて新しくインポートした static_file 関数を使っている  
static_fileにファイル名を渡すことで、rootの場所にあるindex.htmlファイルを要求することができる

In [4]:
# python3 - pyworks\bottle2.py
from bottle import route, run, static_file

@route("/")
def home():
    return static_file("index.html",root=r".\pyworks")

@route("/echo/<thing>")
def echo(thing):
    return f"Say hello to my little friend : {thing}!"

run(host="localhost", port=9999)

Bottle v0.12.18 server starting up (using WSGIRefServer())...
Listening on http://localhost:9999/
Hit Ctrl-C to quit.



上のPythonコードをbottle3.pyとして保存したとする  
新しい関数としてechoを追加しているが、URLを介して文字列の引数を取得し、その文字列を利用してウェブページを作成することをしている  
まずデコレータのrouteに "/echo/<thing\>" を渡すことでURLの/echo/の後に文字列が続いた場合にこの関数が呼ばれるようになる  
<thing\>のように<>で囲んだ部分に入った文字列は引数として関数に渡すという意味になる  
作成した関数に渡された引数を上ではテキストとして表示している  
試しにbottle3.pyを実行後に http://localhost:9999/echo/Kuma をウェブ上に入力すると`Say hello to my little friend : Kuma!`と表示される

In [2]:
import requests

In [6]:
resp = requests.get("http://localhost:9999/echo/Kumagae")

In [7]:
resp.text

'\n    <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">\n    <html>\n        <head>\n            <title>Error: 404 Not Found</title>\n            <style type="text/css">\n              html {background-color: #eee; font-family: sans;}\n              body {background-color: #fff; border: 1px solid #ddd;\n                    padding: 15px; margin: 15px;}\n              pre {background-color: #eee; border: 1px solid #ddd; padding: 5px;}\n            </style>\n        </head>\n        <body>\n            <h1>Error: 404 Not Found</h1>\n            <p>Sorry, the requested URL <tt>&#039;http://localhost:9999/echo/Kumagae&#039;</tt>\n               caused an error:</p>\n            <pre>Not found: &#039;/echo/Kumagae&#039;</pre>\n        </body>\n    </html>\n'

requestsモジュールと組み合わせることでbottle3.pyが起動中の間は、作成されたURLを使って文章を取り出すこともできる

bottleには上で説明してきた以上の機能があり、特にrun関数を使ったときに debug をTrueにするとHTTPエラーが起きた時にデバックページを移動で作成してくれたり、reloader をTrueにするとPythonコードを変更したときに自動でウェブページを再ロードしてくれたりする

## 9.2.5  Flask

FlaskはBottleと同じくらい簡単に使えるが、Facebook認証やデータベース統合など、本格的なウェブ開発で役に立つ様々な拡張を備えている  
以降のFlaskの説明はpyworks内にflaskディレクトリを作成して説明する

In [8]:
# python3 - pyworks\flask\flask1.py
from flask import Flask

app = Flask(__name__, static_folder=r".pyworks\flask", static_url_path="")

@app.route("/")
def home():
    return app.send_static_file("index.html")

@app.route("/echo/<thing>")
def echo(thing):
    return thing

app.run(port=9999)

 * Serving Flask app "__main__" (lazy loading)
 * Environment: production
   Use a production WSGI server instead.
 * Debug mode: off


 * Running on http://127.0.0.1:9999/ (Press CTRL+C to quit)


Flaskの静的ファイル(HTMLファイルで作った普通のホームページのこと)のデフォルトホームディレクトリはstaticで、そのディレクトリのファイルに対するURLも/staticで始まってしまう  
そのため、static_folder でホームディレクトリをindex.htmlのあるpyworksディレクトに移動、URLのプレフィックス(接頭語,127.0.0.1の部分)も空文字列にして、/というURLがindex.htmlファイルとマッピングされるようにしている

run関数の中でdebugをTrueにするとデバッグが有効になると同時に再ロードも有効になる(bottleでは別々扱いだった)

In [9]:
app

<Flask '__main__'>

Flask関数に渡した__name__はFlaskオブジェクトにつく名前で上では__name__にすることで__main__という名前を付けている  
このFlaskオブジェクトをつかって、関数のデコレータ(@Flask_obj.route)、起動(Flask_obj.run)を行っている

カレントディレクトリにtemplatesディレクトリを作成する

templatesフォルダ内に次のようなflask2.htmlを作成したとする  
`<html\>
 <head\>
 <title\>Flask2 Example</title\>
 </head\>
 <body\>
 Say hello to my little friend: {{thing}}
 </body\>
 </html\>`

In [None]:
# python3 - flask2.py
from flask import Flask, render_template

app = Flask(__name__, static_folder=r".\flask",template_folder=r".\flask\templates")

@app.route("/")
def home():
    return app.send_static_file_("index.html")

@app.route("/echo/<thing>")
def echo(thing):
    return render_template("flask2.html", thing=thing)

app.run(port=9999)

templatesフォルダのHTMLファイルを読み込み、{{thing}}にユーザーがURLに入れた文字列が入るようにする  
そのためにはtemplatesフォルダの外に上のコードを書くことでできる  
Flaskをインポートするときに同時に render_template 関数をインポートする  
Flaskオブジェクトを作成するときに template_folder を指定して、templates ディレクトリのある位置を指定している(カレントディレクトリにtemplatesフォルダがある場合は指定する必要はない)  
@Flask_obj.routeの<thing\>に入っている文字列を次の関数echoに渡す  
echo関数のreturn文に render_template 関数を呼び、templatesフォルダ内のHTMLファイル名を渡し、HTMLファイル内の{{thing}}部分にecho関数に渡せれたthingを当てはめるために thing=thing (左がHTML内のthing、右が関数内のthing)とすることで、HTML内の{{thing}}にURLの文字列が渡されることになる

flask2.pyのファイルがある場所をカレントディレクトリとして、  
`$ python flask2.py`  
を起動して、http://127.0.0.1:9999/echo/kuma とすると、`Say hello to my little friend: kuma` と表示される

URLに2つ以上の引数を渡してウェブページに表示する方法はいくつかある

まずtemplatesディレクトリにflask3.htmlという名前で下のコードを追加する  
`<html\>
 <head\>
 <title\>Flask Example</title\>
 </head\>
 <body\>
 Say hello to my little frind: {{thing}}.
 Alas, it just destroyed {{place}}!
 </body\>
 </html\>`  
このthingとplaceに文字列を追加するようにしたい

次の方法は単純なURL自体を拡張する方法になる

In [None]:
# python3 - flask3a.py
from flask import Flask, render_template

app = Flask(__name__, static_folder=r".\flask", template_folder=r".\flask\templates")

@app.route("/")
def home():
    return app.send_static_file("index.html")

@app.route("/echo/<thing>/<place>")
def echo(thing, place):
    return render_template("flask3.html", thing=thing, place=place)

app.run(port=9999)

上のように@Flask_obj.routeに/<thing\><place\>のように複数の文字列を引数をして受け取るようにすればできる  
その時は render_templateに渡す引数はHTMLファイル名と渡したい文字列の数だけの定義を渡す必要がある  
flask3a.pyを起動した後に http://127.0.0.1:9999/echo/kuma/Tokyo とURLを入力すれば  
`Say hello to my little frind: kuma. Alas, it just destroyed Tokyo!`と表示される

引数はflaskの request.args.get 関数を渡すことでもできる  

In [None]:
# python3 - flask3b.py
from flask import Flask, render_template, request

app = Flask(__name__, static_folder=r".\flask", template_folder=r".\flask\templates")

@app.route("/")
def home():
    return app.send_static_file("index.html")

@app.route("/echo/")
def echo():
    thing = request.args.get("thing")
    place = request.args.get("place")
    return render_template("flask3.html", thing=thing, place=place)

app.run(port=9999)

get関数を使うには request をflaskからインポートする必要がある  
@Flask_obj.routeに渡す引数には上のように他のURLと区別できるだけのURLを渡すだけでよく、thingやplaceなどを指定する必要がなくなる  
そのため関数にも引数を渡す必要がなくなる  
関数内でそれぞれ入れたい文字列を定義するが、そのために request.args.get 関数を使い、URL内で指定したい文字列を渡す  
それを変数で受け取り、いつも通りreturn文の中で render_template にHTMLファイルと文字列の定義をすることでできる  
flask3b.pyを起動した後に http://127.0.0.1:9999/echo/?thing=kuma&place=Tokyo とURLを入力することができる  
URLで `?キーワード引数1=文字列1&キーワード引数2=文字列2&...`という風に、？のあとにキーワード引数を＝でつないで＆で定義する部分を分ければ複数の文字列をそれぞれのキーワードに渡すことができる

In [None]:
# python3 - flask3c.py
from flask import Flask, render_template, request

app = Flask(__name__, static_folder=r".\flask", template_folder=r".\flask\templates")

@app.route("/")
def home():
    return app.send_static_file("index.html")

@app.route("/echo/")
def echo():
    kwargs = {}
    kwargs["thing"] = request.args.get("thing")
    kwargs["place"] = request.args.get("place")
    return render_template("flask3.html", **kwargs)

app.run(port=9999)

上のように request.args.get で取得した文字列をキーワード引数をキーとした辞書に格納し、render_template に \*\*辞書名という形にすることで、キーワード引数の定義をまとめてしてもらうこともできる  
基本的なことは上のflask3b.pyとあまり変わらない

## 9.2.6  Python以外のウェブサーバー

今まで使ってきたウェブサーバーは単純なものだった  
本番システムではもっと高速なウェブサーバーのもとでPythonを実行をしなければならない  
選択肢は主に次の2つになる  
- mod-wsgiモジュール付きのapache
- uWSGIアプリケーション付きのnginx  

apacheはおそらくもっとも広く使われている  
nginxは安定していてメモリ使用量が少ない

### 9.2.6.1  Apache

apacheウェブサーバーでもっとも優れているWSGIモジュールは mod_wsgi だ  
mod_wsgiモジュールは、PythonコードをApacheプロセスの中で実行することも、Apacheと通信する別プロセスで実行することもできる

### 9.2.6.2  nginx

nginxウェブサーバーは、組み込みPythonモジュールを持っていないが、uWSGIなどの個別のWSGIサーバーと通信することができる  
この組み合わせ非常に高速で、きめ細かく設定できるPythonウェブ開発プラットフォームになっている

## 9.2.7  その他のフレームワーク

- django
- web2py
- pyramid
- turbogears
- wheezy.web

### 9.2.7.1  その他のPythonウェブサーバー

次に示すのは、apacheやnginxのように動作をするPythonベースの独立したWSGIサーバーで、同時に送られてきた要求を処理するために、複数のプロセス、スレッドを使う
- uwsgi
- cherrypy
- pylons  

次に示すのは、使うプロセスが一つでも、ひとつの要求のためにブロックされないようにしてあるイベントベースサーバーである
- tornado
- gevent
- gunicorn

# 9.3  ウェブサービスとオートメーション

## 9.3.1  webbrowserモジュール

In [10]:
import antigravity

実際に使うことはないが antigravity をインポートすると秘密裏に webbrowser モジュールが呼び出され https://xkcd.com/353/ のページを表示することができる

In [11]:
import webbrowser

In [12]:
url = "http://www.python.org/"

In [13]:
webbrowser.open(url)

True

webbrowser モジュールの open 関数にURLを渡すとそのブラウザを開いてくれる

In [14]:
webbrowser.open_new(url)

True

webbrowser モジュールの open_new 関数にURLを渡すと新しいウィンドウに表示してくれる

In [15]:
webbrowser.open_new_tab(url)

True

ブラウザがタブをサポートしている場合、webbrowser モジュールの open_new_tab 関数にURLを渡すと新しいタブに表示してくれる

## 9.3.2  Web API と REST

データはウェブページ内以外では手に入らないことが多い  
データにアクセスしたければ、ウェブページを介してページにアクセスしてそれを読まなければならない  
しかし製作者がサイトに変更を加えると、データの位置やスタイルが以前と変わってしまう場合がある  

ウェブページを公開するのではなく、Web API(アプリケーション・プログラミング・インターフェース)を介してデータを提供することもできる  
クライアントは、URLに対して要求を送り、ステータスとデータが格納された応答を手に入れるという形でデータにアクセスする  
得られるデータはHTMLページではなく、プログラムが操作しやすいJSON、XMLなどの形式で返される

REST(Representational State Transfer)はパラメータを指定して特定のURLにHTTPでアクセスすると、XMLやJSONなどで記述されたメッセージが送られてくるようなシステム、および、そのような呼び出し規約（「RESTful API」と呼ばれる）のことを指す  
多くの製品がRESTインターフェース、RESTfulインターフェースをサポートすると称されている  
RESTfulサービスはHTTPの動詞を決まった方法で使う  
HTTP動詞には次のものがある  
- HEAD : リソースデータについての情報ではなく、リソースについての情報を取得する
- GET : サーバーからリソースのデータを取得する疑問符？の後に一連の要求が続いているようなURLはGET要求になっていることが多い
- POST : サーバーのデータを更新する
- PUT : 新しいリソースを作る
- DELETE : 削除する

RESTfulクライアントは、HTTP要求ヘッダーを使ってサーバーに一つ以上のContent-Typeを要求できる  
たとえば、RESTインターフェースをもつ複雑なサービスは、JSON文字列による出力を選ぶことができる

## 9.3.3  JSON

JSONはウェブクライアントとサーバーのデータ交換に特に適している

## 9.3.4  クロールとスクレイピング

ウェブを自動的にフェッチ(自動的にデータを取ってくること)していくれるプログラムをクローラーとかスパイダーと呼ぶ  
これらを使ってリモートウェブサーバーからコンテンツを取り出し、スクレイパー(データを探し出すもの)でコンテンツを解析することをスクレイピングと呼ぶ  
クロールとスレイピングを同時に行いたいなら Scrapy を使うとよい

## 9.3.5  BeautifulSoupによるHTMLのスクレイピング

ウェブサイトからHTMLデータをすでに取り出してあり、そこからデータを抽出したいならBeautifulSoupが役に立つ

In [None]:
# python3 - links.py
def get_link(url):
    import requests
    from bs4 import BeautifulSoup as soup
    result = requests.get(url)
    page = result.text
    doc = soup(page)
    links = [element.get("href") for element in doc.find_all("a")]
    return links

if __name__ == "__main__":
    import sys
    for url in sys.argv[1:]:
        print("links in", url)
        for num, link in enumerate(get_links(url), start=1):
            print(num, link)
        print()

上のコードを links.py という名前で保存し、`$ python links.py http://boingboing.net` とコマンドプロンプトで起動すると  
`Links in http://boingboing.net  
 1 https://boingboing.net  
 2 https://boingboing.net/sub  
 3 https://boingboing.net/search  
 4 https://store.boingboing.net  
 5 javascript:void(0)  
 6 https://boingboing.net/blog  
 7 https://bbs.boingboing.net  
 8 https://bbs.boingboing.net/faq  
 9 https://store.boingboing.net`  
と、検索するリンクとほかのページに飛ぶリンク先のURL部分を取り出してくれる

HTMLを解析するためには be4 モジュールの BeautifulSoup 関数をつかうことでできる(上ではsoupとしてインポート)  
そのBeautifulSoup関数にHTMLのデータを渡すことでBeautifulSoupオブジェクトが作成され解析ができるようになる  
今回はHTMLのデータを取得するために requests モジュールを使っている  
BeautifulSoupオブジェクトの find_all メソッドを使って<a\>の部分をすべて探し出し、返ってきたElementオブジェクトをさらに get メソッドを使ってaタグの中のhref属性の値を取得して、リストにまとめて返すようになっている  
if文の中では上で取得したリストを一つずつ取り出し番号を付けて出力している