(sec:request)=
# HTTPリクエスト

ウェブ上でデータのやりとりをするためにはプロトコルと呼ばれるデータのやりとりの仕方を定めた規約に従う必要がある。HTTPはHyper Text Transfer Protocolの略で、HTMLで記述された文書をウェブ上でやりとりするためのプロトコルである。

皆さんが、Google ChromeやFirefox等のウェブブラウザを使ってウェブページを閲覧しているときには、裏で、このHTTPに従ったデータのやりとりがなされている。

このやりとりは基本的にクライアント (ウェブページを閲覧する側のコンピュータ)から送信されたHTTPリクエストを基に、サーバ (ウェブページを配信する側のコンピュータ)がHTTPレスポンスと呼ばれる応答を返す、という処理が行われている。

### リクエストとレスポンスの内容

リクエストとレスポンスの内容はプログラムを書かずとも、ウェブブラウザで確認することができる。以下ではGoogle Chromeを使った場合の確認方法を紹介する。

まずはウェブブラウザを開き、[Googleのトップページ](https://www.google.co.jp)にアクセスしてみよう。

ウェブページが開いたら、画面左上の「︙」ボタンをクリックして、設定メニューを開く。この設定メニューの中から「その他のツール」にある「ディベロッパーツール」を開こう。

```{image} ./imgs/check_http.jpg
:align: center
:width: 60%
:class: with-border
```

ディベロッパーツールが開いたら、いくつかある項目の七から「Network」を選び、ページをリロードしよう。すると、ディベロッパーツールに以下のような情報が表示されるはずだ。

```{image} ./imgs/check_http_2.jpg
:align: center
:width: 60%
:class: with-border
```

この情報をよく見てみると、「Name」のリストの先頭に「`www.google.co.jp`」という項目があるので、これをクリックする。すると、その右側にどのようなリクエストが送られて、どのようなレスポンスが返ってきているのかが表示される。これらはそれぞれ、ディベロッパーツールの中で「Request Headers」という項目と「Response Headers」という項目から確認できる。

これらのヘッダ情報には、非常に多くの情報が含まれているが、リクエストヘッダであれば、ウェブページのURLやページを取得する方法 (GETとPOSTがあるが、詳細は後述する)などが含まれており、レスポンスヘッダであれば、

## urllib

Pythonでウェブページのデータをサーバーから取得するための標準ライブラリに`urllib`がある。

In [1]:
import urllib

url = "https://www.google.co.jp"
headers = {
    "User-Agent": "Mozilla/5.0",
}
request = urllib.request.Request(url, headers=headers)
with urllib.request.urlopen(request) as response:
    print("URL :", response.geturl())
    print("Code :", response.getcode())
    print("Content-Type :", response.info()["content-type"])
    body = response.read()

URL : https://www.google.co.jp
Code : 200
Content-Type : text/html; charset=UTF-8


In [2]:
url = "https://iss.ndl.go.jp/api/opensearch"
headers = {
    "Accept-Charset": "UTF-8",
    "User-Agent": "Mozilla/5.0",
}

data = {
    "title": "桃太郎",
    "cnt": "10",
}
data = urllib.parse.urlencode(data)
request = urllib.request.Request(url + "?" + data, headers=headers, method="GET")
with urllib.request.urlopen(request) as response:
    print("URL :", response.geturl())
    print("Code :", response.getcode())
    print("Content-Type :", response.info()["content-type"])
    body = response.read()

URL : https://ndlsearch.ndl.go.jp/api/opensearch?title=%E6%A1%83%E5%A4%AA%E9%83%8E&cnt=10
Code : 200
Content-Type : text/xml;charset=UTF-8


In [3]:
print(body.decode("utf-8"))

<rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:openSearch="http://a9.com/-/spec/opensearchrss/1.0/" xmlns:dcndl="http://ndl.go.jp/dcndl/terms/" xmlns:dcmitype="http://purl.org/dc/dcmitype/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" version="2.0">
  <channel>
    <title>桃太郎 - 国立国会図書館サーチ OpenSearch</title>
    <link>https://ndlsearch.ndl.go.jp/api/opensearch?title=%E6%A1%83%E5%A4%AA%E9%83%8E&amp;cnt=10</link>
    <description>Search results for title=桃太郎 cnt=10</description>
    <language>ja</language>
    <openSearch:totalResults>3889</openSearch:totalResults>
    <openSearch:startIndex>1</openSearch:startIndex>
    <openSearch:itemsPerPage>10</openSearch:itemsPerPage>
    <item>
      <title>アートな時間 舞台 門出二人桃太郎 : 勘三郎家の幼い2人が初舞台 一門ゆかりの演目を豪華配役で</title>
      <link>https://ndlsearch.ndl.go.jp/books/R000000004-I027835561</link

In [4]:
url = "https://httpbin.org/post"
headers = {
    "Accept-Charset": "UTF-8",
    "User-Agent": "Mozilla/5.0",
}

data = {
    "q": "桃太郎",
}
data = urllib.parse.urlencode(data).encode("ascii")
request = urllib.request.Request(url, data, headers=headers, method="POST")
with urllib.request.urlopen(request) as response:
    print("URL :", response.geturl())
    print("Code :", response.getcode())
    print("Content-Type :", response.info()["content-type"])
    body = response.read()

URL : https://httpbin.org/post
Code : 200
Content-Type : application/json


In [5]:
print(body.decode("utf-8"))

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "q": "\u6843\u592a\u90ce"
  }, 
  "headers": {
    "Accept-Charset": "UTF-8", 
    "Accept-Encoding": "identity", 
    "Content-Length": "29", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0", 
    "X-Amzn-Trace-Id": "Root=1-65c6317d-2ebbd1787c12b86919c33a67"
  }, 
  "json": null, 
  "origin": "111.90.99.16", 
  "url": "https://httpbin.org/post"
}

