# WEBフレームワーク（HTTP、Sinatra）

## 初めに

a

## Web

Webを支える最も基本的な技術は、HTTP（Hypertext transfer Protocol）とURI（Uniform Resource Identifier）、そしてHTML（HyperText Markup Language）である。

![](http://yusuke.be/webservice-oneday/images/web_diagram.png)

URIを使えば、世界中のありとあらゆる情報が指し示せる。HTMLはそれらの情報を表現するための文章フォーマットで、それらの情報はHTTPというプロトコルを使って取得したり送信出来る。HTTP、URI、HTMLはそれぞれ単体ではシンプルな技術だ。例えばHTTP 1.1が定義しているメソッドは8つだけで、更にそのうち良く使われるメソッドは5つほどしかない。URIは紙面上に記述できるほど短い文字列だ。HTMLはXMLをもとにした汎用的な文章フォーマットに過ぎない。このシンプルさから、Webでは非常に多くの応用が可能になっている。

Webでは、HTTPというプロトコルでクライアントとサーバが通信するクライアント/サーバのアーキテクチャスタイルを採用している。すなわち、クライアントはサーバにリクエストを送り、サーバはそれに対してレスポンスを返すのである。

![](http://nyumon-info.com/img/we_we_01.png)

クライアント/サーバーの利点は、単一のコンピュータ上で全てを処理するのではなく、クライアントとサーバーに分離して処理できることだ。クライアントとサーバーについてのより詳しい説明は、HTTPの節で行う。

### HTTPとは？
#### HTTP
コンピューター同士が通信をする際の手順や規約などの約束事をプロトコルと言うが、HTTPは、データをWebサーバーとWebブラウザ間でやり取りするために使われるプロトコルである。クライアントからのリクエスト（要求）に対してレスポンス（反応）を返す。  
HTTPは名前こそハイパーテキストの転送用プロトコルだが、実際にはHTMLやXMLなどのハイパーテキストだけでなく、静止画、音声、動画、JavaScriptプログラム、PDFや各種オフィルドキュメントファイルなど、コンピュータで扱えるデータであれば何でも転送できます。

#### HTTPのメリット
ライブラリはプログラミング言語に付属するもの。
プロトコルはOS事態に付属するもの。
どの言語にも対応出来る万能性を持つ。

#### TCP/IP
HTTPはTCP/IPをベースにしています。TCP(Transmission Control Protocol)とIP(Internet Protocol)はインターネットの基盤を構成する重要なネットワークプロトコルである。インターネットのネットワークプロトコルは階層型になっており、以下の左のような図で表される。

![](http://www.infraexpert.com/network/tcpip1.gif)

#### クライアントとサーバー
Webの項目でも説明しましたが、Webはアーキテクチャスタイルにクライアント/サーバーを採用している。すなわち、クライアント(Webブラウザ)が情報を提供するサーバーに接続し、各種のリクエスト(Request、要求)を出してレスポンス(Response、返答)を受け取るのである。このようにHTTPではクライアントが出したリクエストをサーバーで処理してレスポンスを返す。このようなプロトコルのことをリクエスト/レスポンス型(Request-Response Style)のプロトコルと呼ぶ。サーバーでの処理に時間がかかる場合でも、リクエストを出したクライアントはレスポンスが帰るまで待機する。これはHTTPが同期型のプロトコルであるためだ。

#### チェックリスト
* HTTPがベースとしているプロトコルのうち、インターネットの基盤を構成する重要なネットワークプロトコルのことを何と呼ぶか。

### URIとは？
#### REST
RESTとは、Web APIのアーキテクチャスタイルである。アーキテクチャスタイルとは、複数のアーキテクチャに共通する性質、様式、作法あるいは流儀を指す言葉だ。アーキテクチャとは、基本設計や設計思想などを意味している。実際のシステムは具体的なアーキテクチャを持っている。そのアーキテクチャを設計する時に、ただ闇雲に作っていくのではなく、アーキテクチャ設計の指針、作法、流儀、つまりアーキテクチャスタイルを適用するのだ。システムのアーキテクチャを決定する際の羅針盤となるのがアーキテクチャスタイルである。

#### Resource
RESTの概念のひとつにリソース(Resource)がある。RESTを理解するためにはリソースについての理解が不可欠だ。例えば、Webにおけるリソースの例を見てみよう。

* 会津若松の天気予報  
* 会津大学の公式HP  
* 会津若松駅について  
* Twitterのタイムライン  
  
上記はいずれもリソースである。Web上には他にも多様なリソースが存在する。リソースを一言で説明すると、「Web上に存在する、名前を持ったありとあらゆる情報」となる。では、リソースが名前を持つとはどういうことだろうか？  
そもそも、物、人の名前にはある物と他のものを区別して指し示す役割がある。例えば、名前「齊藤智博」は、私自身と他の人を区別する。同姓同名の「サイトウトモヒロ」は別にも居るが、人間はこれくらい曖昧であっても他の要素（名前の漢字、出身地、顔）を比べることで容易に見分けがつくだろう。しかしプログラムの場合は同姓同名を見分けてくれないので、名前は必ず他のものと区別できなければならない。リソースの名前とは、**あるリソースを他のリソースと区別して指し示すためのもの** なのだ。

#### URI
ここまでくれば勘付いた人もいるだろうが、リソースの名前とはURIのことである。
上に挙げた例で考えてみよう。先ほどのリソースは、それぞれ次のようなURIで識別する。

* 会津若松の天気予報  
http://weather.yahoo.co.jp/weather/7/3630.html  
* 会津大学の公式HP  
http://www.u-aizu.ac.jp/
* 会津若松駅の運賃、時刻表  
http://www.aizutetsudo.jp/st_aizu.php
* Twitterのタイムライン  
https://twitter.com/

チェックリストでここまでをまとめてみよう。

#### URI チェックリスト
* リソースとは何か
* 我々が必要とするリソースを、世界中にあるリソースの中から特定するために、リソースは何を持つか

### HTMLとは？
#### HTML (Resource)
前講義資料へ→

### HTTPステータスコード
HTTPにはレスポンスを表すHTTPステータスコードと呼ばれるものが存在し、3桁の数字でWebサーバからのレスポンス結果を表現する。以下のコマンドをターミナル上で実行して、確認してみよう。
```test.sh
curl --head http://www.example.com/
```
ここでコンソールに表示された内容に注目してみると、
```
HTTP/1.1 200 OK
```
と一番上の行に表示されているのが分かる。ここで返されている **200 OK**とは、リクエストが成功し、正常に終了したことを表している。以下でHTTPステータスコードについて説明する。

| ステータスコード| 意味              |
|:----------------|:------------------|
| 1xx             | 処理中            |
| 2xx             | 成功              |
| 3xx             | リダイレクト      |
| 4xx             | クライアントエラー|
| 5xx             | サーバエラー      |

ステータスコードをこのように先頭の数字で分類することで、クライアントは取り敢えず先頭の数字を見ればサーバがどのようなレスポンスを返したのかを理解でき、クライアント側でどのように処理するべきかの大枠を知ることができる。以下、それぞれのステータスコードでよく使われるものを紹介する。

* **200 OK - リクエスト成功**  
*200 OK* はリクエストが成功したことを示します。HTTPメソッドがGETの場合はボディにリソースの表現が入ります。  


* **201 Created - リソースの作成成功**  
*201 Created* はリソースを新たに作成したことを示します。HTTPメソッドがPOSTとPUTの場合にレスポンスとして返ります。


* **301 Moved Permanently - リソースの恒久的な移動**  
*301 Moved Permanently* は、リクエストで指定したリソースが新しいURIに移動したことを示します。古いURIを保ちつつ、新しいURIに移行する際にこのステータスコードを使います。新しいURIは、レスポンスのLocationヘッダに絶対URIとして入ります。
 
 
* **303 See Other - 別URIの参照**  
*303 See Other* は、リクエストに対する処理結果が別のURIで取得できることを示します。典型的にはブラウザからPOSTでリソースを操作した結果をGETで取得する時に使います。
 
 
* **400 Bad Request - リクエストの間違い**  
*400 Bad Request* は、リクエストの構文やパラメータが間違っていたことを示します。例えば、あるサイトでユーザー登録をする際に、設定したパスワードが単純すぎる問いうエラーを返す際などに用いられます。他にも、400 Bad Requestには、他に適切なクライアントエラーを示すステータスコードが存在しない場合にも用います。
 
 
* **401 Bad Request - アクセス権不正**  
*401 Unauthorized* は適切な認証情報を与えずにリクエストを行ったことを示します。レスポンスのWWW-Authenticateヘッダで、クライアントに対して認証方式を伝えます。


* **404 Not Found - リソースの不在**  
*404 Not Found* は、指定したリソースが見つからないことを示します。レスポンスボディにはその理由が入ります。


* **500 Internal Server Error - サーバ内部エラー**  
*500 Internal Server Error* は、サーバ側に何らかの以上が生じていて、正しいレスポンスが返せないことを示します。レスポンスボディには以上の理由が入ります。


* **503 Service Unavailable - サービス停止**  
*503 Service Unavailable* は、サーバがメンテナンスなどで一時的にアクセスできないことを示します。

### HTTPメソッド
HTTPは、リソース(URL、URI)に対して何をするかメソッドを指定することが出来る。そのメソッドの中でも、特に **GET**、 **POST**、 **PUT**、 **DELETE** はこれら4つのみで *CRUD* という性質を満たすため、代表的なメソッドと言える。 *CRUD* とは、Create、Read、Update、Deleteというデータ操作における基本的な操作を表しており、 *操作名* とも呼ばれる。以下の表でHTTPのメソッドとCRUDが対応する。

| CRUD名     | 意味      | HTTPメソッド   |
|:-----------|:----------|:---------------|
| Create     | 作成      | POST/PUT       |
| Read       | 読み込み  | GET            |
| Update     | 更新      | PUT            |
| Delete     | 削除      | DELETE         |


### Sinatra (Ruby webフレームワーク)
Sinatra（シナトラ）は、Rubyで作成されたオープンソースのWebアプリケーションフレームワークである。最小の労力でRubyによるWebアプリケーションを手早く作るためのDSL(Domain-Specific Language、特定の作業の遂行や問題の解決に特化して設計されたプログラミング言語のこと) として設計されている。

以下では、HTTPの4つの主要メソッドそれぞれについて、Sinatra及び *curlコマンド* を使って詳しく説明する。各自テンプレートを自分の環境にcloneし、サーバーを実行しよう。

```test.sh
$ git clone git@github.com:SCCP2016/http-exercise.git
$ cd http-exercise
$ rake init
$ rake start
```

上のコマンドを実行し終え、ターミナル上でサーバーがstartしたことを確認できたら、別のターミナルを開いて正常に実行されていることを確認しよう。
以下のコマンドを打ち、ブラウザを開く。ブラウザのページ上に *hello, world*と出力されたらサーバーの起動に成功している。

```test.sh
$ firefox http://localhost:9292/
```

#### 何故curlコマンドを使うか
ブラウザ上から視覚的に確認出来るのは、基本的にGETメソッドの結果だけ。POSTなどのメソッドはブラウザ上から挙動を確認することは難しい。そこでターミナル上で状態を確認出来るcurlを使おう。

#### GET（リソースの取得）
最初に最も基本となるhttpメソッドであるGETメソッドを利用する。GETメソッドは指定したURIの情報を取得するメソッドである。HTTPメソッドの中でも最も利用頻度が高く基本的なメソッドで、Webページ自体の取得、ページ上の画像/映像の取得などを担っている。ここで、各自ターミナルを起動して以下のコマンドを実行してみよう。

```test.sh
curl -X GET http://localhost:9292/
```

*hello, world* という文字が出力されたのが確認できただろうか。これは、http://localhost:9292/ に対してのGETメソッドの戻り値であり、その結果が標準出力に表示されている。sinatra上でこの動作を書いている部分を見てみよう。

``` app.rb
get '/' do
  'hello, world'
end
```

あるurlに対して、あるhttpメソッドが飛ばされた時の処理を記述した構文をルーティングと呼ぶ。Sinatraでのルーティングは、httpメソッドとurlからなり、その後の *do ~ end* ブロックで指定したurlに対するhttpメソッドの処理が記述される。

#### POST（リソースの作成、追加）
POSTメソッドはGETメソッドの次に利用頻度の高いメソッドであり、HTTP通信でクライアント（ブラウザなど）からWebサーバへ送るリクエストの種類の一つである。URLで指定したプログラムなどに対してクライアントからデータを送信することができ、大きなデータやファイルをサーバに送るのに使われる。以下のコマンドを打って確認してみよう。

```test.sh
curl -X POST http://localhost:9292/post/testmessage -H "Content-Length: 0"
```

-H "Content-Length: 0"は実際に送信されるデータの長さを指定している。今回は特にデータを送信せず、urlの一部の文字列を返すようなプログラムとなっているので、Content-Lengthには0を割り当てている。
ターミナル上に、 *testmessage*と出力されれば正常にPOSTメソッドが完了している。sinatra上でこの部分の処理に当たるソースコードを見てみよう。

```app.rb
  post '/post/:message' do
    "#{:message}\n"
  end
```

ここで、関数の先頭が **post** の文字となっていることに注目しよう。前回はgetメソッドに対する処理を記述したので先頭は **get** だったが、今回はpostメソッドの動作を書くので **post** となっている。
また、URLには名前付きパラメータを含むことが出来る。ここでは *:message* という名前付きパラメータを用意している。この場合、
http://localhost:9292/post/foo や、 http://localhost:9292/post/bar などにマッチされ、パラメータの値はブロック構文内で :messageによって取得出来る。  
次に、ブロック内に着目する。ブロック内には、

```test.rb
 "#{:message}\n"
```

と書かれているが、これはURLから:messageに該当する文字列を取得して、文字列の最後に改行文字を付けて返していることがわかる。
これがターミナル上で *testmessage* と出力された理由である。

#### PUT（リソースの更新、作成）
PUTメソッドはリソースの内容の更新と、リソースの作成の二つの機能を持っている。例えば、 http://example.com/content1 の内容を更新したい時や、http://example.com/newcontent を新しく作成したい時にリクエストを送ることでそれぞれ実現出来る。

#### DELETE（リソースの削除）
DELETEメソッドはリソースの削除機能を持つメソッドである。DELETEが成功すると、同じURIを再度GETすることはできなくなる。（GETリクエストを行った時に404が返ってくるようになる）