<a href="https://colab.research.google.com/github/suwatoh/Python-learning/blob/main/126_%E6%9A%97%E5%8F%B7%E9%96%A2%E9%80%A3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

暗号関連
========

暗号学的に安全な乱数
--------------------

擬似乱数のようにコンピューターの計算によって得られるのではなく、物理現象の観測などによって得られる再現性の低い数値の列を**暗号学的に安全な乱数**（cryptographically secure random numbers）という。Unix 系 OS と Windows は、暗号学的に安全な乱数と呼べる十分に乱雑な数値の列を生成する機能をサポートする。Unix 系 OS では、ハードウェア（キーボード、マウス、CPUなど）の観測によって得られるノイズを蓄積し、それを元に乱数（バイト列）を生成する。ノイズが蓄積されていない場合、この機能から乱数を取得しようとすると、ノイズが蓄積されるまで待たされる。

``` python
os.urandom(size, /)
```

`os` モジュールが提供するこの関数は、`size` バイトからなるランダムなバイト文字列を返す。OS の機能を利用して暗号学的に安全な乱数を取得しているので、この関数が返すバイト列は暗号に関する用途に適している。

In [None]:
import os
os.urandom(10)

b'\xb9\xe0-p\x1f\x16NKEw'

標準ライブラリの `secrets` モジュールは、暗号に関する用途に適した機能を提供する。安全な乱数生成に `os.urandom()` 関数を利用している。

例えば、`secrets.choice()` 関数は、シーケンスを渡されて呼び出されると、シーケンスから要素をランダムに選択して返す。`random.choice()` 関数とは異なり、乱数の種は不要で、選ばれる要素に再現性がない。

次のコードでは、2 つの関数を使って英数文字からなる長さ length の文字列を出力する結果を比較している。

In [None]:
import secrets
import random
import string

chars = string.ascii_letters + string.digits
length = 10

for i in range(2):
    print("secrets.choice:", "".join(secrets.choice(chars) for i in range(length)))

# random.choice() 関数では乱数の種がわかると選ばれる要素が推測可能である
for i in range(2):
    random.seed(0)
    print("random.choice:", "".join(random.choice(chars) for i in range(length)))

secrets.choice: wmItjZJayU
secrets.choice: vnRixlK38m
random.choice: 2yW4Acq9GF
random.choice: 2yW4Acq9GF


トークン
--------

### トークンの生成と検証 ###

**トークン**（token）とは、認証やアクセス管理などのために一時的に用いられるランダムな秘密の値のことである。一般的なパスワードとの違いは、トークンの値や有効期限がユーザーではなく Web サーバーによって指定される点である。

Web サービスでは、Web サーバーがその場限りのランダムなトークンを発行して HTML レスポンス（または電子メール）を送り、そのトークンを含む HTTP リクエストがあったならリソースのアクセスなどを許可するということが行われる。トークンは使い捨てとなる。

`secrets` モジュールが提供する以下の関数は、トークンの生成に利用される:

``` python
secrets.token_bytes([nbytes=None])
secrets.token_hex([nbytes=None])
secrets.token_urlsafe([nbytes=None])
```

これらの関数は、それぞれバイト列、16進数の文字列、Base64 でエンコードされた文字列を返すトークンである。引数で長さをバイト単位で指定しない場合、総当たり攻撃に対する安全性を確保するうえで妥当な長さのものが返される（Python 3.12 では 32 バイト（256 ビット）になっている）。

In [None]:
import secrets

print("bytes:", secrets.token_bytes())
print("hex:", secrets.token_hex())
print("urlsafe:", secrets.token_urlsafe())

bytes: b'\r"\xe8\x7ft2$\x9ff\xa93\xf0\x93\xcd\xee\xbc\xbd\x95\x86\xb5\xbe\x93\x01ChztaN\xc0>\xc6'
hex: 443ee616232a5665c2dd94ef725e166dee805997d2f7cc3ba3f34457ec5da96a
urlsafe: 8DWhPZmgpbr6vUzkmHQp5ETDTe2g-LpDR4AmKDOdaJY


トークンを含む HTTP リクエストがあった場合、サーバーは処理を継続するためにトークンを検証する。このとき、単純な `==` による比較ではなく次の関数を使用しなければならない。

``` python
secrets.compare_digest(a, b)
```

この関数は、文字列またはバイト列 `a` と `b` を定数時間で比較する。等しい場合は `True` を返し、等しくない場合は `False` を返す。

定数時間比較を使わず `==` 演算子で比較すると、その実行時間からトークンの実装が推測されてしまう危険がある。たとえば、アルファベットの a と z の間では処理時間が変わるはずで、z に近いほうが処理時間がかかることになり、この処理時間を分析することで、どのような実装が行われているかが推測できてしまう。このようなことが脆弱性にならないようにトークンの比較が定数時間で完了する `secrets.compare_digest()` 関数が提供されている。

In [None]:
import secrets
from urllib import parse

def gen_reseturl(token):
    "パスワードの復元用途に適したセキュリティトークンを含む、推測しにくい一時 URL を生成する関数"
    return "https://example.com/?reset=" + token

def check_token(token, url):
    result = parse.urlparse(url)
    qs = parse.parse_qs(result.query)
    return secrets.compare_digest(token, qs["reset"][0])

if __name__ == "__main__":
    # トークンを生成し、一時的な URL をユーザーに送信
    token = secrets.token_urlsafe()
    url = gen_reseturl(token)
    print(f"{url=}")

    # ユーザーがリクエストした URL からトークンを検証
    assert check_token(token, url)
    # トークンが一致することを確認したら処理を継続

url='https://example.com/?reset=tYNEIUxNPEPPRl832zoFRsTQNqNPxwqKh2fPIft1ulc'


### CSRF ###

トークンは、サイバー攻撃の対策に利用されることもある。以下では、利用例の 1 つとして CSRF を取り上げる。

ログインが必要な Web サービスで、トップページ `https://example.com/` への `GET` リクエストに対して、次のフォームを含む HTML が返されるとする。

``` html
<form action="https://example.com/endpoint" method="POST">
  <input type="text" name="message" value="Hello world">
  <button>送信</button>
</form>
```

Web ブラウザ上で表示された送信ボタンをクリックすれば、以下のような `POST` リクエストが `https://example.com/endpoint` に向けて送信される。

``` text
POST /endpoint HTTP/1.1
Host: example.com
Content-Type: application/x-www-form-urlencoded
Content-Length: 21

message=Hello%20world
```

ログイン中のユーザーであれば、Web アプリケーションは処理を継続することになる。この通信の流れは正常であるが、問題は `POST` メソッドを発行する際のフォームが `https://example.com/` への GET リクエストから返ってきた HTML であるという情報がこの `POST` リクエストには含まれていないことである。したがって、Web アプリケーションはユーザーが意図したリクエストであるかどうかを知る術がない。ユーザーがログイン中なら、外部サイトを経由した悪意のあるリクエストを受け入れてしまうことになる。このような問題を**クロスサイトリクエストフォージェリ**（cross-site request forgery）、略して**CSRF**（シーサーフ）と呼ぶ（画像は[情報処理推進機構（IPA）の記事](https://www.ipa.go.jp/security/vuln/websecurity/csrf.html)より引用）。

![](https://www.ipa.go.jp/security/vuln/websecurity/ug65p900000196v0-img/ug65p9000001grm3.png)

Web アプリケーション側の CSRF 対策には、次の 3 通りの手法がある。

【Synchronizer Token Pattern】  
ユーザーが意図したリクエストであれば経由するはずの URL にアクセスした際に、ユーザーに対してセッション Cookie を割り当てた上で、CSRF 検証用のトークンを発行して次のように HTML の隠しフィールドに含めたレスポンスを送る。

``` html
<form action="https://example.com/endpoint" method="POST">
  <input type="hidden" name="token" value="pqr123">
  <input type="text" name="message" value="Hello world">
  <button>送信</button>
</form>
```

Web アプリケーション側では、以降の HTTP リクエストではトークンが一致することを確認できたものに限り処理を継続する。CSRF 検証用トークンをセッション Cookie に紐付けて Web アプリケーション側で管理する必要がある。

【Double Submit Cookie Pattern】  
Synchronizer Token Pattern との違いは、CSRF 検証用のトークンを Cookie に設定して Web ブラウザに返送および管理を委譲することである。Web ブラウザは、セッション Cookie と `X-XSRF-Token` ヘッダーを含む HTTP リクエストを送る。 Web アプリケーション側では、`X-XSRF-Token` ヘッダーの値とフォームの隠しフィールドの値が一致することを確認できたものに限り処理を継続する。CSRF 検証用トークンを Web アプリケーション側で管理する必要はなくなるが、Cookie が改ざんされた場合の対策が必要となる。

``` text
                    ┌──────────────────────────┐
                    │Set-Cookie: session=dh7jWkx8fj;                     │
                    │Set-Cookie: csrfid=xjk2kzjn4;                       │
                    ├──────────────────────────┤
                    │<input type="hidden" name="token" value="xjk2kzjn4">│
┏━━━━━━┓    └──────────────────────────┘    ┏━━━━━━━━━━┓
┃            ┃←───────────────────────────────┨                    ┃
┃Web ブラウザ┃                                                                ┃Web アプリケーション┃
┃            ┠───────────────────────────────→┃                    ┃
┗━━━━━━┛                ┌──────────────┐                ┗━━━━━━━━━━┛
                                │Cookie: session=dh7jWkx8fj; │
                                │X-XSRF-Token: xjk2kzjn4;    │
                                ├──────────────┤
                                │token=xjk2kzjn4&...         │
                                └──────────────┘
```

【SameSite Cookie Pattern】  
CSRF を防ぐ目的で、`Set-Cookie` ヘッダーに `SameSite` パラメータを含めることができるようになった。`SameSite=Lax` を指定すると、同一サイトからのリクエスト（同じドメイン内のページ間遷移など）には Cookie が送信され、また、外部サイトからのリンククリックによる遷移（`GET` リクエスト）には Cookie が送信されるが、外部サイトからの `POST` / `PUT` / `DELETE` / `PATCH` リクエストでは Cookie が送信されない。第三者のサイトから悪意のある `POST` リクエストが送られてきても、セッション Cookie が送信されないため、ログインが必要な Web アプリケーションでは処理が継続されない。

セッション Cookie の属性を設定するだけなので、実装は容易であるが、外部サイトからの `GET` リクエストではセッション Cookie が送信されるので、その処理の内容に注意する必要がある。

Chrome など一部のブラウザは、`SameSite` パラメータを指定しない場合、`SameSite=Lax` を既定とする。こうしたブラウザでは、CSRF 攻撃は困難になっている。

たいていの Web アプリケーションフレームワークは CSRF 対策を提供しているので、独自実装はせずそちらを利用したほうがよい。

ハッシュ値
----------

### ハッシュ関数 ###

任意の長さのデータを入力すると固定長のビット列を返す関数を**ハッシュ関数**という。ハッシュ関数から出力された値を**ハッシュ値**または単に**ハッシュ**という。ハッシュ値は、どんな入力が与えられても同じ長さになる。

ハッシュ関数のうち、暗号など情報セキュリティの用途に適する性質をもつものを**暗号学的ハッシュ関数**と呼ぶ。暗号学的ハッシュ関数の性質は、次のようなものである。

  1. **決定性**: 入力データが同じであれば、常に同じハッシュ値が生成される。
  2. **一様性**: 入力データが少しでも異なっていれば、生成されるハッシュ値は大きく異なったものになる。
  3. **一方向性**: ハッシュ値から元の入力データを再現することが困難である。この性質を**原像計算困難性**ともいう。
  4. **衝突耐性**: 異なる入力データから同じハッシュ値が生成される可能性が非常に低い。

暗号学的ハッシュ関数の用途として、次のようなものがある。

  * **メッセージが改ざんされていないことの保証**: メールなどのメッセージの内容をハッシュ関数に通して、そのハッシュ値を、そのメッセージの内容を保証する「ダイジェスト」として利用する。もしメッセージが改ざんされていた場合、決定性により、ハッシュ関数に通すと全く異なるハッシュ値が得られ、メッセージが改ざんされていることがわかる。
  * **確実にファイルを識別する手段**: ファイルの内容を少しでも変更すれば、一様性により、そのハッシュ値は変更前の内容でのハッシュ値とは大きく異なるので、ファイルのバージョンを確実に識別する手段として、Git などのバージョン管理システムで使われている。
  * **データを秘匿して保管**: パスワードなどの秘匿したいデータをハッシュ関数に通して、そのハッシュ値をデータベースなどに保管する。もしハッキングされてデータが盗まれても、原像計算困難性により、短時間で入力値を求めることは困難であり、その間にパスワードの無効化などの対策を実施することができる。

標準ライブラリの `hashlib` モジュールを使うと、暗号学的ハッシュ関数の機能をサポートするハッシュオブジェクトを作成できる。

`hashlib.new(name)` は、ハッシュオブジェクトを生成するコンストラクタである。`name` には、利用可能なハッシュアルゴリズムの名前を指定する。指定できる値は、次の定数で調べられる。

| 定数 | 意味 |
|:---|:---|
| `hashlib.algorithms_available` | 実行中の Python インタープリタで利用可能なハッシュアルゴリズム名の集合 |
| `hashlib.algorithms_guaranteed` | `hashlib` モジュールによってすべてのプラットフォームでサポートされていることが保証されるハッシュアルゴリズムの名前を<br />含む集合。常に `hashlib.algorithms_available` の部分集合である |

よく利用されるアルゴリズムには、専用のコンストラクタが定義されている:

| アルゴリズム | ハッシュ長 | コンストラクタ | 主な用途や注意点 |
|:---|:---|:---|:---|
| MD5 | 16 バイト | `hashlib.md5()`, `hashlib.new('md5')` | 同じハッシュ値を生成する異なるデータのペアを短時間で発見する方法が知られてい<br />る。このためセキュリティ用途には向かないが、ハッシュ値からデータを作ることは困難<br />なので、チェックサム（データの同一性確認）の目的でよく使われる |
| SHA-256 | 32 バイト | `hashlib.sha256()`, `hashlib.new('sha256')` | セキュリティの目的でよく使われる |
| SHA-512 | 64 バイト | `hashlib.sha512()`, `hashlib.new('sha512')` | SHA-256 よりも安全で、パスワード保全の目的で使われることがある |

アルゴリズムの安全性と計算速度はトレードオフの関係にあるので、目的に合わせてアルゴリズムを選ぶことになる。

ハッシュオブジェクトのメソッド:

| メソッド | 機能 | 戻り値 |
|:---|:---|:---|
| `update(data)` | ハッシュオブジェクトをバイト列 `data` で更新する。この関数では文字列はサポートされない | `None` |
| `digest()` | これまで `update()` メソッドに渡されたデータのハッシュ値を返す | `bytes` |
| `hexdigest()` | これまで `update()` メソッドに渡されたデータのハッシュ値を 16 進形式文字列として返す | `str` |

In [None]:
import hashlib

hash_sha256 = hashlib.sha256()
hash_sha256.update("こんにちは".encode())  # 入力はバイト列に変換する必要がある
hash_sha256.update(b"Python 3")  # 入力はバイト列
print("digest:", hash_sha256.digest())
print("hexdiges:", hash_sha256.hexdigest())

digest: b'\x91-\x91z\xa3\x91\xb9N\x1d\xd9\xd2\xa4\xd6\x12/\x8e\x15\x13 \x8c\x04\x97\x0b\xa0`\x82D\xd7\x13\xa4j-'
hexdiges: 912d917aa391b94e1dd9d2a4d6122f8e1513208c04970ba0608244d713a46a2d


### 鍵導出 ###

パスワードをハッシュ化してデータベースに保存する方法は、ハッシュアルゴリズムの原像計算困難性にもかかわらず、総当たり攻撃（ブルートフォース）やリバースエンジニアリングにより、誰もがハッシュ値を簡単に解読できるため、それほど安全ではない。これは、同じ入力データからは同じハッシュ値が生成されるため、ハッシュ値と入力データの対応表を作成できるからである。この対応表は**レインボーテーブル**（rainbow table）と呼ばれる。レインボーテーブルを利用した総当たり攻撃をレインボーテーブル攻撃と呼ぶ。

[10015.io](https://10015.io/) には、ハッシュ値から元のデータを復元するツールが提供されている。たとえば、[SHA256 Encrypt/Decrypt](https://10015.io/tools/sha256-encrypt-decrypt) に、平文 `hello` の SHA-256 ハッシュ値 `2cf24dba5fb0a30e26e83b2ac5b9e29e1b161e5c1fa7425e73043362938b9824` を入力し Decrypt を実行すると、数秒で解析されてしまう。

攻撃からパスワードを保護するためのより安全な方法の一つは、**塩漬け**である。これは、パスワードに適当な文字列を付け足すことである。付け足した文字列は**ソルト**（salt）と呼ばれる。ランダムに選ばれた文字列を、ソルトとしてパスワードに付け足したものをハッシュ関数に通し、ソルトとそのハッシュ値をデータベースに保存する。もしこれらが流出しても、ソルト付きで解読しなければならず、ソルトのランダム性により解析にかかる時間を増やすことができる。なお、ソルトが短かったり使い回されたものだったりして推測可能な場合は、やはりレインボーテーブル攻撃に脆弱となることに注意する。

パスワードを保護するためのもう一つの方法は、**ストレッチング**である。これは、パスワードをハッシュ化する際には、ソルトに加えて、ハッシュ値をさらに再度ハッシュ化することを繰り返して行うものである。このような処理を行う関数は、パスワードから共通鍵を得る関数という意味で、**パスワードベース鍵導出関数**（Password-Based Key Derivation Function; PBKDF）と呼ばれる。PBKDF の処理を**鍵導出**、鍵導出により得られたハッシュ値を**導出鍵**と呼ぶ。

`hashlib` モジュールは、PBKDF を実装する関数を提供している。

``` python
hashlib.pbkdf2_hmac(hash_name, password, salt, iterations, dklen=None)
```

この関数は、導出鍵（バイト列）を返す。

| 引数 | 意味 |
|:---|:---|
| `hash_name` | ハッシュアルゴリズムを指定する |
| `password` | 鍵導出の対象となるバイト列を指定する |
| `salt` | ソルトをバイト列で指定する。最低でも 64 ビットにすることが推奨される |
| `iterations` | ストレッチングの回数を指定する。最低でも 10,000 回が推奨される |
| `dklen` | 導出鍵の長さを指定する。指定しなければ `hash_name` に指定したアルゴリズムのハッシュ長になる |

In [None]:
import os
import hashlib

password = b'my-secret-password'
salt = os.urandom(128)
for iterations in [1000, 10000, 100000]:
    hash = hashlib.pbkdf2_hmac('sha256', password, salt, iterations)
    print(f"({iterations=})\t{hash.hex()}")  # bytes オブジェクトの hex() メソッドで文字列化

(iterations=1000)	c7c3c452e84317ff51ea875746f695232f7da38f1de104b237de345815b222bd
(iterations=10000)	656ef0919d24d77e231857928572b7da5f9719d3ddad7015787f7a066be233a2
(iterations=100000)	6ed0a4f02e7da7db5e33586cacfe8dfc33c08341c471c5306a557053318f12ad


暗号化
------

**暗号化**（encryption）とは、元のデータ（平文）を変換し、第三者が簡単にデータの内容を解読できない状態にすることをいう。暗号文から元のデータに戻すことを**復号**（decryption）という。

暗号関連の関数を実装するソフトウェアとして OpenSSL が有名である。サードパーティ製パッケージ [cryptography](https://github.com/pyca/cryptography) は、OpenSSL をラップして、暗号技術の知識を必要としない高レベルなインターフェースを提供している。また、OpenSSL の API に近い低レベルのインターフェースも備えていて、OpenSSL のほとんどの関数を扱うことができる。

ただし、低レベルのインターフェースは、“Hazardous Materials”（危険物）に由来する名前の `cryptography.hazmat` サブパッケージにまとめられ、`cryptography` の[公式ドキュメント](https://cryptography.io/en/latest/hazmat/primitives/)で「自分が何をしているのかを 100% 確実に理解している場合にのみ使用してください。」と警告されている。安易に使用すると、思わぬ地雷を踏むことになるので注意が必要である。

OpenSSL のライセンスと `cryptography` のライセンスはともに Apache License 2.0。OpenSSL がインストールされている環境では、`cryptography` を次のようにインストールすれば `cryptography` が使用できる。
。

``` shell
pip install cryptography
```

### 共通鍵暗号 ###

**共通鍵暗号**は（common key cryptosystem）は、暗号化と復号に共通のデータ（共通鍵）を用いる暗号方式である。共通鍵暗号を用いた通信手順の概略は次のようになる。

  1. あらかじめ、受信者と送信者は密かに共通鍵 C の受け渡しをしておく。
  2. 送信者は C を使ってメッセージを暗号化し、受信者に送信する。
  3. 受信者は C を使って暗号文を復号し、メッセージを読む。

共通鍵暗号方式では、鍵の受け渡しを密かに行わなければならない。もし鍵の配送経路の途中で第三者に鍵を傍受されると、暗号文が解読されてしまう。この脆弱性は**鍵配送問題**と呼ばれる。

古典的な共通鍵暗号は、換字（かえじ）暗号である。換字暗号では換字表自体が共通鍵であり、換字表を使って平文を 1 文字または数文字単位で別の文字や記号等に変換することで暗号文を作成する。例えば、次の換字表はシーザー暗号として有名である。

``` text
平文のアルファベット:   ABCDEFGHIJKLMNOPQRSTUVWXYZ
暗号化アルファベット:   XYZABCDEFGHIJKLMNOPQRSTUVW
```

平文 `HELLO WORLD` を暗号化すると `EBIIL TLOIA` となる。換字表を逆に読み解けば暗号文を復号できる。しかしながら、このような単純な暗号方式では、暗号文から換字表を推測できてしまう。

現在主流の共通鍵暗号アルゴリズムは **AES256** である。AES256 は AES（Advanced Encryption Standard）と呼ばれる暗号規格の中で最も長い鍵を用いる方式である。その主な特徴は次のとおり。

  * 256 ビットの共通鍵を使用する。
  * 平文を 128 ビット（16 バイト）の長さのブロックに分割して暗号化していく。
  * 暗号化ではラウンドと呼ばれる 1 まとまりの処理を 14 回繰り返す。

1 ラウンドの処理は、大ざっぱに言うと、換字表を使ったバイト単位の置き換え、バイトの並べ替え、ビット演算を順に行ってから、ラウンド鍵との XOR（排他的論理和）をとるというものである。ラウンド鍵とは、共通鍵から生成される 128 ビット長のバイト列であり、ラウンド回数ごとに異なるものである。

これらの処理は全て一定規則で行われるので、逆変換を逆順で行うことができる。実際、復号は上記処理の逆変換を逆順で実行する。

処理に規則性があるなら AES256 を使用した暗号文を完全に解読できそうであるが、共通鍵なしの状態では、第 9 ラウンドまでしか解読に成功していない。現在のところ、AES256 暗号はどんな攻撃にも屈していない。

`cryptography.fernet.Fernet` クラスは、AES256 による共通鍵暗号操作をサポートする以下のメソッドを提供する。

| メソッド | 機能 | 戻り値 |
|:---|:---|:---|
| `generate_key()` | クラスメソッド。256 ビット長のランダムな鍵を返す。この鍵は、URL セーフな Base64 エンコードされたバイト列である | `bytes` |
| `encrypt(data)` | バイト列 `data` を暗号化する。戻り値は、URL セーフな Base64 エンコードされたバイト列となる。これはフェルネット<br />トークン（Fernet token）と呼ばれる | `bytes` |
| `decrypt(token, ttl=None)` | 暗号文 `token` を復号する。復号に失敗した場合、`cryptography.fernet.InvalidToken` 例外が発生する。`ttl` が指定<br />された場合、データ作成時から `ttl` 秒以上経過しているときにもこの例外が発生する | `bytes` |

`cryptography.fernet.Fernet` のインスタンス化は、クラスメソッド `generate_key()` が返す鍵をコンストラクタに渡すようにする。次のとおり。

``` python
cryptography.fernet.Fernet(key)
```

In [None]:
from cryptography.fernet import Fernet

message = b"my deep dark secret"
# 共通鍵の作成
key = Fernet.generate_key()
# 暗号化
token = Fernet(key).encrypt(message)
# 復号
assert Fernet(key).decrypt(token) == message

print(f"{key=}")
print(f"{token=}")

# 別のキーを使って復号しようとするとエラーが発生する
fakekey = Fernet.generate_key()
try:
    Fernet(fakekey).decrypt(token)
except Exception as err:
    print(f"{type(err).__name__}")

key=b'KxapfvGuwEZd3Jt6AHU1ubgxR7_7jWrlyT7pJ_0qess='
token=b'gAAAAABnO4FEOkW83FGUvYh0Qkp_w4Zmqg-WvVOm--_5TN8c2wiDGPLsXSaoJjNFE_5AmSFAb2J8_fkpC0v-zxXrYBlt9clqn_aXoGgLccc_E2ATtWv9dV4='
InvalidToken


### 公開鍵暗号 ###

**公開鍵暗号**（public key cryptosystem）は、共通鍵暗号の鍵配送問題を解決するために考案された暗号方式である。暗号化と復号に異なる鍵を用い、暗号化用の鍵は公開できるようにした。公開鍵暗号を用いた通信手順の概略は次のようになる。

  1. 受信者は自分の公開鍵（暗号化のための鍵）P を全世界に公開する。
  2. 送信者は公開鍵 P を使ってメッセージを暗号化してから受信者に送信する。
  3. 受信者は公開鍵 P と対になる秘密鍵（復号のための鍵）S を密かに持っている。この S を使って受信内容を復号し、送信者からのメッセージを読む。

公開鍵暗号の安全性は、 P≠NP 予想と呼ばれる数学上の理論に基づいている。 P≠NP 予想というのは、数学上の問題には「ある情報」が与えられれば簡単に解けるのに、そうでなければ全てのパターンをしらみつぶしで調べるような非効率なアルゴリズムでしか解くことのできない困難な問題が存在するという理論である。非効率なアルゴリズムの計算量はおよそ $O(2^n)$ となるので、処理するデータの長さ $n$ が非常に大きい場合には現実的な時間では計算できなくなる。公開鍵暗号では、「ある情報」が秘密鍵であり、公開鍵だけでは、第三者が暗号文を復号したり秘密鍵を導出したりすることはおよそできないと考えられている。

**RSA**（Rivest–Shamir–Adleman）暗号は、公開鍵暗号方式の 1 つで、以下のような数学上の困難な問題を使用する

  * **素因数分解問題**:  
2 つの大きな素数 $p$ と $q$ で $n=p \times q$ という自然数 $n$ が与えらえれたとき、 $n$ から $p$ と $q$ の組に分解（いわゆる素因数分解）する問題を素因数分解問題という。この問題を解く効率的なアルゴリズムは未だに見つかっていない。 $n$ が十分に大きな数であるならば、現実的な時間で $p$ と $q$ を計算することができなくなる。
  * **離散対数問題**:  
自然数 $a$ と $b$ と $e$ について、$a^e$ を自然数 $n$ で割ったときの余りが $b$ であるとする（＊）。いま $e$ を未知とすると、 $a$ と $b$ と $n$ がわかっていても、＊のような関係を満たす $e$ を求める問題を離散対数問題という。この問題を解く効率的なアルゴリズムは未だに見つかっていない。一方、 $b$ と $e$ と $n$ がわかっていても、＊のような関係を満たす $a$ を求める問題も、離散対数問題と似た構造を持ち、 $n$ が十分に大きな数であるならば、現実的な時間で解くことができなくなる。

RSA 暗号は、＊ の関係を使って平文 $a$ を暗号文 $b$ に変換する。これは Python で次のように記述できる:

``` python
# 暗号化
b = (a**e) % n
```

この $e$ を**公開指数**（public exponent）と呼び、$n$ と $e$ の組を RSA 暗号の公開鍵とする。暗号文 $b$ と 公開鍵 $(n,e)$ からは平文 $a$ を求めること、つまり $b$ の復号は困難である。ではどうやって $b$ の復号を行うのかというと、 $n$ の素因数分解である $p$ と $q$ に対して、次の関係を満たす自然数 $d$ を使う。

$$
\phi = (p - 1) \times (q - 1)
$$

$$
d \times e + \beta \times \phi = 1
$$

$\beta$ は適当な負の整数でよい。 $e$ が $1 < e < \phi$ を満たし、かつ $e$ と $\phi$ は互いに素（公約数が 1 だけ）である場合、必ず下段の等式を満たす自然数 $d$ と 負の整数 $\beta$ が存在することが数学的に証明されている（この証明は[ベズーの等式](https://ja.wikipedia.org/wiki/ベズーの等式)と呼ばれる）。 $d$ （と $\beta$）を求めるアルゴリズムとして、[拡張ユークリッドの互除法](https://ja.wikipedia.org/wiki/ユークリッドの互除法#拡張された互除法)が用いられる。

$n$ と $d$ の組を RSA 暗号の秘密鍵とする。秘密鍵 $(n,d)$ を使った $b$ の復号の計算は、Python で次のように記述できる。

``` python
# 復号
a = (b**d) % n
```

平文 $a$ がこのように計算できることは、数学的に証明されている。フェルマーの小定理などの整数論の理解が必要なので、ここでは割愛（Wikipedia の RSA 暗号の記事の[完全性の証明](https://ja.wikipedia.org/wiki/RSA暗号#完全性の証明)を参照）。

$p$ と $q$ と $e$ を決めれば、 $d$ が導出される。 $n$ から $p$ と $q$ を導出することは困難なので、 $n$ から $d$ を導出することも困難である。 RSA 暗号の安全性はこのことに基づいている。

ただし、いくつかの工夫により改善された素因数分解アルゴリズムが発表されており、コンピューターの性能が向上していることから、 $n$ が十分な大きさ（ビット長）でなければ RSA 暗号の安全性が保証されないことに注意する。一方で、 $n$ は大きすぎると秘密鍵生成や暗号化、復号の計算に時間がかかって実用的でなくなる。バランスをとって `2048` ビットまたは `4096` ビットが推奨されている。 `2048` ビットでは 2030 年代までに十分安全ではなくなると予測されている。

$p$ と $q$ は秘密鍵を導出するものであるから、秘密鍵が推測されないようにランダムに選ぶ必要がある。これに対して、 $e$ は常に同じ値でも問題ない（$e$ は公開される）。 $e$ に `65537`がよく使われる。これは素数であり、また、 2 進数でのべき乗の計算で乗算の回数が少なくて済むからである（べき乗の計算は非常に重いことに注意する）。

実は、生のデータを「公開鍵で暗号化し、秘密鍵で復号する」という公開鍵暗号方式は、あまり使われていない。複雑な数学的アルゴリズムを使用するため、暗号化、復号の計算に非常に時間がかかるからである。

### デジタル署名アルゴリズム ###

公開鍵暗号では、秘密鍵は本人以外が使用できないはずである。このことを利用すると、秘密鍵で暗号化したデータを「本人が確認している証拠」とすることができる。これを書面上の手書き署名に見立てて**デジタル署名**（digital signature）と呼んでいる。デジタル署名の検証は、公開鍵で復号することにより行われる。なお、実際にはデータそのものではなく暗号学的ハッシュ関数を通したハッシュ値を暗号化、復号する。

デジタル署名は、[電子署名法](https://ja.wikipedia.org/wiki/電子署名及び認証業務に関する法律)で法的拘束力を持つとされる「電子署名」の方式として認められている。

RSA は簡単にデジタル署名アルゴリズムに応用できる。RSA の暗号化と復号は同じような計算式を使っているため、復号の計算を「秘密鍵を使った暗号化」、暗号化の計算を「公開鍵を使った復号」として使用すればよい。

しかしながら、デジタル署名と検証には、「楕円曲線上の離散対数問題」と呼ばれる数学上の困難な問題を使用するアルゴリズムがよく採用される。

**楕円曲線**（Elliptic Curve; EC)とは、 $a, b$ を定数とする次の 3 次方程式を満たす点 $(x,\,y)$ の集合のことである。

$$
y^2 = x^3 + ax + b
$$

楕円曲線は楕円に関連して研究されるようになった曲線であるが、次のグラフを見ればわかるように（[Wikimedia Commons](https://commons.wikimedia.org/wiki/File:ECClines-3.svg)から引用）、2 つは別物である。

![](https://upload.wikimedia.org/wikipedia/commons/d/d0/ECClines-3.svg)

楕円曲線の特徴は x 軸に関して対称になることである。

この楕円曲線上で足し算が定義される。ただし、足し算の定義に好都合な点が導入される。この点は、楕円曲線上にはない点であり無限遠点と呼ばれる。無限遠点を $0$ で表す。無限遠点 $0$ は原点 $O(0,\,0)$ を意味しないことに注意する。楕円曲線に無限遠点を加えた集合を $E$ で表す。集合 $E$ 上の足し算が以下のように定義される。

  1. $E$ の任意の点 $P$ と $0$ に対して $P+0=0+P=P$ とする。
  2. $E$ の無限遠点以外の点 $P=(x,\,y)$ に対して $-P=(x,\,-y)$ とする。つまり、$-P$ は $P$ を x 軸に関して対称にした点である。楕円曲線は x 軸に関して対称であるので、$-P$ は楕円曲線上の点である。 $P+(-P)=0$ とする。左辺は $P-P$ とも書く。また、$-0=0$ とする。
  3. $E$ の無限遠点以外の点 $P$ と $Q$ は互いに x 軸に関して対称になる点ではないとする。この $P$ と $Q$ に対して、$E$ の点 $R$ を以下のように定めて、 $P+Q=Q+P=-R$ とする。
      * もし $P$ と $Q$ が異なる 2 点なら、2 点を通る直線が楕円曲線と交わる第三の点を $R$ とする。
      * もし $P$ と $Q$ が同じ点なら、この点での接線が楕円曲線と交わる第二の点を $R$ とする。第二の点が存在しない場合には $P$ 自身を $R$ とする。

規則 2 により移項が可能であるから、 $P+Q=-R$ は $P+Q+R=0$ へと式変形できる。これは $P\neq Q$ の場合に 3 つの交点を足すと無限遠点に飛ぶことを意味する（下記のグラフ（[Wikimedia Commons](https://commons.wikimedia.org/wiki/File:ECClines.svg)から引用）の 1 を参照）。

$P$ 自身を足す $P+P$ の移動を確認する。 $P+P$ は、基本的に点 $P$ での接線が楕円曲線と交わる第二の点に移動するのであるが、第二の点が存在しなければ単純に点の反対の点に移動する。ところが、点 $P$ が x 軸上にある場合、反対の点がないから $P+P$ は動かないように見える（下記のグラフの 4 を参照）。しかし、この場合、y 座標が 0 なので $-P=P$ となるから、規則 2 が適用されて $P+P=P+(-P)=0$ となる。つまり無限遠点に飛ぶ。こうして、$P$ を足し続けると常に点が $E$ 上を移動し続けることがわかる。

![](https://upload.wikimedia.org/wikipedia/commons/c/c1/ECClines.svg)

ここで、 $p>3$ を素数とし、 $p$ に対する有限体 $\mathbb{F}_p=\{0,\,1,\,\ldots,\,p-1\}$ を導入する。有限体 $\mathbb{F}_p$ は、 $p$ 個ある要素の間で四則演算が $p$ で割った余りに還元される形で定義される集合である。例えば、$\mathbb{F}_7=\{0,\,1,\,2,\,3,\,4,\,5,\,6\}$ では、次のような計算になる:

$$
5 + 6 = 4, \quad 5 - 6 = 6, \quad 5 \times 6 = 2
$$

これらはそれぞれ合同式

$$
5 + 6 = 11 \equiv 4 \pmod 7, \quad 5 - 6 = -1 \equiv 6 \pmod 7, \quad 5 \times 6 = 30 \equiv 2 \pmod 7
$$

を意味しており、Python のコード `(5 + 6) % 7`、`(5 - 6) % 7`、`(5 * 6) % 7` で計算できる。除算（割り算）は少し複雑で、$x\div y$ は $y\times y^{-1}=1$ を満たす $y^{-1}$ で $x\times y^{-1}$ として計算される。例えば、$5\div6$ の計算は $6\times6=1$ なので $5\div6=5\times6=2$ となる。

有限体 $\mathbb{F}_p$ と楕円曲線 $E: y^2 = x^3 + ax + b$ を組み合わせて、有限体上の楕円曲線 $E(\mathbb{F}_p)$ を、合同式

$$
y^2 \equiv x^3 + ax + b \pmod p
$$

を満たす $\mathbb{F}_p$ の点 $x$ と $y$ の組 $(x,\,y)$ の集合と定義する。有限体が離散なので $E(\mathbb{F}_p)$ は高々 $p^{2}+1$ 個の飛び飛びの点からなる集合である（無限遠点も含まれることに注意）。

$E(\mathbb{F}_p)$ における点同士の足し算では、$\mathbb{F}_p$ の計算が使用される。 $E(\mathbb{F}_p)$ の点 $P=(x,\,y)$ に対して、 $P+P=(x',\,y')$ とすると、 $y\neq0$ なら $(x',\,y')$ を求める計算式は次のようになる（$y=0$ なら $P+P=0$）。

$$
\begin{aligned}
\lambda &= \frac{3x^2 + a}{2y} \pmod p \\
x' &= \lambda^2 - 2x \pmod p \\
y' &= \lambda(x - x') - y \pmod p
\end{aligned}
$$

$E(\mathbb{F}_p)$ 上の点 $G$ を $k$ 回加算した点を $kG$ で表す。この $G$ を**基点**と呼び、$k$ を**離散対数**と呼ぶ。加算の定義から、$kG$ もまた $E(\mathbb{F}_p)$ 上の点である。 $W=kG$ とするとき、 $W$ と基点 $G$ が与えられた状態で整数 $k$ を求める問題を「楕円曲線上の離散対数問題」という。一部の楕円曲線を除き、「楕円曲線上の離散対数問題」を効率的に解くアルゴリズムは未だに見つかっていない。上に示した計算式には計算量の多い剰余演算が含まれるので、$k$ をしらみつぶしに調べる方法では、$k$ が非常に大きい値のときには現実的な時間で計算することはできなくなる。

楕円曲線を使用するデジタル署名アルゴリズムでは、 $E(\mathbb{F}_p)$ を構成する素数 $p$ と楕円曲線、および基点 $G$ はパラメータとして通信当事者間で共通化し、以下のような処理を行う。

**【鍵の生成】**  
秘密鍵となる整数 $k$ をランダムに生成して、公開鍵となる点 $W=kG$ を計算する。

**【署名】**  
発信するメッセージのハッシュ値 $f$ を計算する。暗号学的ハッシュ関数も通信当事者で共通のものを使う必要がある。適当な乱数 $r$ を発生させる。$rG=(\alpha,\,\beta)$ を $\mod p$ で計算する。また、$\varphi=r^{-1}(f+k\alpha)$ を $\mod p$ で計算する。ここで、$r^{-1}$ は $rr^{-1}\equiv1\pmod p$ を満たす。組 $(\alpha,\,\varphi)$ を署名とする。

**【検証】**  
メッセージと署名 $(\alpha,\,\varphi)$ と公開鍵 $W$ が送信される。受信側において、メッセージのハッシュ値 $f$ を計算し、点 $P=(\alpha',\,\beta')$ を次のように計算する:

$$
P
= \frac{f}{\varphi}G + \frac{\alpha}{\varphi}W
= \frac{f + k \alpha}{\varphi}G \pmod p
$$

2 つ目の等号は $W=kG$ を使っている。ここで、$\varphi$ の定義から

$$
\frac{f + k \alpha}{\varphi} = \frac{f + k \alpha}{r^{-1}(f + k \alpha)} = r \pmod p
$$

が成り立つので、メッセージに本人が署名した（つまり秘密鍵 $k$ を使用した）なら $P=rG$ が成り立つ。ゆえに $\alpha=\alpha'$ が成り立つはずである。

$P$ と $G$ だけわかっても、それらから $r$ を求めることは困難なので、第三者が偽の鍵を検証可能とすることは極めて困難である。

**【パラメータと鍵サイズ】**  

**Ed25519** と呼ばれる方式では、パラメータと鍵サイズが以下のように標準化されている:

  * 素数: $p = 2^{255} - 19$
  * 楕円曲線: $y^2 = x^3 + 486662x^2 + x$ （Curve25519 と呼ばれる）
  * 基点: $x = 9, \quad y = 39420360$
  * 鍵サイズ: 256 ビット

**ECDSA** と呼ばれる方式では、[NIST](https://ja.wikipedia.org/wiki/アメリカ国立標準技術研究所)が定めた P-256、P-384、P-521 と呼ばれる楕円曲線がよく使用され、素数や基点、鍵サイズも標準化されている。対応するクラスは次のとおり。

  * NIST P-256: `cryptography.hazmat.primitives.asymmetric.ec.SECP256R1`
  * NIST P-384: `cryptography.hazmat.primitives.asymmetric.ec.SECP384R1`
  * NIST P-521: `cryptography.hazmat.primitives.asymmetric.ec.SECP521R1`

楕円曲線を使用するデジタル署名アルゴリズムは、RSA と比較して小さい鍵サイズで同等のセキュリティ強度を実現できることが知られている。これを利用すれば、通信時にやり取りするデータ量を節約できる。

Ed25519 と ECDSA の比較では、Ed25519 のほうが署名や検証が高速である。これはパラメータが CPU の特性に最適化されているからである。既存のシステムとの互換性が求められる場合でない限り、Ed25519 が推奨される。

### 秘密鍵の作成 ###

`cryptography` では、アルゴリズムの違いによって秘密鍵の作成方法が異なる。

`cryptography.hazmat.primitives.asymmetric` サブパッケージに含まれる以下のクラスメソッド、モジュール関数を使用する。

| アルゴリズム | クラスメソッド・モジュール関数 | 戻り値 | 備考 |
|:---|:---|:---|:---|
| Ed25519 | `ed25519.Ed25519PrivateKey.generate()` | `Ed25519PrivateKey` | |
| ECDSA | `ec.generate_private_key(curve)` | `EllipticCurvePrivateKey` | `curve`: 楕円曲線を指定する |
| RSA | `rsa.generate_private_key(public_exponent, key_size)` | `RSAPrivateKey` | `public_exponent`: 公開指数。`65537` でよい<br />`key_size`: 鍵サイズ。`2048` または `4096` でよい |


In [None]:
from cryptography.hazmat.primitives.asymmetric import ed25519, ec, rsa

def generate_private_key(key_type=""):
    match key_type:
        case "rsa":
            private_key = rsa.generate_private_key(public_exponent=65537, key_size=2048)
        case "ec" | "ecdsa":
            private_key = ec.generate_private_key(ec.SECP384R1())
        case _:
            private_key = ed25519.Ed25519PrivateKey.generate()

    return private_key

if __name__ == "__main__":
    private_key = generate_private_key()
    assert isinstance(private_key, ed25519.Ed25519PrivateKey)

### 公開鍵の作成 ###

`cryptography` では、公開鍵の作成は秘密鍵オブジェクトのメソッドから返される。

``` python
private_key.public_key()
```

秘密鍵クラスと対応する公開鍵クラスは次のとおり（全て `cryptography.hazmat.primitives.asymmetric` サブパッケージに含まれる）。

| アルゴリズム | 秘密鍵クラス | 公開鍵クラス |
|:---|:---|:---|
| Ed25519 | `ed25519.Ed25519PrivateKey` | `ed25519.Ed25519PublicKey` |
| ECDSA | `ec.EllipticCurvePrivateKey` | `ec.EllipticCurvePublicKey` |
| RSA | `rsa.RSAPrivateKey` | `rsa.RSAPublicKey` |

In [None]:
public_key = private_key.public_key()
assert isinstance(public_key, ed25519.Ed25519PublicKey)

### 鍵の保存 ###

Python オブジェクトである鍵オブジェクトをファイルに保存できる形式に変換することを「シリアライズする」という。変換方式（encoding）には、主に以下の方式が使われる。

  * **DER**: バイト列形式
  * **PEM**: テキスト形式。DER を Base64 でエンコードし、ヘッダー（`-----BEGIN {format}-----`）とフッター（`-----END {format}-----`）で囲んだもの

これらの変換方式は、`cryptography.hazmat.primitives.serialization.Encoding` 列挙型のメンバーとして表されている。

DER におけるバイト列のフォーマットや、PEM のヘッダー・フッターの `{format}` を置き換える文字列も標準化されている。`cryptography` は秘密鍵、公開鍵それぞれにフォーマット（format）を表す列挙型を提供しているが、以下のものを選べばよい。

  * 秘密鍵の書式: `cryptography.hazmat.primitives.serialization.PrivateFormat.PKCS8`
  * 公開鍵の書式: `cryptography.hazmat.primitives.serialization.PublicFormat.SubjectPublicKeyInfo`

秘密鍵オブジェクトと公開鍵オブジェクトをシリアライズするには、どのアルゴリズムでも、それぞれ次のメソッドを使用する。

``` python
private_key.private_bytes(encoding, format, encryption_algorithm)
public_key.public_bytes(encoding, format)
```

秘密鍵はとくに安全に保存する必要があるので、`encryption_algorithm` 引数で暗号化を指定することができる。書式に `PrivateFormat.PKCS8` を選んだ場合、それが表す PKCS#8 という規格ではパスワード暗号を使って暗号化できる。パスワード暗号を指定するには、`encryption_algorithm` に `cryptography.hazmat.primitives.serialization.BestAvailableEncryption(password)` としてインスタンス化したものを指定する。`password` はパスワードのバイト列を受け付ける。パスワード暗号を使わないなら、`encryption_algorithm` に `cryptography.hazmat.primitives.serialization.NoEncryption` のインスタンスを指定する必要がある。

`private_bytes()` メソッドと `public_bytes()` メソッドは、バイト列を返す。シリアライズされた鍵データをファイルに保存するには、次のようなコードを書く。

``` python
with open(filename, 'wb') as f:
    f.write(serialized_key)
```

シリアライズされた鍵データから鍵オブジェクトを取得するには、以下の関数を使う。

秘密鍵:

``` python
cryptography.hazmat.primitives.serialization.load_der_private_key(data, password, *, unsafe_skip_rsa_key_validation=False)
cryptography.hazmat.primitives.serialization.load_pem_private_key(data, password, *, unsafe_skip_rsa_key_validation=False)
```
これらの関数は、それぞれ DER、PEM 形式の鍵データを受け取り、秘密鍵オブジェクトを返す。鍵のアルゴリズムを意識する必要はない。

| 引数 | 意味 |
|:---|:---|
| `data` | シリアライズされた鍵データ |
| `password` | シリアライズ時に暗号化されていればパスワード（バイト列）を指定し、そうでなければ `None` を指定する |
| `unsafe_skip_rsa_key_validation` | キーワード専用引数。`True` の場合、RSA 秘密鍵は検証されない代わりに、関数が大幅に高速化される |

公開鍵:

``` python
cryptography.hazmat.primitives.serialization.load_der_public_key(data)
cryptography.hazmat.primitives.serialization.load_pem_public_key(data)
```

これらの関数は、それぞれ DER、PEM 形式の鍵データを受け取り、公開鍵オブジェクトを返す。鍵のアルゴリズムを意識する必要はない。

In [None]:
from cryptography.hazmat.primitives import serialization

def serialize_key(key):
    match key:
        case ed25519.Ed25519PrivateKey() | ec.EllipticCurvePrivateKey() | rsa.RSAPrivateKey():
            return key.private_bytes(
                serialization.Encoding.PEM,
                serialization.PrivateFormat.PKCS8,
                serialization.NoEncryption(),
            )
        case ed25519.Ed25519PublicKey() | ec.EllipticCurvePublicKey() | rsa.RSAPublicKey():
            return key.public_bytes(
                serialization.Encoding.PEM, serialization.PublicFormat.SubjectPublicKeyInfo
            )
        case _:
            raise ValueError("Invalid key type")

def deserialize_keydata(keydata, is_public=False):
    if is_public:
        return serialization.load_pem_public_key(keydata)
    else:
        return serialization.load_pem_private_key(keydata, password=None)

if __name__ == "__main__":
    private_bytes = serialize_key(private_key)
    print(str(private_bytes, "utf-8"))
    assert isinstance(deserialize_keydata(private_bytes), ed25519.Ed25519PrivateKey)
    public_bytes = serialize_key(public_key)
    print(str(public_bytes, "utf-8"))
    assert isinstance(deserialize_keydata(public_bytes, is_public=True), ed25519.Ed25519PublicKey)

-----BEGIN PRIVATE KEY-----
MC4CAQAwBQYDK2VwBCIEINp3hMy0zzd/T+bhhSoeVMKojnDrzZADL49ij3cf4YQK
-----END PRIVATE KEY-----

-----BEGIN PUBLIC KEY-----
MCowBQYDK2VwAyEAnYdKFcY4Gl3kJHu1EVVeDSvx5EEO2sVZSj/GhHISMXs=
-----END PUBLIC KEY-----



### 署名と検証 ###

署名と検証では、どのアルゴリズムでも暗号学的ハッシュ関数を使用して安全性を強化している。`cryptography` では、暗号学的ハッシュ関数をサポートするクラス（ハッシュアルゴリズムクラス）のインスタンスが使用される。主なものは次のとおり。

| アルゴリズム | ハッシュ長 | ハッシュアルゴリズムクラス |
|:---|:---|:---|
| SHA-256 | 32 バイト | `cryptography.hazmat.primitives.hashes.SHA256` |
| SHA-512 | 64 バイト | `cryptography.hazmat.primitives.hashes.SHA512` |

ECDSA では、ハッシュアルゴリズムを組み込んだ署名アルゴリズムを構成する。ハッシュアルゴリズムクラスのインスタンス `algorithm` を `cryptography.hazmat.primitives.asymmetric.ec.ECDSA(algorithm)` と渡すインスタンス化により署名アルゴリズムオブジェクトを作成する必要がある。

Ed25519 では、SHA-512 を組み込んだ署名アルゴリズムが使われるので、ハッシュ関数を選択することはできない。

RSA を使用するデジタル署名アルゴリズムでは、メッセージをハッシュ化するだけでなく、パディングの中でもハッシュ関数が使用される。メッセージのハッシュ値を鍵サイズでブロックに分割し、ブロック毎に処理するため、ハッシュ値のサイズがブロックサイズの整数倍でない場合、適当なデータを追加して整数倍にする。これを**パディング**という。メッセージに乱数を加え、ハッシュ関数とマスク生成関数（MGF）を使用してパディングを行う方式を **PSS**（Probabilistic Signature Scheme）という。この PSS を使用することが推奨されている。次のクラスを使う。

``` python
cryptography.hazmat.primitives.asymmetric.padding.PSS(mgf, salt_length)
```

| 引数 | 意味 |
|:---|:---|
| `mgf` | マスク生成関数を指定する。現時点でサポートされているのは `cryptography.hazmat.primitives.asymmetric.padding.MGF1(algorithm)` のみ。<br />`algorithm` にハッシュアルゴリズムクラスのインスタンスを指定する |
| `salt_length` | ソルト値の長さを指定する。クラス定数 `PSS.DIGEST_LENGTH` または `PSS.MAX_LENGTH` にすることが推奨されている |

`cryptography` では、デジタル署名は秘密鍵オブジェクトの `sign()` メソッドで行うが、上記のようにアルゴリズムごとに必要な情報が違うため、メソッドが受け付ける引数が異なる。

| アルゴリズム | 署名メソッド | 機能 | 戻り値 |
|:---|:---|:---|:---|
| Ed25519 | `sign(data)` | バイト列に対する 64 バイト長の署名を返す | `bytes` |
| ECDSA | `sign(data, signature_algorithm)` | バイト列に対する署名を返す。`signature_algorithm` に署名アルゴリズムオブジェクトを指定する | `bytes` |
| RSA | `sign(data, padding, algorithm)` | バイト列に対する署名を返す。`padding` にパディング方式を指定する（PSS でよい）。`algorithm`<br /> にメッセージのハッシュ化に使用するハッシュアルゴリズムクラスのインスタンスを指定する | `bytes` |

署名の検証は、公開鍵オブジェクトの `verify()` メソッドで行うが、これもアルゴリズムごとに受け付ける引数が異なる。

| アルゴリズム | 検証メソッド | 機能 | 戻り値 |
|:---|:---|:---|:---|
| Ed25519 | `verify(signature, data)` | 署名とデータを検証する | `None` |
| ECDSA | `verify(signature, data, signature_algorithm)` | 署名とデータを検証する。`signature_algorithm` には `sign()` と同じものを指定<br />する | `None` |
| RSA | `verify(signature, data, padding, algorithm)` | 署名とデータを検証する。`padding` と `algorithm` には `sign()` と同じものを指定<br />する | `None` |

`verify()` メソッドでは、署名の検証が失敗した場合に `cryptography.exceptions.InvalidSignature` 例外が発生する。

In [None]:
from cryptography.hazmat.primitives import hashes
from cryptography.hazmat.primitives.asymmetric import padding

def sign(private_key, data):
    match private_key:
        case ed25519.Ed25519PrivateKey():
            return private_key.sign(data)
        case ec.EllipticCurvePrivateKey():
            return private_key.sign(data, ec.ECDSA(hashes.SHA256()))
        case rsa.RSAPrivateKey():
            return private_key.sign(
                data,
                padding.PSS(mgf=padding.MGF1(), salt_length=padding.PSS.MAX_LENGTH),
                hashes.SHA256(),
            )
        case _:
            raise ValueError("Invalid key type")

def verify(public_key, signature, data):
    match public_key:
        case ed25519.Ed25519PublicKey():
            return public_key.verify(signature, data)
        case ec.EllipticCurvePublicKey():
            return public_key.verify(signature, data, ec.ECDSA(hashes.SHA256()))
        case rsa.RSAPublicKey():
            return public_key.verify(
                signature,
                data,
                padding.PSS(mgf=padding.MGF1(), salt_length=padding.PSS.MAX_LENGTH),
                hashes.SHA256(),
            )
        case _:
            raise ValueError("Invalid key type")

if __name__ == "__main__":
    # 署名
    message = b"my authenticated message"
    signature = sign(private_key, message)
    # 検証
    loaded_public_key = deserialize_keydata(public_bytes, is_public=True)
    verify(loaded_public_key, signature, message)

### デジタル証明書 ###

公開鍵には「なりすまし攻撃」に弱いという弱点がある。例えば、アリスからボブへのメッセージを、通信の途中で悪意のある第三者マロリーが改ざんしたうえで自分の秘密鍵で署名し、アリスになりすまして偽のメッセージと署名と公開鍵を送信すれば、ボブにおいて検証は成功する。なぜなら、署名は間違いなく検証に用いたマロリーの公開鍵と対応する秘密鍵によって作成されたからである。

そこで、公開鍵が確かに送信者本人のものであると受信者が確認できるようにするために、公開鍵と所有者に関する情報を含むデータに「信頼できる第三者」がデジタル署名を添付するという手法が考案された。公開鍵の真正性を証明するための一連のデータセットを**デジタル証明書**（digital certificate）または**公開鍵証明書**（public key certificate）という。

「信頼できる第三者」として振る舞う組織を**認証局**（Certificate Authority; CA）と呼ぶ。送信者は認証局に自らの識別（身元）情報や公開鍵を申請し、認証局の秘密鍵でデジタル署名されたデジタル証明書を作成してもらい、これを受信者に渡す。受信者は認証局の公開鍵を使って署名を検証することで、公開鍵の所有者が送信者本人であると認証局が主張していることを確かめることができる。

受信者が素早く認証局の署名を検証するためには、事前に認証局の公開鍵を入手しておく必要がある。認証局は世界中に多数存在しており、一般には送信者がどの認証局の証明書を使用するのかを受信者は知らない。全ての認証局の公開鍵を入手することは現実的ではない。

この問題を解決するために、世界中の認証局は階層構造を構成し、各認証局は自分自身の公開鍵に上位の認証局から署名してもらったデジタル証明書を公開している。最上位の認証局を**ルート認証局**という。ルート認証局は自分自身の公開鍵に自分自身で署名した自己証明書を公開しており、これを**ルート証明書**という。送信者はルート証明書より下位の一連のデジタル証明書を受信者に渡す。受信者はルート証明書を事前に入手しておけば、送信者から渡された各証明書から下位認証局の公開鍵を取り出すことを繰り返して、最終的には送信者のために証明書を発行した認証局の公開鍵を取り出すことができる。

ルート証明書は自己証明書なので信頼性が問題となるが、受信者自身がそれを調査する必要はない。OS ベンダーが安全性を調査したルート証明書が OS の一部としてインストールされているからである。

現在広く普及しているデジタル証明書の規格は [ITU-T](https://ja.wikipedia.org/wiki/国際電気通信連合電気通信標準化部門) の定めた X.509 である。X.509 証明書は、Web クライアントと Web サーバーの認証に使用される。最も一般的な使用例は、HTTPS を使用する Web サーバーである。

認証局に対してデジタル証明書の発行を申請するために送るメッセージを **CSR**（Certificate Signing Request）という。認証局から証明書を取得する場合の通常のフローは次のとおり。

  1. 秘密鍵と公開鍵のペアを作成する。
  2. 自分がその鍵を所有していることを証明するために自分の秘密鍵で署名された証明書のリクエスト（CSR）を作成する。
  3. CSR を認証局に渡す。秘密鍵は渡さない。
  4. 認証局は、証明書が必要なリソース（ドメインなど）を所有していることを検証する。
  5. 認証局は、公開鍵と認証対象のリソースを識別する、認証局によって署名された証明書を提供する。
  6. その証明書を秘密鍵と組み合わせてサーバートラフィックに使用するようにサーバーを構成する。

一般的な CSR には次のような情報が含まれている。

  * 公開鍵
  * 所有者の情報─ドメイン名・組織名・部署名・国コード・州または県・市区町村
  * 公開鍵と署名に使用される暗号化アルゴリズムの種類
  * 以上のデータに対するデジタル署名

`cryptography` は CSR を構成するためのビルダー `x509.CertificateSigningRequestBuilder` を提供している。

In [None]:
from cryptography import x509
from cryptography.hazmat.primitives import hashes

def make_csr(private_key):
    builder = x509.CertificateSigningRequestBuilder()
    builder = builder.subject_name(
        x509.Name(
            [
                x509.NameAttribute(x509.oid.NameOID.COUNTRY_NAME, "US"),
                x509.NameAttribute(x509.oid.NameOID.STATE_OR_PROVINCE_NAME, "California"),
                x509.NameAttribute(x509.oid.NameOID.LOCALITY_NAME, "San Francisco"),
                x509.NameAttribute(x509.oid.NameOID.ORGANIZATION_NAME, "My Company"),
                x509.NameAttribute(x509.oid.NameOID.COMMON_NAME, "mysite.com"),
            ]
        )
    )
    builder = builder.add_extension(
        x509.SubjectAlternativeName(
            [
                x509.DNSName("mysite.com"),
                x509.DNSName("www.mysite.com"),
                x509.DNSName("subdomain.mysite.com"),
            ]
        ),
        critical=True,
    )
    if isinstance(private_key, ed25519.Ed25519PrivateKey):
        algorithm = None
    else:
        algorithm = hashes.SHA256()
    return builder.sign(private_key, algorithm)

if __name__ == "__main__":
    csr = make_csr(private_key)
    pem = csr.public_bytes(serialization.Encoding.PEM)
    print(str(pem, "utf-8"))

-----BEGIN CERTIFICATE REQUEST-----
MIIBNTCB6AIBADBkMQswCQYDVQQGEwJVUzETMBEGA1UECAwKQ2FsaWZvcm5pYTEW
MBQGA1UEBwwNU2FuIEZyYW5jaXNjbzETMBEGA1UECgwKTXkgQ29tcGFueTETMBEG
A1UEAwwKbXlzaXRlLmNvbTAqMAUGAytlcAMhAJ2HShXGOBpd5CR7tRFVXg0r8eRB
DtrFWUo/xoRyEjF7oFEwTwYJKoZIhvcNAQkOMUIwQDA+BgNVHREBAf8ENDAyggpt
eXNpdGUuY29tgg53d3cubXlzaXRlLmNvbYIUc3ViZG9tYWluLm15c2l0ZS5jb20w
BQYDK2VwA0EANpG5ifEWDLkhGxuq0GRu832ioKQguG6pI3G5OuZTY7BPVt9n20ZC
jZshOvA+BTz0aVnohV0oiMKkBFVJcqTFCw==
-----END CERTIFICATE REQUEST-----



SSL/TLS
-------

**SSL**（Secure Sockets Layer）と **TLS**（Transport Layer Security）は、インターネット上でデータを暗号化して送受信するためのプロトコルである。HTTPS 通信で使用される。

SSL は、公開鍵暗号方式（RSAなど）と共通鍵暗号方式（AES など）を組み合わせて、安全な通信を実現する。その仕組みは **PKI**（Public Key Infrastructure、公開鍵基盤）と呼ばれる。

SSL 暗号化通信の流れは次のようになる。

  1. クライアント側から SSL 通信のリクエストをサーバー側へ送信する。
  2. サーバー側から自身の公開鍵に対するデジタル証明書（SSL サーバー証明書）がクライアント側に送付される。クライアント側は、ルート証明書を使って SSL サーバー証明書の署名を検証する。
  3. クライアント側は、一時的な共通鍵を作成し、SSL サーバー証明書から取り出した公開鍵を使って暗号化し、サーバー側へ送信する。サーバー側は、これを公開鍵と対になる秘密鍵を使って復号して共通鍵を取り出す。
  4. クライアント側から個人情報などの機密性の高いデータを、共通鍵で暗号化しサーバー側へ送信する。サーバー側は、受け取った暗号データを保持する共通鍵で復号してデータを取得する。

TLS は SSL を拡張したもので、SSL と区別せずに呼ばれたり、SSL/TLS と表記されたりする。

Python 標準ライブラリの `ssl` モジュールは、OpenSSL をラップして SSL/TLS 暗号化通信を実現するための機能を提供している。SSL/TLS 接続を構成するための設定を格納するオブジェクトとして、`ssl.SSLContext`
クラスが提供されている。これを使って、証明書や暗号化方式などを柔軟に設定できる。一般的な設定の `ssl.SSLContext` インスタンスを作成するための関数が提供されている。

``` python
ssl.create_default_context(purpose=Purpose.SERVER_AUTH, cafile=None, capath=None, cadata=None)
```

この関数は、新規の `ssl.SSLContext` オブジェクトを、与えられた `purpose` のデフォルト設定で返す。`purpose` に指定できる値は以下の定数から選ぶ。

| 定数 | 意味 |
|:---|:---|
| `ssl.Purpose.SERVER_AUTH` | Web サーバーの認証に使われるための高いセキュリティレベルの設定を表す |
| `ssl.Purpose.CLIENT_AUTH` | Web クライアントの認証に使われるための高いセキュリティレベルの設定を表す |

`cafile`, `capath`, `cadata` はルート証明書を指定するためのオプションで、全て `None` であれば、この関数は代わりに OS で保管されているルート証明書を選択する。

`ssl.SSLContext` の主な属性は次のとおり。

| 属性 | 意味 |
|:---|:---|
| `check_hostname` | `False` に指定すると通信接続相手から受け取った証明書がホスト名と一致することをチェックしない |
| `verify_mode` | 以下の定数から選ぶ。<br /><br />・`ssl.CERT_NONE`: クライアント側では全ての証明書が受け入れられる。サーバー モードでは、クライアントから証明書は要求されないため、<br />　クライアントは認証のために証明書を送信しない<br /><br />・`ssl.CERT_OPTIONAL`: クライアントモードでは、`CERT_REQUIRED` と同じ。サーバーモードでは、クライアント証明書要求がクライアントに送信<br />　される<br /><br />・`ssl.CERT_REQUIRED`: 接続相手からの証明書が必要であり、証明書が提供されない場合、または証明書の検証が失敗した場合は `SSLError`<br />　 が発生する |

`urllib.request.urlopen()` 関数で SSL サーバー証明書のエラーを無視するには、次のようなコードを書く。

``` python
import ssl
context = ssl.create_default_context()
context.check_hostname = False
context.verify_mode = ssl.CERT_NONE
with urllib.request.urlopen(req, context=context) as response:
    ...
```