<a href="https://colab.research.google.com/github/Hideyuki-Machida/Python-tinychain/blob/main/%E6%9A%97%E5%8F%B7%E5%AD%A6%E7%9A%84%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E9%96%A2%E6%95%B0_SHA256.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 暗号学的ハッシュ関数-SHA256

### ■ 暗号学的ハッシュ関数

[wikipedia - 暗号学的ハッシュ関数 から](https://ja.wikipedia.org/wiki/%E6%9A%97%E5%8F%B7%E5%AD%A6%E7%9A%84%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E9%96%A2%E6%95%B0#%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0
)

#### 要求される性質

---
<p>
暗号学的ハッシュ関数には、一般的な <a href="https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E9%96%A2%E6%95%B0"> ハッシュ関数</a>  に望まれる性質や、決定的であることの他、次のような暗号学的な性質が要求される。

* ハッシュ値から、そのようなハッシュ値となるメッセージを得ることが（事実上）不可能であること（原像計算困難性、弱衝突耐性）。
* 同じハッシュ値となる、異なる2つのメッセージのペアを求めることが（事実上）不可能であること（強衝突耐性）。
* メッセージをほんの少し変えたとき、ハッシュ値は大幅に変わり、元のメッセージのハッシュ値とは相関がないように見えること。
</p>

---
</br>

### ■ SHA-256

現在広く使われているのがSHA-2系</br>
SHA-224、SHA-256、SHA-384、SHA-512

## ■ ARX型

* 右シフト演算（Addition）
* 巡回右シフト演算（Rotation）
* 排他的論理和（XOR）

の組み合わせによって非線形の結果を得る。</br>
対比としてS-box型がある。

参考 :
* [Practical Cryptographic for Developers - Hash Functions](https://cryptobook.nakov.com/cryptographic-hash-functions)
* [SHA256の実装を pythonで読むために](https://speakerdeck.com/egapool/sha256falseshi-zhuang-wo-pythondedu-mutameni)

## Pythonでのハッシュ生成

hashlib</br>
https://docs.python.org/ja/3/library/hashlib.html

In [1]:
import hashlib
from bitarray import bitarray
import binascii

m = hashlib.sha256()
m.update(b"Nobody inspects")
m.update(b" the spammish repetition")
print( "digest : ", m.digest() )
print( "hexdigest : ", m.hexdigest() )

print( "hexdigest : ", hashlib.sha256(b"Nobody inspects the spammish repetition").hexdigest() )

# ---------------------------------------------------------------------------------

# 任意長のビット列を入力とし、固定長のビット列を出力とする。
hexdigest001 = hashlib.sha256(b"Nobody inspects").hexdigest()
hexdigest002 = hashlib.sha256(b"Nobody inspects the spammish repetition").hexdigest()
print( "hashlength : ",  len(hexdigest001))
print( "hashlength : ",  len(hexdigest002))


message001 = b"0"
message002 = b"1"

# メッセージをほんの少し変えたとき、ハッシュ値は大幅に変わり、元のメッセージのハッシュ値とは相関がないように見えること。
hexdigest001 = hashlib.sha256(message001).hexdigest()
hexdigest002 = hashlib.sha256(message002).hexdigest()
print( "message : ", message001, ", hashlength : ",  len(hexdigest001), ", hexdigest : ",  hexdigest001)
print( "message : ", message002, ", hashlength : ",  len(hexdigest002), ", hexdigest : ",  hexdigest002)


digest :  b'\x03\x1e\xdd}Ae\x15\x93\xc5\xfe\\\x00o\xa5u+7\xfd\xdf\xf7\xbcN\x84:\xa6\xaf\x0c\x95\x0fK\x94\x06'
hexdigest :  031edd7d41651593c5fe5c006fa5752b37fddff7bc4e843aa6af0c950f4b9406
hexdigest :  031edd7d41651593c5fe5c006fa5752b37fddff7bc4e843aa6af0c950f4b9406
hashlength :  64
hashlength :  64
message :  b'0' , hashlength :  64 , hexdigest :  5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9
message :  b'1' , hashlength :  64 , hexdigest :  6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b


In [2]:
!pip install bitarray

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [3]:
# 2進数で取得
bits = bitarray(endian='big')
bits.frombytes( hashlib.sha256(message001).digest() )
bit001 = bits.to01()
print( "message : ", message001, ", hashlength : ",  len(bit001), ", bit : ", bit001)

bits = bitarray(endian='big')
bits.frombytes( hashlib.sha256(message002).digest() )
bit002 = bits.to01()
print( "message : ", message002, ", hashlength : ",  len(bit002), ", bit : ", bit002)


message :  b'0' , hashlength :  256 , bit :  0101111111101100111010110110011011111111110010000110111100111000110110010101001001111000011011000110110101101001011011000111100111000010110110111100001000111001110111010100111010010001101101000110011100101001110101110011101000100111111110110101011111101001
message :  b'1' , hashlength :  256 , bit :  0110101110000110101100100111001111111111001101001111110011100001100111010110101110000000010011101111111101011010001111110101011101000111101011011010010011101010101000100010111100011101010010011100000000011110010100101101110110110111100001110101101101001011


# SHA256 Pythonでの実装

参考 : 下記からPythonのコードに移植
* [BitCoinにおけるブロックハッシュの生成プログラム](http://kobayashi.hub.hit-u.ac.jp/topics/hash.html)
* [【Go】暗号化やハッシュ化について考えるついでにSHA256を実装する](https://www.air-h.jp/articles/emopro/%E3%80%90go%E3%80%91%E6%9A%97%E5%8F%B7%E5%8C%96%E3%82%84%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E5%8C%96%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E8%80%83%E3%81%88%E3%82%8B%E3%81%A4%E3%81%84%E3%81%A7%E3%81%AB/)</br>
(各項目のテキストは、ほぼこちらをそのまま使用させていただいています。)

</br>

### 大まかな流れ

1. パディング処理
2. メッセージを64byteごとのブロックに分割
3. 前段のハッシュとブロックに対して64回のラウンド処理をして32byteのハッシュを得る
4. 3 を全ブロック分回す

### パディング処理
(入力bytes+以下の9bytes）が64 bytesに満たない場合には、0x00で埋めて64bytesにします。64bytesを超える場合は（64の倍数）bytesになるように調整します。

入力bytes直後に0x80を入れる
byte配列の末尾8byteにビッグエンディアンで入力のビット数（入力bytes数 ×8bits）
「aiueo」という入力をした場合には、以下のbyte配列となります。

In [4]:
# ---------------------------------------------------------------------------------
# コード

def Padding(input, length):
    l = len(bytearray(input))
    bits = l * 8
    mod = l % length
    padcount = length - mod
    if mod > length - 8:
        padcount += 64

    for i in range(padcount):
        if i == 0:
            # 入力の区切りに0x80を入れる
            input.append(0x80)
        else:
            # そのほかは0x00で埋める
            input.append(0x00)

    for i in range(1, 9):
        input[ len(input) - i ] = bits & 0xff
        bits = bits >> 8
    return input

# ---------------------------------------------------------------------------------

# ---------------------------------------------------------------------------------
# 動作確認

input = b"aiueo"
input = bytearray(input)
print("input : ", input, "bytelength : ", len(input))
pad = Padding(input, 64)
print("pad : ", pad)
print("pad byte : ", len(pad))

# ---------------------------------------------------------------------------------

input :  bytearray(b'aiueo') bytelength :  5
pad :  bytearray(b'aiueo\x80\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00(')
pad byte :  64


### メッセージブロック（64bytes）に分割

パディング処理したメッセージを64bytes毎の配列に分割します。</br>
パディング処理したメッセージが128bytesなら2つのメッセージブロックになります。</br>
「aiueo」なら1つのメッセージブロックです。</br>
ここからメッセージブロックを1つずつ使ってハッシュ値を演算していきます。

In [5]:
# ---------------------------------------------------------------------------------
# コード

def Split(input, length):
    barr = []
    n = int(len(input) / length)
    for i in range(n):
        start = i * length
        end = (i+1) * length
        barr.append(input[ start : end ])

    return barr

# ---------------------------------------------------------------------------------

# ---------------------------------------------------------------------------------
# 動作確認

msgblocks = Split(pad, 64)
print("pad : ", pad)
print("msgblocks : ", msgblocks)
print("msgblocks len : ", len(msgblocks))

# ---------------------------------------------------------------------------------

pad :  bytearray(b'aiueo\x80\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00(')
msgblocks :  [bytearray(b'aiueo\x80\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00(')]
msgblocks len :  1


### バイト配列をuint32の配列に変換

Pythonのint型はuint32ではないので、Numpyを使用する。


In [6]:
import numpy as np

# ---------------------------------------------------------------------------------
# コード

def uint32Array(b):
    arr = np.array([], dtype=np.uint32)
    for i in range((int(len(b)/4))):
        v = 0
        v += b[i*4] << 24
        v += b[i*4+1] << 16
        v += b[i*4+2] << 8
        v += b[i*4+3]
        arr = np.append(arr, np.array([v], dtype=np.uint32))
    return arr

# ---------------------------------------------------------------------------------

# ---------------------------------------------------------------------------------
# 動作確認

print("pad : ", pad)
words = uint32Array(msgblocks[0])
print("words : ", words)
print("words dtype : ", words.dtype)

# ---------------------------------------------------------------------------------

pad :  bytearray(b'aiueo\x80\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00(')
words :  [1634301285 1870659584          0          0          0          0
          0          0          0          0          0          0
          0          0          0         40]
words dtype :  uint32


In [7]:
# ---------------------------------------------------------------------------------
# コード

# 右シフト
def ShR(x, n):
	return x >> n

# 右ローテート
def RotR(x, n):
	return x >> n | x << (32 - n)

# 選択関数: xのbitが1→yを選択、xのbitが0→zを選択
def Ch(x, y, z):
    return (x & y) ^ (~x & z)

# 多数決関数: x,y,zのbitのうち、2つ以上が0→0、2つ以上が1→1
def Maj(x, y, z):
    return (x & y) ^ (x & z) ^ (y & z)


def LargeSigma0(x):
	return RotR(x, 2) ^ RotR(x, 13) ^ RotR(x, 22)

def LargeSigma1(x):
	return RotR(x, 6) ^ RotR(x, 11) ^ RotR(x, 25)

def SmallSigma0(x):
	return RotR(x, 7) ^ RotR(x, 18) ^ ShR(x, 3)

def SmallSigma1(x):
	return RotR(x, 17) ^ RotR(x, 19) ^ ShR(x, 10)

# ---------------------------------------------------------------------------------

# メッセージスケジュールを準備

メッセージブロック（64bytes）からメッセージスケジュール（uint32 × 64 = 256bytes）を作成します。</br>
</br>
まずはbytes配列をuint32の配列に変換します。</br>
指定の計算方法でその配列に要素数が64個になるまで値を追加していきます。</br>
これがメッセージスケジュールになります。</br>

In [8]:
# ---------------------------------------------------------------------------------
# コード

# メッセージブロックから64個のワード（uint32）配列（メッセージスケジュール）を作成
def MessageSchedule(bl):
    words = uint32Array(bl)
    for i in range(16, 64):
        index1 = i-2
        index2 = i-7
        index3 = i-15
        index4 = i-16
        w = SmallSigma1(words[index1:index1+1]) + words[index2] + SmallSigma0(words[index3:index3+1]) + words[index4]
        words = np.append(words, w[0])
    return words

# ---------------------------------------------------------------------------------

# ---------------------------------------------------------------------------------
# 動作確認

print("msgblocks[0]: ", msgblocks[0])
words = MessageSchedule(msgblocks[0])
print("words: ", words)

# ---------------------------------------------------------------------------------

msgblocks[0]:  bytearray(b'aiueo\x80\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00(')
words:  [1634301285 1870659584          0          0          0          0
          0          0          0          0          0          0
          0          0          0         40 1855492421 1871773696
 1519500475 2686180986 3923534453 2497315577 3176021749 2946457531
 1209809537 2660434598  975071357 3405552336 2384052431 2605646332
 3624341631 1281540195 3294545046 4104651220 4149537045  496549127
 3486352983  695423928  851848069 1020485302 2882120955 3247675447
 3657290058 1491371362  879212075 3234833918 3250889499 2730740993
   47887314 2096067085 2190952397 2169271709 2104461225  644947963
 3306620384 1959381613  485688130  460324487  739149741 2488841952
 4209566228 3673024444 2288147491  394297664]


In [9]:
# 演算に使用するK定数
k = np.array([
    0x428a2f98, 0x71374491, 0xb5c0fbcf, 0xe9b5dba5,
    0x3956c25b, 0x59f111f1, 0x923f82a4, 0xab1c5ed5,
    0xd807aa98, 0x12835b01, 0x243185be, 0x550c7dc3,
    0x72be5d74, 0x80deb1fe, 0x9bdc06a7, 0xc19bf174,
    0xe49b69c1, 0xefbe4786, 0x0fc19dc6, 0x240ca1cc,
    0x2de92c6f, 0x4a7484aa, 0x5cb0a9dc, 0x76f988da,
    0x983e5152, 0xa831c66d, 0xb00327c8, 0xbf597fc7,
    0xc6e00bf3, 0xd5a79147, 0x06ca6351, 0x14292967,
    0x27b70a85, 0x2e1b2138, 0x4d2c6dfc, 0x53380d13,
    0x650a7354, 0x766a0abb, 0x81c2c92e, 0x92722c85,
    0xa2bfe8a1, 0xa81a664b, 0xc24b8b70, 0xc76c51a3,
    0xd192e819, 0xd6990624, 0xf40e3585, 0x106aa070,
    0x19a4c116, 0x1e376c08, 0x2748774c, 0x34b0bcb5,
    0x391c0cb3, 0x4ed8aa4a, 0x5b9cca4f, 0x682e6ff3,
    0x748f82ee, 0x78a5636f, 0x84c87814, 0x8cc70208,
    0x90befffa, 0xa4506ceb, 0xbef9a3f7, 0xc67178f2
], dtype=np.uint32)


### ローテーション処理

a〜hの値を現在のハッシュ値で初期化し、先ほどのメッセージスケジュールのワードたちで演算していきます。</br>
d = c, c = b, b = a…みたいな感じで値がローテーションするので、ローテーション処理とか呼ばれてます。aとeのところで演算が加わるのでa~hの値がだんだん変わっていく感じです。</br>
</br>
左からa b c d e f g hの値の変遷です。</br>
同じ値が斜めに走ってるのがわかります。</br>


### 出力！

In [10]:
# ---------------------------------------------------------------------------------
# コード

def list_to_int(l):

    s = 0
    c = 1
    for i in reversed(l):
        s += i * c
        c *= 2

    return s

def list_to_digest(binary):

    res = b''
    for i in range(0, len(binary), 8):
        res += list_to_int(binary[i: i + 8]).to_bytes(1, byteorder="big")
    return res

def Rotation(H, words, isPrint):

    # ローテーション処理前の初期値
    a, b, c, d, e, f, g, h = H[0:1], H[1:2], H[2:3], H[3:4], H[4:5], H[5:6], H[6:7], H[7:8]

    # ローテーション処理
    for t, w in enumerate( words ):
        T1 = h + LargeSigma1(e) + Ch(e, f, g) + k[t:t+1] + w
        T2 = LargeSigma0(a) + Maj(a, b, c)
        h = g
        g = f
        f = e
        e = d + T1
        d = c
        c = b
        b = a
        a = T1 + T2

        if isPrint :
            # ローテーションの状態をprint
            print(t, a, b, c, d, e, f, g, h)

    # ハッシュ値を更新
    H[0] = a + H[0]
    H[1] = b + H[1]
    H[2] = c + H[2]
    H[3] = d + H[3]
    H[4] = e + H[4]
    H[5] = f + H[5]
    H[6] = g + H[6]
    H[7] = h + H[7]

    return H

# ---------------------------------------------------------------------------------

# ---------------------------------------------------------------------------------
# 動作確認

# ハッシュの初期値
H = np.array([
    0x6a09e667, 0xbb67ae85, 0x3c6ef372, 0xa54ff53a,
    0x510e527f, 0x9b05688c, 0x1f83d9ab, 0x5be0cd19
], dtype=np.uint32)

print("H", H[0], H[1], H[2], H[3], H[4], H[5], H[6], H[7])

H = Rotation(H, words, True)

print("H", H[0], H[1], H[2], H[3], H[4], H[5], H[6], H[7])

# 32bit毎の２進数配列に変換
H = list(map(lambda x: [int(y) for y in list("{:0=32b}".format(x))], H))

print("H", H[0], H[1], H[2], H[3], H[4], H[5], H[6], H[7])

hash = sum(H, [])

print("hash : ", hash)
print("hash : ", binascii.hexlify( list_to_digest( hash ) ) )
print("hash : ", binascii.hexlify( list_to_digest( hash ) ) == b"fa06926df12aec4356890d4847d43f79101c93548a6b65e4b57bcb651294beef")

# ---------------------------------------------------------------------------------

H 1779033703 3144134277 1013904242 2773480762 1359893119 2600822924 528734635 1541459225
0 [1567751602] [1779033703] [3144134277] [1013904242] [4197537799] [1359893119] [2600822924] [528734635]
1 [2442484670] [1567751602] [1779033703] [3144134277] [2506752755] [4197537799] [1359893119] [2600822924]
2 [3424800932] [2442484670] [1567751602] [1779033703] [24698736] [2506752755] [4197537799] [1359893119]
3 [3845481666] [3424800932] [2442484670] [1567751602] [849447784] [24698736] [2506752755] [4197537799]
4 [1710938127] [3845481666] [3424800932] [2442484670] [3010333196] [849447784] [24698736] [2506752755]
5 [3179461844] [1710938127] [3845481666] [3424800932] [2004886474] [3010333196] [849447784] [24698736]
6 [4460680] [3179461844] [1710938127] [3845481666] [595415696] [2004886474] [3010333196] [849447784]
7 [4139157065] [4460680] [3179461844] [1710938127] [571878524] [595415696] [2004886474] [3010333196]
8 [3248858463] [4139157065] [4460680] [3179461844] [3709777066] [571878524] [59541569

In [11]:
# ---------------------------------------------------------------------------------
# コード

def SHA256(input):
    # ハッシュの初期値
    H = np.array([
        0x6a09e667, 0xbb67ae85, 0x3c6ef372, 0xa54ff53a,
        0x510e527f, 0x9b05688c, 0x1f83d9ab, 0x5be0cd19
    ], dtype=np.uint32)

    input = bytearray(input)

    # パディング処理
    pad = Padding(input, 64)

    # 64byteで分割してメッセージブロックの作成
    msgblocks = Split(pad, 64)

    for bl in msgblocks:
        # メッセージスケジュールを準備
        words = MessageSchedule(bl)

        # ローテーション処理
        H = Rotation(H, words, False)

        # 次のメッセージブロックへ

    # 32bit毎の２進数配列に変換
    H = list(map(lambda x: [int(y) for y in list("{:0=32b}".format(x))], H))

    # 256bitの２進数配列に変換してreturn
    return sum(H, [])

# ---------------------------------------------------------------------------------

# ---------------------------------------------------------------------------------
# 動作確認

# 出力をhashlib.sha256と比較
def test(text):
    print("-" * 100)
    print("text : ", text)
    input = text.encode()
    print("input byte : ", len(bytearray(input)))
    a = SHA256(input)
    print(a)
    aHex = binascii.hexlify( list_to_digest( a ))
    b = binascii.hexlify(hashlib.sha256(input).digest())
    print(aHex == b, " : ", len(a), " : ", aHex, b)

test("aiueo")
test("hello")
test("hello" * 100)
test("となりの柿は、よく客喰う牡蠣だ　！！！！！！")

# ---------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------
text :  aiueo
input byte :  5
[1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1]
True  :  256  :  b'fa06926df12aec4356890d4847d43f79101c93548a6b65e4b57bcb651294beef' b'fa06926df12ae