# RSA 原理與實作

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import sympy as sp
import binascii
import random

## （一）RSA 演算法

1. 亂數生成兩相異質數 $ p, q $ 

2. 令
$ 
\begin{cases}
n = p * q \\ 
\phi(n) = \phi(p) * \phi(q) = (p - 1)(q - 1) \textrm{（歐拉函數）}\\ 
\end{cases}
$

3. 
$
\textrm{令 e 為加密鑰，e 須滿足}
\begin{cases}
e < \phi(n) \\ 
gcd(\phi(n), e) = 1 \\ 
\end{cases}
$


4. 
$ 
\textrm{令 d 為解密鑰，d 須滿足：} 
e * d = \phi(n)k + 1 , k \in Z 
\rightarrow d = \frac{\phi(n)k + 1}{e}
$ 

5. 令 $ M $ 為明文， $ C $ 為密文 $ \rightarrow $
$ \begin{cases}
M ^ e \textrm{ (mod n)} \equiv C \textrm{ 即可完成加密} \\ 
C ^ d \textrm{ (mod n)} \equiv M \textrm{ 即可完成解密} \\ 
\end{cases}
$

## （二）引理

### 0. 算術基本定理

每個大於 1 的自然數，若非質數，則可以寫為 2 個以上的質數乘積，且所有的質因數由小排到大後具唯一性。 

$
\forall a \in N, a > 1, \exists \prod_{i=1}^{n}p_i^{b_i}, \forall p_i \text{ are prime and }p_1 < p_2 < ... < p_n, b_i \in Z ^ +
$

### 1. 歐幾里德演算法（輾轉相除法）

$
\forall m , n, q, r \in Z \mbox{ , if } m = nq + r \mbox{ , then: } \\ 
gcd(m,n) = gcd(n, r) \\
$

$ 
\begin{cases}
gcd(n, 0) & \textrm{, if $n > 0$} \\ 
gcd(m, n) = gcd(m, r) & \textrm{, if $m > n$} \\ 
\end{cases}
$

$ 
\textrm{證明： } gcd(m,n) = gcd(n, r) \\ 
\textrm{令： } gcd(m,n) = g_1, gcd(n, r) = g_2 \\
$

$
\because g_1 | m \textrm{ and } g_1 | n \\
\therefore g_1 | (m - nq) \\
\rightarrow g_1 | r \\
\because g_2 \textrm{ is the greatest common divisor of } n, r\\
\therefore g_2 \geq g_1 \\
$

$
\because g_2 | n \textrm{ and } g_2 | r \\
\therefore g_2 | (nq + r) \\
\rightarrow g_2 | m \\
\because g_1 \textrm{ is the greatest common divisor of } m, n\\
\therefore g_1 \geq g_2 \\
$

$
\because g_2 \geq g_1 \textrm{ and } g_1 \leq g_2 \\
\therefore g_1 = g_2 \\
\rightarrow gcd(m,n) = gcd(q,r) \\
$

### 2. 模反元素

$
\text{定義：} \forall a \in Z, n \in Z^+ , \text{ if } \exists x \text{ st }a x \equiv 1 \text{ mod(n) } , x \text{ 即為 a 在 n 的乘法反元素：} a ^ {-1} \text{ mod(n) }
$

$
\text{證明：} \forall a \in Z, n \in Z^+ , \text{ if } gcd(a,n) = 1,\text{ then } \exists x \text{ st }a x \equiv 1 \text{ mod(n) }
$

$
\because gcd(a, n) = 1 \\
\therefore \exists x, y \in Z \text{ st } ax + ny \equiv 1 \text{ （由輾轉相除法推得） } \\ 
\rightarrow ax + ny \equiv 1 \text{ ( mod n) } \\
\rightarrow ax \equiv 1 \text{ ( mod n) } \\
\rightarrow x \equiv a ^ {-1} \text{ ( mod n) } \\
$

### 3. 歐拉函數

定義：$ \phi(n): $ { $ 1, 2 ... n - 1 $ } 中與 n 互質的元素個素 

$
\forall n \in Z, n = p{_1}^{e_1} p{_2}^{e_2} p{_3}^{e_3}... p{_k}^{e_k} \mbox{ ($\forall i \in Z, i\leq k, p_i$ is prime)} \\
$

$
\phi(n) = n\prod^{k}_{i = 1}(1 - \frac{1}{p_i})
$

證明：$ \phi(n) = n-1 \iff n $ is prime

$
\Rightarrow \quad\\
\textrm{prove by contradiction, suppose n is not prime} \\
\exists m \in Z^+, 1 < m < n \textrm{ st } m | n \\
\rightarrow \phi(n) < n - 1 \textrm{ 矛盾} \\
\rightarrow \textrm{ n is prime} \\
$

$ 
\Leftarrow \quad \\
\because gcd(m, n) = 1, \forall m = 1, 2, ... n - 1 \\
\therefore \phi(n) = n -1 \\
$

### 4. 費馬小定理

$
\forall m \in Z, p \text{ is prime, st } gcd(m, p) = 1 \rightarrow m ^ {p - 1} \equiv 1 \text{ ( mod p )}
$

$
\text{證明：} m ^ {p - 1} \equiv 1 \text{ ( mod p )}
$

$
\text{考慮以下 p - 1 個數：} \\
x_1 = m \text{ ( mod p )} \\ 
x_2 = 2m \text{ ( mod p )} \\ 
... \\
x_{p - 1} = (p - 1)m \text{ ( mod p )} \\ 
\rightarrow \{x_1, x_2, ... x_{p-1}\} \subset \{0,1,2, ...p-1\} \\ 
$

$
\because gcd(m,p) = 1 \\
\therefore p \nmid km, \forall k = 1, 2, ... p - 1 \\
\rightarrow x_i \neq 0, \forall i = 1, 2,... p - 1 \\
\rightarrow \{x_1, x_2,... p - 1\} \subseteq \{1,2, ...p-1\} \\
$

$
\text{引理：} \\ 
\forall a, b, c, n \in Z, \text{ if } gcd(c,n) = 1 \text{ then: } \\ 
ac \equiv bc \text{ ( mod n )} \iff a \equiv b \text{ ( mod n )}
$

$
\Rightarrow \\
\because ac \equiv bc \text{ ( mod n )} \\
\therefore n \mid ac - bc \\
\rightarrow n \mid (a - b)c \\
\because gcd(c, n) = 1 \\
\therefore n \mid a - b \\
\rightarrow a \equiv b \text{ ( mod n )} \\
$

$
\Leftarrow \\
\because a \equiv b \text{ ( mod n )} \\
\therefore n \mid a - b \\
\rightarrow n \mid (a - b)c \\
\rightarrow ac \equiv bc \text{ ( mod n )} \\
$

$
\text{claim: } \forall i \neq j , x_i \neq x_j \text{ st } \{x_1, x_2,... p - 1\} = \{1,2, ...p-1\} \\
\text{prove by contradiction, suppose } \exists i \neq j, x_i = x_j \\
\rightarrow im \equiv jm \text{ ( mod p )} \\
\because gcd(m, p) = 1 \\
\therefore i \equiv j \text{ ( mod p )} \text{ 矛盾}\\
\rightarrow \forall i \neq j , x_i \neq x_j \text{ st } \{x_1, x_2,... p - 1\} = \{1,2, ...p-1\} \\
$

$
\because  1m * 2m ... (p - 1)m \equiv 1 * 2 ... (p - 1) \text{ ( mod p )} \\
\therefore  (p - 1)! m ^ {p - 1} \equiv (p - 1)! \text{ ( mod p )} \\
\text{將左右兩式同除以：} (p - 1)! \\
\rightarrow m ^ {p - 1} \equiv 1 \text{ ( mod p )} \\
$

### 5. 中國餘式定理

$ $

## （三）RSA 證明

$ 
\textrm{證明： }
\begin{cases}
M ^ e \textrm{ (mod n)} \equiv C  \\ 
C ^ d \textrm{ (mod n)} \equiv M  \\ 
\end{cases}
$

$ 
\textrm{已知： }
\begin{cases}
n = pq \\
\phi(n) = \phi(p) * \phi(q) = (p - 1)(q - 1)  \\ 
gcd(\phi(n), e) = 1 \\ 
\end{cases}
$

$ 
\because gcd(\phi(n), e) = 1 \\
\therefore \exists d \textrm{ st } ed \equiv 1 \text{ (mod } \phi(n)) \textrm{（模反元素存在）} \\ 
\rightarrow e ^ {-1} \equiv d \text{ (mod } \phi(n)) \\
$

$ 
\because ed \equiv 1 \text{ (mod } (p - 1)(q - 1)) \\
\therefore \exists k \in Z \text{ st } ed = k(p - 1)(q - 1) + 1\\
$

令
$ 
C \equiv M ^ e \text{ (mod n) }
$

$
\because \text{費馬小定理} \\
\therefore M^{(p - 1)} \equiv 1 \text{ (mod p) and } M^{(q - 1)} \text{ (mod q) }\\
$

$
\rightarrow C ^ d \equiv (M^e)^d \equiv M^{ed} \equiv M ^ {k(p-1)(q-1) + 1} \equiv (M^{(p-1)})^{k(q-1)}M \equiv (1) M \equiv M \text{ (mod p)} \\
\rightarrow C ^ d \equiv (M^e)^d \equiv M^{ed} \equiv M ^ {k(q-1)(p-1) + 1} \equiv (M^{(q-1)})^{k(p-1)}M \equiv (1) M \equiv M \text{ (mod q)} \\
$

$
\because \text{中國餘式定理} \\
\therefore C ^ d \equiv M \text{ (mod pq) 有唯一解}\\
\rightarrow C ^ d \equiv M \text{ (mod n)} \\
$

## （四）RSA 實作

### 質因數分解

* 版本一：分解一次

In [2]:
def factorize(x):
    is_prime = True
    for i in sp.primerange(0, x ** 0.5 + 1):
        if x % i == 0:
            j = x // i
            is_prime = False
            return [i, j]
    if is_prime:
        return [0, x]
    
print(factorize(2 ** 10))

[2, 512]


* 版本二：完全分解

In [3]:
def factorize2(x):
    fact_list = list()
    if sp.isprime(x) == False:
        fact = 1
        while fact != 0:
            fact, x = factorize(x)    
            if fact != 0:
                fact_list.append(fact)
        if x != 1:
            fact_list.append(x)
    else:
        fact_list.append(x)
    return fact_list

print(factorize2(2 ** 10))

[2, 2, 2, 2, 2, 2, 2, 2, 2, 2]


### 歐幾里德演算法（輾轉相除法）

In [4]:
def greatest_common_divisor(a, b):
    if b == 0:
        return a
    else:
        return greatest_common_divisor(b, a % b)

### 歐拉函數

In [5]:
def euler_function(p, q):
    return (p - 1) * (q - 1)

### 轉碼

在進行加密前必須先進行前置作業：轉碼。也就是說文字必須先轉換成數字才能進行計算。為了能夠支援中文，在此選擇了 UTF-8 作為輸入。另外，一般而言 RSA 都是採用「二進位」計算，不過為了理解方便，在此選擇使用「十進位」進行計算。

* $ \textrm{UTF-8} \rightarrow Decimal $

In [6]:
def string_to_int(string):
    byte = string.encode()               # string to byte
    hexadecimal = binascii.hexlify(byte) # byte to hex
    decimal = int(hexadecimal, 16)       # hex to dec
    return decimal

* $ Decimal \rightarrow \textrm{UTF-8} $

In [7]:
def int_to_string(int):
    hexadecimal = hex(int)               # dec to hex
    byte = hexadecimal[2:].encode()      # hex to byte (type)
    byte = binascii.unhexlify(byte)      # hex to byte (coding)
    string = byte.decode('utf-8')        # byte to utf-8
    return string

* 轉換過程

In [8]:
string = 'Hello World! 你好！'
print('轉換前：%s' % string)
integer = string_to_int(string)
print('轉換後：%s' % integer)
message = int_to_string(integer)
print('還原後：%s' % message)

轉換前：Hello World! 你好！
轉換後：27086628833817823194713031788698839469377765346622593
還原後：Hello World! 你好！


### 加密函數

In [9]:
def encode(plaintext, public_key, n):
    cyphertext = (plaintext ** public_key) % n    
    return cyphertext

### 解密函數

* 版本一：直接解密

In [10]:
def decode(cyphertext, private_key, n):
    plaintext = (cyphertext ** private_key) % n
    return plaintext

* 版本二：先將私鑰分解後再解密

版本一的做法是直接對私鑰進行解密，即計算：$ C ^ {d} \text{ ( mod n ) } \equiv M $。這條方程式理論上可行，也有唯一解，但其實並不實際。原因在於當 C, d, n 都很大時，解密要花非常久的時間，且一般電腦有可能發生溢位。但如果能先將 d 分解，即：$ d = d_0d_1...d_n $ 則只要計算出：((($ C ^ {d_0}  $ ( mod n )) $ ^ {d_1}$ ( mod n ))... )$ ^ {d_n} $ ( mod n ) 就可以省下非常多的時間，且較不容易發生益位。

$
\text{證明：} \forall m,n,a,b \in Z, m^{ab} \equiv (m^a \text{ ( mod n) })^b \text{ ( mod n) } \\
\text{令：} m = nq + r \\
\rightarrow m ^ {ab} \equiv (nq + r) ^ {ab} \equiv r ^ {ab} \text{ ( mod n) } \\
\rightarrow (m^a \text{ ( mod n) })^b \equiv ((nq + r) ^ {a} \text{ ( mod n) } ) ^ b \equiv r ^ {ab} \text{ ( mod n) } \\
$

In [11]:
def decode2(cyphertext, private_key_fact_list, n):
    for i in private_key_fact_list:
        cyphertext = (cyphertext ** i) % n
    plaintext = cyphertext
    return plaintext

### 生成鑰匙

In [12]:
def generate_key():
    public_key, private_key = 0, 0
    prime = list(sp.primerange((10 ** 3), (10 ** 4)))   
    while (public_key == 0) or (private_key == 0):      
        p, q = random.choices(prime, k=2)               # 隨機生成兩質數 p, q 
        n = p * q                                       # n = p * q
        o = euler_function(p, q)                        # 歐拉函數
        public_key, private_key = factorize(o * 10 + 1) # 生成公鑰、私鑰
        gcd = greatest_common_divisor(public_key, o)
        remainder = public_key * private_key % o
        print('gcd: %i' % gcd)
        print('remainder: %i' % remainder)
        if gcd == 1 and remainder == 1:                 # 檢查是否互質
            print('generate key succes\n')
            break
        else:
            print('generate key fail\n')
    return p, q, public_key, private_key, n

* 生成過程

In [23]:
p, q, public_key, private_key, n = generate_key()
private_key_fact_list = factorize2(private_key)         # 分解 private key，避免解密時間過長
print('p: %i' % p)
print('q: %i' % q)
print('public key: %i' % public_key)
print('private key: %i = %s' % (private_key, str(private_key_fact_list)))
print('n: %i' % n)

gcd: 10719792
remainder: 0
generate key fail

gcd: 27819072
remainder: 0
generate key fail

gcd: 1
remainder: 1
generate key succes

p: 4021
q: 8747
public key: 23
private key: 15286487 = [59, 109, 2377]
n: 35171687


### 加密

In [24]:
plaintext = 'Hello World!'
plaintext_list = list()
cyphertext_list = list()
for i in plaintext:
    integer = string_to_int(i)
    plaintext_list.append(integer)
    cyphertext = encode(integer, public_key, n)
    cyphertext_list.append(cyphertext)
print('明文：%s' % str(plaintext_list))
print('密文：%s' % str(cyphertext_list))

明文：[72, 101, 108, 108, 111, 32, 87, 111, 114, 108, 100, 33]
密文：[26139133, 27505300, 6505479, 6505479, 18543983, 34391151, 3180978, 18543983, 19823167, 6505479, 17614111, 2863701]


### 解密

In [25]:
message = ''
for i in cyphertext_list:
    plaintext = decode2(i, private_key_fact_list, n)
    message += int_to_string(plaintext)
print(message)

Hello World!


## （五）RSA 安全性

* RSA 的安全性是基於現階段傳統電腦並沒有任何演算法能夠在線性時間內 $ \mathcal{O}(n^k) $ 分解 $ n = pq $。以最簡單的演算法「暴力法」來說：當我們要對 n 進行分解，只要嘗試將 n 除以 $ 2, 3, 5... \frac{\sqrt n}{2} $ 的質數即可，即求：$ \sum_{i = 2}^{\frac{\sqrt n}{2}}\mathcal{O}(k) $ ，其複雜度亦會隨著 n 的上升而無法收斂：$ \lim_{n \to \infty} \sum_{i = 2}^{\frac{\sqrt n}{2}}\mathcal{O}(k) = \infty\\ $。

* 現階段最好的質因數分解演算法為 GNFS。然而其複雜度為：$\theta (exp(\frac{64n}{9})^\frac{1}{3}(logn)^\frac{2}{3})$ ，同樣也無法在線性時間內完成分解。

* 2009/12/12，RSA-768（768 bits, 232 digits）被成功分解。這一事件威脅了現階段 RSA-1024 的安全性，因此 RSA 未來勢必會更新到 2048 或以上。

* 總結來說，只要量子電腦尚未普及，現階段只要增加 n 的位元組即可保障 RSA 的安全性。

## （六）後記

* RSA 的原理用到了許多數論上的定理，其安全性在傳統電腦下至今仍然無法在線性時間下被破解，也因此成為了目前世界上「非對稱加密」的主流方法。其發明者：Ron Rivest, Adi Shamir, Leonard Adleman 也因此獲得了 2002 年的圖靈獎。

## （七）參考

* Discrete Mathematics and Its Applications – Rosen

* 離散數學 – 黃子嘉

* Wikipedia – RSA