**Хэш функции**

Всё, что нам достаточно знать о криптографических хэш-функциях - это то, что они необратимы и вероятность получить одинаковый хэш при разных входных данных очень мала. Т.е. загрузив на входе некие данные, на выходе мы получим хэш этих данных по которому мы не можем однозначно восстановить данные которые были на входе. 

In [14]:
import hashlib

def sha256(any_string):
    to_bytes = bytes(any_string, 'utf-8')
    print(hashlib.sha256(to_bytes).hexdigest().upper())

sha256('Hello guys!')
sha256('I can put here anything!')
sha256('Самое главное, что чего бы я не ввёл на входе, на выходе я получу строку длиной строго 64 символа')
sha256('Ввиду конфигурации конкретно алгоритма sha-256 символы будут получатся в диапазоне 0-9 A-F')
sha256('Что очень удобно т.к. такую строку можно интерпретировать как число в шестнадцатеричной системе счисления (hex)')


E2C9BC2D982599745AE75305C16B1833D1E3DA9EC5F383B8521DB73AEDFC8BB3
36B775E1057E035E83140BFDEBD1D2A0D3E0FB0A0BB233C9131D8C5B736CF2D3
BBEA70C9600539F1F4A51BBF7C36EAF53EE510161EAF1F139DF353F882BDE72B
1F6D8E4079AB2BF04787D8D9119827E5C9FAFCC0A14DB9BCB15861C54805DE51
FB009EC0F8830A9E6B3BEDC573E6B22CC3697716831080FFA60A3D7F5467AA00


Криптографические хэш-функции устроены таким образом, что например по хэшу E2C9BC2D982599745AE75305C16B1833D1E3DA9EC5F383B8521DB73AEDFC8BB3 мы никак не можем понять, что на входе была строка 'Hello guys!'
Но прогнав через хэш функцию 'Hello guys' ещё раз, мы однозначно получим тот же самый хэш

In [15]:
sha256('Hello guys!')

E2C9BC2D982599745AE75305C16B1833D1E3DA9EC5F383B8521DB73AEDFC8BB3


Применение хэш функций многообразно, но одинм из самых простых примеров будет схема авторизации клиент-сервер по хэш функции. Предположим мы создали аккаунт с следующими данными login: silver166, password: mysuperpassword . Если сервер будет хранить ваши данные логина и пароля таким образом, то однажды, когда он будет взломан данные всех пользователей попадут в руки злоумышленников. Поэтому давайте просто посчитаем хэш вашей пары логин и пароль и будем хранить на сервере только данные в виде хэша.

In [17]:
sha256('silver166mysuperpassword')
sha256('silver166mysuperpassword1')

2989571D5A5A66ACBD9A5D9B8A73229660FE6664E69FA47EE2E716389EFCC1D7
34C8479C348B6461194E261E86863B601456A22F20EF5CC50CC9B2B60A83848D


Таким образом, каждый раз вводя на сервере логин и пароль, сервер будет расчитывать хэш введённой комбинации и сравнивать его с сохранённым в базе данных. Заметьте, что при ошибке в пароле даже на один символ, хэш получается совершенно другой.

**Blockhain. Что за зверь**
По сути технология blockchain это технология распределённых баз данных, которые защищены от внесения изменений задним числом. Несмотря на то, что криптовалюты тесно связаны с технологией блокчейна, в настоящее время блокчейн применяется и без связки с криптовалютами. Так в 2018 году через блокчейн была реализована закупка по фарм контракткам в Нижегородской области, в результате чего было сэкономленно порядка 50 млн. рублей. В Грузии реализовали на государственном уровне учёт кадастровых изменений с помощью блокчейн.



**Расчёт сложности, скорость сети**

Так как в результате хэширования мы получаем строчку из 64 символов, каждый из которых может принимать 16 значений, то элементарным исходом будем считать одну из строчек. В комбинаторике это соответсвует выбору с учётом порядка и с возвращением. Таким образом мы имеем $16 ^ {64} = (2^4) ^ {64} = 2^{256} $ возможных вариантов. Это же число соответсвует максимально возможному числу, которое может выпасть, оно будет соответсвовать хэшу FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF. 


Теперь вернёмся к хэшам, которые мы получали ранее, как уже было сказано т.к. они состоят из 0-9 и A-F, то их можно перевести в десятичную систему счисления. Переведём в десятичную систему хэш полученный из строки 'Hello guys!'

In [19]:
# sha256('Hello guys!') -> E2C9BC2D982599745AE75305C16B1833D1E3DA9EC5F383B8521DB73AEDFC8BB3
print(int(0xE2C9BC2D982599745AE75305C16B1833D1E3DA9EC5F383B8521DB73AEDFC8BB3))
print(int(0xFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF))
      

102579138797372391513057768004706660395014723771608852684090041015922677550003
115792089237316195423570985008687907853269984665640564039457584007913129639935


Первое число, которое мы получили,это выражение хэша в десятичной системе счисления, второе число - это максимальное число, которое можно получить хэшированием sha256. Таким образом, если ваш компьютер считает со скоростью 1 хэш в секунду, то вероятность получить конкректный хэш будет равняться 1/115792089237316195423570985008687907853269984665640564039457584007913129639935
В общем-то достаточно маленькое число.
Чтобы как-то сделать нахождение блока более вероятным, было решено выбрать некое число, любое число меньше которого будет засчитаваться, как допустимое, для поиска конкретного блока. Таким числом было решено выбрать число 0x00000000FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF

In [22]:
print(int(0x00000000FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF))


26959946667150639794667015087019630673637144422540572481103610249215


Это число удобно записывать в виде степеней двойки. $0x00000000FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF = 16^{56} = 2^{4*56} = 2^{224}$ Это число назвали target_1, т.е. target при сложности 1. 
Таким образом, вероятность выкинуть число меньшее target_1 из общего числа вариантов равна $$P(\{(строка\ -> sha256\ -> hash) < target_1\})=\frac {2^{224}}{2^{256}}=\frac1{2^{32}}$$
Таким образом, если ваш компьютер вычисляет даже $1000000\ хэшей\ в\ секунду = 1 Mh s$ то, чтобы гарантированно найти блок вам потребуется $$\frac{2^{32}}{1000000} = 4295 \ секунд$$ 

Далее, т.к. количество хэшей, которое есть в сети - это величина не постоянная, то придумали механизм сложности, который должен увеличиваться по мере увеличения общей скорости сети. Идея в том, чтобы уменьшать число target_1 делая нахождение блока всё менее и менее вероятным.

Сложность есть ничто иное, как число показывающее во сколько раз текущий target меньше target_1.
$$Сложность = \frac{target_1}{target_{тек}}=\frac{2^{224}}{target_{тек}}$$
Таким образом при текущей сложности равной $6\ 068\ 891\ 541\ 676$, число меньше которого нужно выкинуть хэш равно 


In [24]:
int(26959946667150639794667015087019630673637144422540572481103610249215/6068891541676)

4442318087580341436910451790969287217101072045585727488

$Сложность * 2^{32}$ = сколько хэшей потребуется перебрать для гарантированного поиска блока

$$Difficulty = \frac{target_1}{target_{current}}=\frac{2^{224}}{target_{current}} => Difficulty \cdot 2^{32} = \frac{2^{256}}{target_{current}}= \frac1{P(\{find\ a\ block\})}$$

This value of $\frac{1}{Probabilty\ of\ finding\ a\ block}$ is used to calculate estimated coin rewards and btc rewards and it is correct. But when you calculate Difficulty_avg24h or Difficulty_avg15m you just get the average:  $$Difficulty_{avg24h} = \frac{\sum_1^n\frac{2^{224}}{target_{i}}}n$$
Afterwards, when you try to get Probabilty of finding the block you would use $$Difficulty_{avg24h} \cdot 2^{32} = \frac{2^{32} \cdot \sum_1^n\frac{2^{224}}{target_{i}}}n = \frac{\sum_1^n{\frac1{P(\{find\ a\ block\})}}}n$$

So this way you would get an average of 1/P values which is incorrect. To do this in correct way you need to sum 1/Diff values (P values), get average, and then reverse it again to 1/P.

In [47]:
def bin_convert(string):
    return ''.join(format(ord(x), '8b').replace(' ', '0') for x in string)

thestring = 'Whatever'
print(ord('9'))
print(format(ord('9'),'8b').replace(' ', '0'))
hash = hashlib.sha224((thestring).encode("utf-8")).digest()
print(hash)
hash = int.from_bytes(hash, 'big')
thehash = hashlib.sha224((thestring).encode("utf-8")).hexdigest()
print(int(thehash,16))
print(hash)
print(thehash)
mining_hash = bin_convert(thehash)
print(mining_hash)
# diff_drop_time = Decimal(180)
#     mining_condition = bin_convert(db_block_hash)[0:int(diff0)]
#     # simplified comparison, no backwards mining
#     if mining_condition in mining_hash:
#         if app_log:
#             app_log.info("Difficulty requirement satisfied for block {} from {}".format (block_height_new, peer_ip))
# diff_save = diff0



57
00111001
b'\x96~\x9a\x17T&\xad%\xc0\xe1w\xeb4\xb4Y\xb2\x86\x9dR\x02&G\xa1`\xd3\xcc\x02\x9d'
15848924758734730259406216858196852491811623905935496504996522623645
15848924758734730259406216858196852491811623905935496504996522623645
967e9a175426ad25c0e177eb34b459b2869d52022647a160d3cc029d
0011100100110110001101110110010100111001011000010011000100110111001101010011010000110010001101100110000101100100001100100011010101100011001100000110010100110001001101110011011101100101011000100011001100110100011000100011010000110101001110010110001000110010001110000011011000111001011001000011010100110010001100000011001000110010001101100011010000110111011000010011000100110110001100000110010000110011011000110110001100110000001100100011100101100100


In [105]:
import random
import numpy as np
from math import factorial


hex_dict = {
    '0': '00110000',
    '1': '00110001',
    '2': '00110010',
    '3': '00110011',
    '4': '00110100',
    '5': '00110101',
    '6': '00110110',
    '7': '00110111',
    '8': '00111000',
    '9': '00111001',
    'a': '01101010',
    'b': '01101011',
    'c': '01101100',
    'd': '01101101',
    'e': '01101110',
    'f': '01101111',
}


def combinations(k, n):
    return int(factorial(n) / (factorial(k) * factorial(n - k)))

def bin_convert(string):
    return ''.join(format(ord(x), '8b').replace(' ', '0') for x in string)

# 1/16*1/16 * (N-k+1)

'033945947'
'003030303'

15/16*15/16

print(combinations(1,9))
diff_list = [8,16,24,32]
N=56
thehash = '033945947123ee5c7987de27c3b848876a28d53709f951bd01f3785e'
#expected_prob8=1 - (15/16) ** 56
k=2


print(f'exp prob {expected_prob16}')
for diff in diff_list:
    k=diff // 8
    mining_condition=thehash[0:diff // 8]
    n=100000
    count=0
    for _ in range(0,n):
        sha_array = np.random.randint(0, 16, 56)
        bin_string=''.join([hex(element)[2:] for element in sha_array])
        if mining_condition in bin_string:
            count+=1
    print(f'for diff {diff} : {count/n}, expected: {(N-k+1) * 16**(N-k)/16**N},'
          f'error: {(N-k+1) * 16**(N-k)/16**N / (count/n)} ')


def another_one():    
    count = 0
    sha_array = np.random.randint(0, 16, 56)
    bin_string=''.join([hex_dict[hex(element)[2:]] for element in sha_array])
    #if mining_condition in 
    print(bin_string)


9
exp prob 0.21484375
for diff 8 : 0.97338, expected: 3.5,error: 3.5957180135198996 
for diff 16 : 0.19639, expected: 0.21484375,error: 1.0939648149091095 
for diff 24 : 0.01265, expected: 0.01318359375,error: 1.0421813241106719 
for diff 32 : 0.00083, expected: 0.0008087158203125,error: 0.9743564100150602 
