# Лабораторная работа №2
### Сравнительный анализ хэш-функций





### Библиотека **hashlib** в Python

Библиотека hashlib предоставляет интерфейс для различных криптографических хеш-функций в Python. Хеш-функции преобразуют произвольные данные в фиксированную строку байтов (хеш), которая обычно используется для проверки целостности данных, хранения паролей и цифровых подписей.
<br>
<br>
Импортируем модуль hashlib и выведем на печать все доступные алгоритмы хеширования.
<br>
<br>Метод algorithms_available создает список всех алгоритмов, доступных в системе, а метод algorithms_guaranteed перечисляет только алгоритмы модуля.
<br>
Проще говоря, используйте <b>algorithms_guaranteed</b> для кода, который должен работать везде (набор алгоритмов, которые доступны ВСЕГДА в любой реализации Python) и <b>algorithms_available</b> - когда нужны специфические возможности конкретной системы.


In [None]:
import hashlib

# Доступные алгоритмы
print(hashlib.algorithms_available)

# Алгоритмы, гарантированно доступные
print(hashlib.algorithms_guaranteed)


{'sha3_512', 'sha3_384', 'sha256', 'blake2s', 'sha3_224', 'blake2b', 'sha512', 'shake_128', 'md5', 'sha512_256', 'md5-sha1', 'sha384', 'sm3', 'shake_256', 'sha224', 'sha3_256', 'sha1', 'sha512_224'}
{'sha3_224', 'sha3_512', 'sha3_384', 'sha3_256', 'blake2b', 'sha384', 'sha1', 'sha512', 'sha256', 'shake_128', 'shake_256', 'md5', 'sha224', 'blake2s'}


### Простое хеширование строк
Ниже приведен код использования алгоритмов хеширования из библиотеки hashlib

In [None]:
# Хеширование строки
text = "Hello, World!"

# MD5
md5_hash = hashlib.md5(text.encode()).hexdigest()
print(f"MD5: {md5_hash}")

# SHA-1
sha1_hash = hashlib.sha1(text.encode()).hexdigest()
print(f"SHA-1: {sha1_hash}")

# SHA-256
sha256_hash = hashlib.sha256(text.encode()).hexdigest()
print(f"SHA-256: {sha256_hash}")


MD5: 65a8e27d8879283831b664bd8b7f0ad4
SHA-1: 0a0a9f2a6772942557ab5355d76af442f8f65e01
SHA-256: dffd6021bb2bd5b0af676290809ec3a53191dd81c7f70a4b28688a362182986f
SHA-512: 374d794a95cdcfd8b35993185fef9ba368f160d8daf432d08ba9f1ed1e5abe6cc69291e0fa2fe0006a52570ef18c19def4e617c33ce52ef0a6e5fbe318cb0387


### Сравнение хешей для проверки целостности

Ниже указан код реализации функции проверки целостности данных путем сравнения вычисленного хеша с его ожидаемым значением.

In [None]:
import hashlib

def verify_hash(data, expected_hash, algorithm='sha256'):
    """
    Проверяет, соответствует ли хеш данных ожидаемому значению

    Параметры:
    text (str): исходные данные для проверки
    expected_hash (str): ожидаемое значение хеша в шестнадцатеричном формате
    algorithm (str): используемый алгоритм хеширования

    Возвращает:
    bool: True - если хеш совпадает, False - в противном случае
    """
    computed_hash = hashlib.new(algorithm, data.encode()).hexdigest()
    return computed_hash == expected_hash

# Пример
text = "Test data"
expected = hashlib.sha256(text.encode()).hexdigest()

print(f"Проверка: {verify_hash(text, expected)}")  # True
print(f"Проверка с измененными данными: {verify_hash('Changed tst data', expected)}")  # False

Проверка: True
Проверка с измененными данными: False


### Задание 2. Измерение производительности хеш функций (MD5, SHA-1, SHA-256 (SHA-2), SHA-3-256, BLAKE2b)
1. Сгенерируйте случайный набор данных (или прочитайте файл) разного размера (например, 1 КБ, 1 МБ, 10 МБ).
2. Вычислите хэш-функцию для каждого набора данных.
3. Найдите время вычисления хэша для каждого набора данных.
4. Результаты представьте в виде таблицы (размер данных – время в секундах).
5. Приведите листинг когда и скриншоты результатов работы программы. Протестируйте программу несколько раз.
6. Сделайте выводы:
*   для разного набора данных одинаковые значения хеш-функций или разные?
*   как связан размер данных и время вычисления хэша?


In [1]:
# хеширует байты
import hashlib
import time
import os
import pandas as pd

results = []

# your code here

df = pd.DataFrame(results)
print(df[['size_label','size_bytes','time_md5_s','time_sha1_s','time_sha256_s','time_sha3_s','time_BLAKE2b_s']])


  size_label  size_bytes  time_md5_s  time_sha1_s  time_sha256_s
0       1 KB        1024    0.000018     0.000050       0.000010
1       1 MB     1048576    0.002538     0.002760       0.005709
2      10 MB    10485760    0.022111     0.022868       0.031951
