# Вариант № 5: Применение полей в хешировании

## 📋 Задание

### 1. Реализация хеш-функции на основе поля GF(p)
- **Формула:** `h(x) = (a⋅x + b) mod p`
- **Параметры:**
  - `p` — простое число
  - `a, b` — случайные числа
- **Задача:** Докажите, что если `a ≠ 0`, то `h(x)` — инъективна

### 2. Экспериментальная проверка
- Реализуйте эту хеш-функцию
- Проверьте ее на коллизиях для разных значений `p`

### 3. Сравнительный анализ
- Сравните с хешированием через CRC, которое использует `GF(2)`
- В чем разница между подходами?

### 4. Практическое применение
- Что на практике может дать выполненное задание варианта?
- Какие преимущества и ограничения у данного подхода?




## 🔬 1. Теоретическое обоснование

### Определение хеш-функции

Хеш-функция имеет вид:

$$h(x) = (a \cdot x + b) \mod p$$

**Параметры:**
- $p$ — простое число
- $a, b$ — коэффициенты, причём $a \neq 0$

### Утверждение

> **Теорема:** Если $a \neq 0$, то $h(x)$ является инъективной (т.е. не имеет коллизий на множестве $\{0, 1, \dots, p-1\}$).

### Доказательство

**Шаг 1:** Предположим, что $h(x_1) = h(x_2)$

**Шаг 2:** Тогда:
$$(a \cdot x_1 + b) \mod p = (a \cdot x_2 + b) \mod p$$

**Шаг 3:** Упрощаем:
$$a \cdot (x_1 - x_2) \equiv 0 \mod p$$

**Шаг 4:** Поскольку $p$ — простое и $a \neq 0$, то:
$$x_1 - x_2 \equiv 0 \mod p$$

**Шаг 5:** Откуда $x_1 = x_2$

**Заключение:** Следовательно, функция инъективна. ✅


In [11]:
def hash_function(x, a, b, p):
    return (a * x + b) % p

# Примеры простых чисел для тестирования
primes = [7, 11, 13]

for p in primes:
    # Случайные коэффициенты a и b
    import random
    a = random.randint(1, p-1)  # a != 0
    b = random.randint(0, p-1)
    
    print(f"Проверяем полином {a}x + {b} mod {p}")
    
    for i in range(p):
        for j in range(i+1, p):
            if hash_function(i, a, b, p) == hash_function(j, a, b, p):
                print(f"Ошибка: Хэш совпадает для разных аргументов ({i}, {j})")
                break
        else:
            continue
        break
    else:
        print("Проверено: Хэш уникален для всех пар аргументов.")

Проверяем полином 4x + 5 mod 7
Проверено: Хэш уникален для всех пар аргументов.
Проверяем полином 1x + 0 mod 11
Проверено: Хэш уникален для всех пар аргументов.
Проверяем полином 12x + 7 mod 13
Проверено: Хэш уникален для всех пар аргументов.


In [10]:
# Примеры простых чисел для тестирования
primes = [7, 11, 13]

for p in primes:
    # Случайные коэффициенты a и b
    import random
    a = random.randint(1, p-1)  # a != 0
    b = random.randint(0, p-1)
    
    print(f"Проверяем полином {a}x + {b} mod {p}")
    
    for i in range(p):
        for j in range(i+1, p):
            if hash_function(i, a, b, p) == hash_function(j, a, b, p):
                print(f"Ошибка: Хэш совпадает для разных аргументов ({i}, {j})")
                break
        else:
            continue
        break
    else:
        print("Проверено: Хэш уникален для всех пар аргументов.")


Проверяем полином 4x + 0 mod 7
Проверено: Хэш уникален для всех пар аргументов.
Проверяем полином 4x + 0 mod 11
Проверено: Хэш уникален для всех пар аргументов.
Проверяем полином 2x + 6 mod 13
Проверено: Хэш уникален для всех пар аргументов.


### 📊 Результаты проверки на коллизии

#### Метод 1: Проверка попарной уникальности хешей

Для каждого простого $p$ мы генерируем случайные $a$ и $b$, затем проверяем все возможные пары $(i,j)$, чтобы убедиться, что хеши не совпадают.

**Результат:** ✅ Для всех тестовых значений $p$ коллизий не обнаружено, что подтверждает теоретическое свойство инъективности.

#### Метод 2: Проверка через множество

Этот подход использует множество для отслеживания уже встретившихся хешей. Если хеш повторяется — фиксируется коллизия.

**Результат:** ✅ Во всех случаях коллизий не найдено.

In [9]:
# Дополнительная проверка через множество
import random

def hash_func(x, a, b, p):
    return (a * x + b) % p

def check_collisions(p):
    a = random.randint(1, p-1)   # a != 0
    b = random.randint(0, p-1)
    seen_hashes = set()
    
    for x in range(p):
        hashed_val = hash_func(x, a, b, p)
        if hashed_val in seen_hashes:
            return f"Коллизия для p={p}, a={a}, b={b}"
        seen_hashes.add(hashed_val)
    
    return f"Нет коллизий для p={p}, a={a}, b={b}"

primes = [7, 11, 13, 17, 19]

print("🔍 Проверка коллизий через множество:")
for prime in primes:
    result = check_collisions(prime)
    print(result)

🔍 Проверка коллизий через множество:
Нет коллизий для p=7, a=1, b=5
Нет коллизий для p=11, a=2, b=2
Нет коллизий для p=13, a=3, b=12
Нет коллизий для p=17, a=8, b=4
Нет коллизий для p=19, a=5, b=1


## ⚖️ 3. Сравнительный анализ

### Линейная хеш-функция (в $GF(p)$)

| Характеристика | Описание |
|---|---|
| **Арифметика** | По модулю простого числа |
| **Коллизии** | ✅ Гарантирует отсутствие при $a \neq 0$ на всём поле $\mathbb{Z}_p$ |
| **Производительность** | Быстрая, простая |
| **Ограничения** | Ограничена размером $p$ |

### CRC32 (в $GF(2)$)

| Характеристика | Описание |
|---|---|
| **Арифметика** | Работает с битами, полиномиальная |
| **Коллизии** | ❌ Не даёт гарантий отсутствия, но хорошо распределяет значения |
| **Применение** | Широко используется для контроля целостности данных |
| **Масштабируемость** | Подходит для больших объёмов данных |

### 🎯 Вывод

> **Подход на $GF(p)$** обеспечивает **perfect hashing** для небольшого набора данных, тогда как **CRC32** лучше подходит для больших объёмов данных и обнаружения ошибок.

In [6]:
# Демонстрация сравнения методов хеширования
import random

# Линейная хэш-функция (GF(p))
def linear_hash(x, a, b, p):
    return (a * x + b) % p

# CRC32-хэширование (GF(2))
def crc(data_bytes, poly=0xEDB88320):
    crc_value = 0xffffffff
    for byte in data_bytes:
        crc_value ^= byte
        for _ in range(8):
            crc_value = ((crc_value >> 1) ^ poly) if crc_value & 1 else crc_value >> 1
    return ~crc_value & 0xffffffff

# Точка входа
if __name__ == "__main__":
    # Параметры для линейной хэш-функции
    p = 101
    a = random.randint(1, p-1)
    b = random.randint(0, p-1)

    # Тестовые данные
    inputs = list(range(10))

    print("🔬 Сравнение методов хеширования:")
    print(f"Параметры: p={p}, a={a}, b={b}")
    print("\n📊 Результаты:")
    print("Linear Hash:", [(x, linear_hash(x, a, b, p)) for x in inputs])
    print("CRC Hash:", [f"{bytes([x])}: {crc(bytes([x]))}" for x in inputs])

🔬 Сравнение методов хеширования:
Параметры: p=101, a=36, b=24

📊 Результаты:
Linear Hash: [(0, 24), (1, 60), (2, 96), (3, 31), (4, 67), (5, 2), (6, 38), (7, 74), (8, 9), (9, 45)]
CRC Hash: ["b'\\x00': 3523407757", "b'\\x01': 2768625435", "b'\\x02': 1007455905", "b'\\x03': 1259060791", "b'\\x04': 3580832660", "b'\\x05': 2724731650", "b'\\x06': 996231864", "b'\\x07': 1281784366", "b'\\x08': 3705235391", "b'\\t': 2883475241"]


## 🚀 4. Практическое применение

### 🎯 Что даёт выполненное задание?

#### Теоретические знания
- **Понимание полей Галуа** и их применения в криптографии
- **Математическое обоснование** инъективности хеш-функций
- **Сравнительный анализ** различных подходов к хешированию

#### Практические навыки
- **Программирование** на Python с математическими вычислениями
- **Тестирование** и верификация алгоритмов
- **Анализ производительности** различных методов

### 💼 Области применения

| Область | Применение |
|---|---|
| **Криптография** | Создание безопасных хеш-функций |
| **Базы данных** | Индексирование и поиск |
| **Сетевые протоколы** | Контроль целостности данных |
| **Машинное обучение** | Обработка признаков |

### ⚡ Преимущества и ограничения

#### ✅ Преимущества
- **Perfect hashing** для малых множеств
- **Математическая гарантия** отсутствия коллизий
- **Простота реализации**

#### ❌ Ограничения
- **Ограниченный размер** поля (зависит от $p$)
- **Не подходит** для больших объёмов данных
- **Требует знания** размера входного множества заранее

### 🎓 Заключение

> Данное задание развивает понимание принципов хеширования, улучшает навыки программирования и учит оценивать качество хеш-функций для конкретных задач. Эти знания полезны при разработке ПО, защите данных и оптимизации вычислительных процессов.