# Fuzzy Extractors

###  *Course project by Alexander Krasovskiy*

## Література:


- (1) https://en.m.wikipedia.org/wiki/Reed%E2%80%93Solomon_error_correction
- (2) https://digital.csic.es/bitstream/10261/15966/1/SAM3262.pdf
- (3) https://www.arijuels.com/wp-content/uploads/2013/09/JS02.pdf
- (4) https://ro.uow.edu.au/cgi/viewcontent.cgi?article=1698&context=eispapers1
- (5) https://www.cs.bu.edu/~reyzin/papers/fuzzysurvey.pdf
- (6) http://web.cs.ucla.edu/~rafail/PUBLIC/89.pdf
- (7) https://faculty.math.illinois.edu/~duursma/CT/RS-1960.pdf
- (8) Сагалович Ю. Л. Введение в алгебраические коды — М.: МФТИ, 2007. — 262 с. — ISBN 978-5-7417-0191-1

## Зміст
1. [Вступ](#Нечіткі-екстрактори)
2. [Постановка задачі та огляд літератури](#Постановка-задачі-та-огляд-літератури)
3. [Необхідні допоміжні відомості з теорії інформації та моделі face-recognition](#БЧХ-код)
4. [Опис структури нечіткого екстрактора](#Опис-структури-нечіткого-екстрактора)
5. Приклади типових задач, які вирішують нечіткі екстрактори. 
6. Аналіз ефективності побудованої моделі
7. Висновки

## Нечіткі екстрактори

Нечіткі екстрактори — це метод, який дозволяє використовувати біометричні дані як вхідні дані для стандартних криптографічних методів для підвищення їх безпеки. «Нечіткість» у цьому контексті стосується того факту, що фіксовані значення, необхідні для криптографії, будуть отримані зі значень, близьких до вихідного ключа, 
але не ідентичних, без шкоди для необхідної безпеки. 



Формальне означення:
    Нечіткі екстрактори — це біометричний інструмент, який дозволяє автентифікувати користувача за допомогою біометричного шаблону, створеного з біометричних даних користувача як ключа, шляхом вилучення однорідного випадкового рядка $R$ з вхідних даних $w$, з допуском на шум. 
    Якщо вхідні дані змінюється на $w'$ але є близькими до $w$ відповідно до умов алгоритму, рядок $R$ буде реконструйовано як на $w$, так і на даних $w'$. 

Для досягнення даного результату, під час початкового обчислення $R$ процес також 
повертає допоміжний рядок $P$, який буде збережено для відновлення $R$ 
і може бути оприлюднений без шкоди для безпеки $R$. 

Безпека процесу також забезпечується, у випадку, коли зловмисник вносить зміни до значення $P$. 

Після обчислення фіксованого рядка $R$, 
Дані можуть бути використані, наприклад, для узгодження ключів між користувачем і сервером лише на основі біометричного введення.

Основні властивості нечітких екстракторів:

- Нечіткий екстрактор є ймовірнісним Монте-Карло алгоритмом, для якого виконються умови:
    - Для довільного неавторизованого користувача $R^*$, з ймовірністю $1$ дані $R^*$ відхиляються
    - Для авторизованого користувача $R$, алгоритм з ймовірністю $1-\epsilon$ 
      (де $\epsilon$ - ймовірність однобічної помилки алгоритму), приймає дані $R$ та авторизує користувача

- Нечіткий екстрактор є параметричною моделлю. Для довільного нечіткого екстрактора, існує набір параметрів $\theta \in \Theta$, для якого ймовірність однобічної 
  помилки є як завгодно малою. 
  
- Нечіткі екстрактори часто використовуються у комбінації з кодами виправлення помилок (англ. Error Correction codes, ECC). Властивості ECC надають можливість створення публічного значення $P$ (check symbols), яке може бути оприлюднене без ризиків для безпеки користувача, і використане для відновлення ключа за вихідними даними нечіткого екстрактора.

## Постановка задачі та огляд літератури

Постановка задачі:

Побудова параметричної моделі нечіткого екстрактору на основі однієї з моделей face-recognition з відкритим вихідним кодом. 
Вхідними даними нечіткого екстрактора є послідовність зображень, та набір параметрів з простору $\Theta$. Алгоритм має два режими роботи: створення перевірочних символів, або ініціалізація алгоритму з існуючими перевірочними символами і побудова ключа.
Результатом роботи алгоритму є криптографічний ключ, безпечий для використання у інших криптографічних алгоритмах.
За випадково опублікованим ключем, не повино існувати можливостей отримання біометричних даних користувача.

Огляд літератури:
  
- Доцільність використання кодів Ріда-Соломона у якості ECC
    1. Відповідно до ресурсу: https://www.cs.bu.edu/~reyzin/fuzzysurvey.html "Fuzzy Extractors∗ A Brief Survey of Results from 2004 to 2006"
        > The tradeoff between the error tolerance and the entropy loss depends on the choice of errorcorrecting code. For large alphabets ($\mathbb{F}$ is a field of size $\geq n$), 
        > one can use Reed-Solomon codes to get the optimal entropy loss of $2t\log{|\mathbb{F}|}$. 
        > No secure sketch construction can have better tradeoff between error tolerance and entropy loss than 
        > Construction 1, as searching for better secure sketches for the Hamming distance is equivalent to searching for
        > better error-correcting codes. Better secure sketches, however, can be achieved if one is willing to 
        > slightly weaken the guarantee of correctness (Section 4).
        
        (де $\mathbb{F}$ - алфавіт ECC; t - вага Хемінга векторів, для яких вимірюється значення $\text{loss} = 2t\log{|\mathbb{F}|}$)
        
        Відповідно до роботи "Fuzzy Extractors∗ A Brief Survey of Results from 2004 to 2006", даний код конструює безпечну послідовність, за перевірочними символіволами якої не існує оптимального алгоритму отримання вхідних даних. Також, даний код має оптимальну втрату ентропії після додавання перевірочних символів до послідовності: $2t\log{|\mathbb{F}|}$. Результат було враховано під час вибору коду ECC та реалізації нечіткого екстрактора.     
    

### БЧХ-код
и є циклічними кодами, які задаються своїм породжуючим поліномом. Для його знаходження необхідно передусім визначити довжину коду ${\displaystyle n}$ і мінімальну кодову відстань ${\displaystyle d\leqslant n}$. Знайти породжуючий поліном можна наступним чином:

Нехай ${\displaystyle \alpha }$ - примітивний елемент поля ${\displaystyle GF(q^{m})}$ (тобто ${\displaystyle \alpha ^{q^{m}-1}=1,\ \alpha ^{i} = 1,\ i<q^{m}-1}$), нехай ${\displaystyle \eta =\alpha ^{s}}$ - елемент поля ${\displaystyle GF(q^{m})}$ порядку ${\displaystyle n}$, ${\displaystyle s=(q^{m}-1)/n}$. Тоді нормований поліном ${\displaystyle g(x)}$ мінімальної степені над полем ${\displaystyle GF(q)}$, коренями якого є ${\displaystyle d-1}$ послідовних степеней ${\displaystyle \eta ^{l_{0}},\eta ^{l_{0}+1},\ldots ,\eta ^{l_{0}+d-2}}$ елемента ${\displaystyle \eta }$ для деякого цілого ${\displaystyle l_{0}}$ (в тому числі 0 і 1), є породжуючим поліномом БЧХ-коду над полем ${\displaystyle GF(q)}$ з довжиною ${\displaystyle n}$ і мінімальною відстанню ${\displaystyle d_{0}\geqslant d}$.

Пояснимо, чому у отриманого коду будуть саме такі характеристики (довжина коду ${\displaystyle n}$, мінімальна відстань ${\displaystyle d_{0}}$). Справді, як показано у [(8)](#Література:), довжина БЧХ-коду дорівнює порядку елемента ${\displaystyle \eta }$, якщо ${\displaystyle d>2}$, і дорівнює порядку елемента ${\displaystyle \eta ^{l_{0}}}$, якщо ${\displaystyle d=2}$. Оскільки випадок ${\displaystyle d=2}$ нас не цікавить (такий код може виявляти, але не може виправляти помилки), довжина коду буде дорівнювати порядку елемента ${\displaystyle \eta }$, тобто дорівнюватиме ${\displaystyle n}$. Мінімальна відстань ${\displaystyle d_{0}}$ може бути більшою за ${\displaystyle d}$, коли коренями мінімальних функцій [(8)](#Література:) від елементів ${\displaystyle \eta ^{l_{0}},\eta ^{l_{0}+1},\ldots ,\eta ^{l_{0}+d-2}}$ будуть елементи, які доповнюють послідовність, тобто елементи ${\displaystyle \eta ^{l_{0}+d-1},\eta ^{l_{0}+d},\ldots ,\eta ^{l_{0}+d_{0}-2}}$.

Кількість перевірочних символів ${\displaystyle r}$ дорівнює степеню ${\displaystyle g(x)}$, кількість інформаційних символів ${\displaystyle k=n-r}$, величина ${\displaystyle d}$ називається конструктивною відстанню БЧХ-коду. Якщо ${\displaystyle n=q^{m}-1}$, то код називається примітивним, інакше, непримітивним.

Так само, як і для циклічного коду, кодовий поліном ${\displaystyle c(x)}$ може бути отриманий з інформаційного поліному ${\displaystyle m(x)}$ степені не більше ${\displaystyle k-1}$, шляхом перемноження ${\displaystyle m(x)}$ і ${\displaystyle g(x)}$.

### Гранична нерівність Сінглтона (Singleton bound)
 Мінімальна кодова відстань коду $C$ довжини $n$ визначається як:

$d = \min_{\{x,y \in C : x \neq y\}} d(x,y)$

де $d(x,y)$ - відстань Хемінга між $x$ та $y$.

Вираз $A_{q}(n,d)$ визначає максимальну кількість можливих кодових слів у блоковому коді з основою $q$, довжина якого $n$, а мінімальна відстань $=d$.

Тоді гранична нерівність Сінглтона стверджує, що: $A_q(n,d) \leq q^{n-d+1}.$

### Коди Ріда-Соломона  [(7)](#Література:)

Коди Ріда - Соломона є важливим окремим випадком БЧХ-коду, корені породжуючого многочлена якого лежать у тому ж полі, над яким будується код. Нехай $\alpha$ — елемент поля $\textstyle GF(q)$, що має порядок $\textstyle n$. Якщо $\alpha$ — примітивний елемент, його порядок дорівнює $q-1$, тобто $\alpha^{q-1}=1,\quad \alpha^i \neq 1, 0<i<q-1 $.
Тоді нормований поліном $g(x)$ мінімального ступеня над полем $\textstyle GF(q)$, коренем якого є $𝑑−1$
послідовних ступенів $\alpha^{l_0}, \alpha^{l_0+1},...,\alpha^{l_0+d-2}$ елемента $\alpha$, є
породжуючим многочленом коду Ріда — Соломона над полем $\textstyle GF(q)$:

$g(x) = (x - \alpha^{l_0})(x - \alpha^{l_0+1})\dots(x - \alpha^{l_0+d-2}),$

де $l_0$ - деяке ціле число (у тому числі 0 і 1), зазвичай обирається $𝑙_0 = 1$. Ступінь многочлена $ g (x) $ дорівнює $ d-1 $.
Довжина отриманого коду $n$, мінімальна відстань $d$(є мінімальною з усіх відстаней
Хеммінга всіх пар кодових слів, див. Лінійний код).
Код містить $r=d-1=\deg (g(x))$ перевірочних символів, де $\deg()$ позначає ступінь полінома;
число інформаційних символів: $k = n - r = n - d + 1 $. Таким чином, $\textstyle d = n - k + 1$ і
код Ріда — Соломона є кодом, що має максимальну кодову відстань
(є оптимальним у сенсі границі Сінглтона). Кодовий поліном $c(x)$ може бути отриманий
з інформаційного полінома $m(x)$,$\deg m(x) \leqslant k-1$ шляхом перемноження $m(x)$ і $g(x)$:

$ c (x) = m (x) g (x) $.

### Face recognition model

Source-код моделі: [https://github.com/ageitgey/face_recognition](https://github.com/ageitgey/face_recognition)

1. Модель Face recognition є бібліотекою з відкритим кодом, ліцензованою згідно з $\text{MIT License}$
2. Модель побудована на основі deep face-recognition model, реалізованій у бібліотеці [http://dlib.net/](http://dlib.net/)
3. Більш детально розглянуто метод ```face_recognition.api.face_distance```, для отримання формату представлення face-вектору $v$: $v \in \mathbb{F}_2^{128}; \space d(v_1,v_2) = ||v_2-v_1||, \space \mathbb{F}_2 = \{0,1\}$
4. Відповідно до документації бібліотеки ```dlib``` та методу ```face_recognition.api.face_distance```, для отримання статистики, яка визначає подібність обличь за їх face-вектором, автор використовує базову Евклідову метрику у просторі розмірності $128$.

## Опис середовища розробки

Environment info:
- Platform: ```Docker```
- Container image: ```python:3.10```
- SSH port: ```2222```
- IDE: ```PyCharm 2023.1 RC 2```
- Base: ```Windows 11 (WSL2)```

dependencies (direct):
- itertools
- numpy~=1.24.2
- opencv-python~=4.7.0.72
- face_recognition
- Pillow~=9.4.0
- PIL
- hashlib

dependencies (transitive, manually installed)
- ffmpeg 
- CMake
- dlib
- libsm6 
- libxext6
- libsasl2-dev 
- python-dev 
- libldap2-dev 
- libssl-dev 
- openssh-server

## Перелік класів та модулів проекту

python Modules:
- extractors.py: Реалізація нечіткого екстрактора
- cache.py: Кешування обєктів, пришвидшення повторного виконання тестів
- logger.py
- main.py: 
- testing.py: додаткові класи для тестування нечіткого екстрактора
- test_face_recognition.py: unit-тести окремих класів та модулів


python Classes:
- Cache - кешування обєктів
- FrameIterator - ітерування зображень у відео-файлі
- FaceVectorExtractor - допоміжні функції для отримання face-вектору за зображенням
- FuzzyExtractorFaceRecognition - клас нечіткого екстрактора. Основна логіка екстрактора зосереджена у даному класі
- LogFormatter - форматування виводу (stdin/log file)
- TestFaceVectorExtractor - основний тестовий клас
- TestCases - допоміжний клас для проведення тестування


## Опис структури нечіткого екстрактора

- Input data preprocessing:
    1. Перетворення вхідних даних до вигляду: ```list[PIL.Image.Image]```
    2. Перетворення: ```PIL.Image.Image``` $\overset{convert: RGB}{\longrightarrow}$ ```np.ndarray```
    3. Визначення face-вектору для кожного з зображень. Зображення для яких не було знайдено жодного face-вектору, 
        або було знайдено декілька face-векторів, далі не обробляються.
    4. Повернення послідовності face-векторів у вигляді ```np.ndarray[np.ndarray]```
<br><br>
- Face vector preprocessing (Input data: $V$ - ```np.ndarray[np.ndarray]```):
    1. Обчислення $S = \{(\#|v_1-v_2|, v_1, v_2) \space | \space v_1, v_2 \in V, v_1\neq v_2\}$ (1)
    2. Обчислення викидів вибірки $S$ ($S^*$) за значеннями першої координати:
        - Нехай $\mu$ - середнє значення вибірки за першою координатою: $\mu = \#\{v[0]\space,\space v \in S\}$,
            
            $\sigma$ - стандартне відхилення вибірки за першою координатою: $\sigma = \sqrt{\#\{(v[0]-\mu)^2\space,\space v \in S\}}$
            
            $\sigma_0$ - максимальне стандартне відхилення, параметр
            <br><br>
        - $v \in S$ будемо вважати викидом, якщо для $v$ виконується:
            $|\mu-v[0]| > \sigma_0$
    3. Створення вибірки $S_1$ за елементами вибірки $H = S\setminus S^*$:
        - $S_1 = \{(|\{s| v=s[1] \lor v=s[2], \space s \in H\}|, v) \space|\space v \in \{s[1],s[2] \space|\space s \in H\}\}$
    4. Знаходження викидів вибірки $S_1$: $S_1^*$
    5. Повернення $\{v[1]\space|\space v \in S_1 \setminus S_1^*\}$ (тип даних: ```np.ndarray[np.ndarray]```)
    
    - Передумови:
        1. Для обчислення методу (1), необхідною передумовою є взаємна незалежність координат face-вектору. Оскільки face-vector належить простору $(-1,1)^{128} \subset \mathbb{Q}^{128}$, з метрикою Евкліда, можна зробити висновок, що кожна координата має однаковий вплив на ідентифікацію обличчя. Також, відповідно до проведених тестів (dlib) не було знайдено кореляції між координатами face-вектору, що дозволяє зробити припущення про їх незалежність.
    - Зауваження
        2. Для більш точної побудови ключа, параметр $\sigma_0$ може бути зменшений (значення за замовчуванням: 0.7). Дана змінна є одним з параметрів моделі нечіткого екстрактора. 
<br><br>
- Primary hash (первинний хеш):  (Input data: ```np.ndarray[np.ndarray]```)
    - Основна функція: перетворення face-векторів $v \in V, V \subset (-1,1)^{128}$. 
    1. Нехай простір $M \subset (-1,1)^{128} \subset \mathbb{Q}^{128}$ розбито на множини:
    
        (1) $M_{i_1,i_2,...,i_{128}}$: $\space \underset{(i_1,..,i_{128}) \in I}{\large{\cup}}
        {\small{M}_{i_1,i_2,...,i_{128}}} = M$ ($I$ - множина індексів) за правилом:
    
        (2) $M_{i_1,i_2,...,i_{128}}$ = $(i_1d,(i_1+1)d)\times(i_2d,(i_2+1)d)\times...\times(i_{128}d,(i_{128}-1)d)$ - (гіперкуб зі стороною $d$; $d$ - параметр моделі нечіткого екстрактора).
        
        Очевидно, для покриття простору (2), виконується (1), якщо M не містить граней гіперкубів $M_{i_1,i_2,...,i_{128}}$. У реалізованому екстракторі, дане твердження є передумовою прийняття вхідних даних:
           
        > Якщо принаймні одна координата face-вектору знаходиться на перетині граней двох або більшої кількості гіперкубів, даний face-вектор не може бути оброблені нечітким екстрактором, тому вхідні дані будуть відхилені. (На практиці, ймовірність такої події дуже мала, під час тестування вхідні дані не були відхилені жодного разу).
        
        Параметр $d \in (0,1)$, є параметром нечіткого екстрактора, який впливає на рівень, на якому подібні face-вектори будуть вважатися ідентичними.
        
    2. Нехай $\text{std_max},\alpha$ - параметри нечіткого екстрактора. Нехай $\overline{v},\overset{\text{~}}{v}$ 
    - вектори розмірності 128, $\overline{v}$ - містить середні значення, $\overset{\text{~}}{v}$ - стандартні відхилення face-векторів по кожній координаті. 
        - Якщо для вхідних даних виконується: $\#\{\overset{\text{~}}{v}[i]>\text{std_max}\space|\space i = \overline{\small{1,\dim{\overset{\text{~}}{v}}}}\} \gt 
        \alpha \dim(\overset{\text{~}}{v})$, модель нечіткого екстрактора відхилить вхідні дані, оскільки для обраних параметрів стандартне відхилення деякої множини координат перевищує задане максимально допустиме значення.
    
    3. До даних буде застосовано наступне перетворення:
        - $$

Приклади розподілу хеш-значень, згенерованих алгоритмом $\textit{FuzzyExtractor}$:

- Для вхідних даних, які задовольняють вимогам:
  <pre>
  1)
  b'\n\xd7\xa3p=\n\xa7\xbfH\xe1z\x14\xaeG\xc1?\n\xd7\xa3p=\n\xa7?333333\xb3\xbf': 1187,
  b'\n\xd7\xa3p=\n\xa7\xbf\xe1z\x14\xaeG\xe1\xba?\n\xd7\xa3p=\n\xa7?333333\xb3\xbf': 313

  2)
  b'\n\xd7\xa3p=\n\xa7\xbfH\xe1z\x14\xaeG\xc1?\n\xd7\xa3p=\n\xa7?333333\xb3\xbf': 1469,
  b'\n\xd7\xa3p=\n\xa7\xbfH\xe1z\x14\xaeG\xc1?\xb8\x1e\x85\xebQ\xb8\x8e?333333\xb3\xbf': 31
  </pre>

- Для вхідних даних, які не задовольняють вимогам:
  <pre>
  1)
  b'\n\xd7\xa3p=\n\xa7\xbf\xe1z\x14\xaeG\xe1\xba?\xb8\x1e\x85\xebQ\xb8\x8e?333333\xb3\xbf': 95,
  b'\n\xd7\xa3p=\n\xa7\xbf\xe1z\x14\xaeG\xe1\xba?\n\xd7\xa3p=\n\xa7?333333\xb3\xbf': 941,
  b'333333\xb3\xbf\xe1z\x14\xaeG\xe1\xba?\n\xd7\xa3p=\n\xa7?333333\xb3\xbf': 349,
  b'333333\xb3\xbf\xe1z\x14\xaeG\xe1\xba?\xb8\x1e\x85\xebQ\xb8\x8e?333333\xb3\xbf': 106,
  b'\n\xd7\xa3p=\n\xa7\xbfH\xe1z\x14\xaeG\xc1?\n\xd7\xa3p=\n\xa7?333333\xb3\xbf': 6,
  b'333333\xb3\xbfH\xe1z\x14\xaeG\xc1?\n\xd7\xa3p=\n\xa7?333333\xb3\xbf': 3
  </pre>