# Funkcje skrótu - sprawozdanie
#### Alicja Lis, 151569

## Program analizujący długość znaków oraz szybkość algorytmów md5, sha1, sha224, sha384, sha512

In [1]:
import hashlib
import timeit

# Funkcja porównująca hashe dla różnych instancji tekstowych
def compare_hashes(input_text):
    results = {}
    algorithms = ['md5', 'sha1', 'sha224', 'sha256', 'sha384', 'sha512']
    for algorithm in algorithms:
        # Kod konfiguracyjny dla danego algorytmu haszującego
        setup_code = f'''
from hashlib import {algorithm}
input_text = "{input_text}"
        '''
        # Pomiar czasu potrzebnego na wygenerowanie hasha
        execution_time = timeit.timeit(f'{algorithm}(input_text.encode()).hexdigest()', setup=setup_code, number=100000)
        # Wygenerowanie hasha i zapisanie wyników
        hash_result = getattr(hashlib, algorithm)(input_text.encode()).hexdigest()
        results[algorithm.upper()] = {'hash': hash_result, 'length': len(hash_result), 'time': execution_time}
    return results

if __name__ == "__main__":
    input_data = [
        "Lorem",
        "Lorem ipsum dolor sit amet, consectetur adipiscing elit.",
        "Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus convallis arcu a enim venenatis",
        "Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus convallis arcu a enim venenatis. Fusce non urna quis nisi commodo sollicitudin",
        "Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus convallis arcu a enim venenatis. Fusce non urna quis nisi commodo sollicitudin. Donec convallis nisl vel est suscipit, nec pulvinar dui gravida Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus convallis arcu a enim venenatis. Fusce non urna quis nisi commodo sollicitudin. Donec convallis nisl vel est suscipit, nec pulvinar dui gravida."
    ]

    # Słownik do śledzenia całkowitego czasu dla każdego algorytmu
    overall_results = {algorithm: 0 for algorithm in ['MD5', 'SHA1', 'SHA224', 'SHA256', 'SHA384', 'SHA512']}

    # Pętla po danych wejściowych
    for data in input_data:
        print(f"Data Length: {len(data)}")
        # Porównanie haszy dla danego tekstu
        results = compare_hashes(data)
        # Sortowanie wyników względem czasu
        sorted_results = sorted(results.items(), key=lambda x: x[1]['time'])
        print("Results for current text:")
        # Wyświetlenie wyników dla bieżącego tekstu
        for algorithm, result in sorted_results:
            print(f"{algorithm}: Length - {result['length']}, Time - {result['time']}, Hash - {result['hash']}")
        print("\n")
        # Aktualizacja całkowitego czasu dla każdego algorytmu
        for algorithm, result in results.items():
            overall_results[algorithm] += result['time']

    # Sortowanie całkowitego czasu dla wszystkich algorytmów
    sorted_overall_results = sorted(overall_results.items(), key=lambda x: x[1])

    # Wyświetlenie ogólnej klasyfikacji na podstawie całkowitego czasu
    print("Overall ranking based on total time:")
    for algorithm, total_time in sorted_overall_results:
        print(f"{algorithm}: Total Time - {total_time}")


Data Length: 5
Results for current text:
SHA1: Length - 40, Time - 0.06882109999999986, Hash - 22c67b34317bffa41c9cd41674edbbd490ba58dd
MD5: Length - 32, Time - 0.0717289000000001, Hash - db6ff2ffe2df7b8cfc0d9542bdce27dc
SHA224: Length - 56, Time - 0.07355040000000002, Hash - e23a763c117cd0cf175706675a693566a27087decec35c9b134b86d2
SHA256: Length - 64, Time - 0.07543239999999996, Hash - 1b7f8466f087c27f24e1c90017b829cd8208969018a0bbe7d9c452fa224bc6cc
SHA384: Length - 96, Time - 0.10202409999999995, Hash - 385439ade7c72bd32246e218541a513727ce71d6e9145b8e88dbdbff7d3c8d2060cfa7c5ad98256092d67ef87400f99b
SHA512: Length - 128, Time - 0.10494429999999988, Hash - d8d98397c83c16d59598b66daf16154674cf5a05b9c29155dabd827a6dcd388a7ea2600a9ec4525d5baac6665dc5bae395bafc4b4f19bdf163015842cc76ff74


Data Length: 56
Results for current text:
SHA1: Length - 40, Time - 0.0754999999999999, Hash - e7505beb754bed863e3885f73e3bb6866bdd7f8c
SHA256: Length - 64, Time - 0.07945360000000012, Hash - a58dd8680234

## Wyniki funkcji skrótów uporządkowane rosnąco

### Długość 5 znaków
|      |   SHA-1   | MD5       | SHA-224   | SHA-256   | SHA-512   | SHA-384  |
|:----:|:---------:|-----------|-----------|-----------|-----------|----------|
| Czas | 0.0668299 | 0.0699027 | 0.0716212 | 0.0723995 | 0.103347  | 0.106991 |



### Długość 56 znaków
|      |   SHA-1   | SHA-224  | MD5       | SHA-256    | SHA-384   | SHA-512  |
|:----:|:---------:|----------|-----------|------------|-----------|----------|
| Czas | 0.0722027 | 0.076018 | 0.0788206 | 0.07908309 | 0.0931336 | 0.101997 |

### Długość 96 znaków
|      |   SHA-1   | SHA-224  | MD5       | SHA-256   | SHA-512   | SHA-384  |
|:----:|:---------:|----------|-----------|-----------|-----------|----------|
| Czas | 0.0737586 | 0.077842 | 0.0778553 | 0.0826852 | 0.0997846 | 0.099791 |

### Długość 143 znaków
|      |   SHA-1   | SHA-256   | SHA-224   | MD5       | SHA-384   | SHA-512  |
|:----:|:---------:|-----------|-----------|-----------|-----------|----------|
| Czas | 0.0715467 | 0.0789737 | 0.0804879 | 0.0812441 | 0.1188645 | 0.124684 |

### Długość 418 znaków
|      |   SHA-1   | SHA-256   | SHA-224   | MD5      | SHA-512   | SHA-384  |
|:----:|:---------:|-----------|-----------|----------|-----------|----------|
| Czas | 0.0867812 | 0.0934968 | 0.0990692 | 0.117175 | 0.1509332 | 0.159865 |

## Ranking szybkości funkcji skrótu na podstawie sum poszczególnych wyników
|      |   SHA-1   | SHA-224   | SHA-256   | MD5      | SHA-384   | SHA-512  |
|:----:|:---------:|-----------|-----------|----------|-----------|----------|
| Czas | 0.3711192 | 0.4050391 | 0.4066384 | 0.424997 | 0.5786465 | 0.580747 |

## Wnioski
Algorytm SHA-1 okazał się być najszybszym algorytmem szyfrowania zarówno w tekstach długich jak i krótkich. Najbardziej efektywne pod względem czasu są funkcje skrótu SHA-1, SHA-256 i SHA-224, które osiągnęły najniższe czasy wykonania. Z kolei SHA-384 i SHA-512 są wolniejsze, co może wynikać z większej złożoności obliczeniowej tych funkcji.

# Rola soli w tworzeniu skrótów
- **Unikalność skrótu**
Dodanie soli do oryginalnych danych powoduje, że dwa identyczne ciągi danych mogą generować różne skróty. Jest to szczególnie istotne w przypadku haseł, gdzie istnieje ryzyko ataków z wykorzystaniem rainbow table.

- **Odporność na ataki brute-force**
Sól zwiększa złożoność obliczeniową ataków brute-force. Bez soli, atakujący może obliczyć skróty dla wielu potencjalnych haseł i porównać je z zapisanymi skrótami w bazie danych. Dodając sól, każde obliczenie skrótu wymagałoby dodatkowej pracy.

- **Odporność na ataki słownikowe**
Sól utrudnia również ataki oparte na słownikach. Bez soli, można użyć gotowych list haseł i sprawdzić, czy ich skróty znajdują się w bazie danych. Sól sprawia, że taka technika jest mniej skuteczna, ponieważ nawet popularne hasła będą miały różne skróty.

- **Bezpieczeństwo w przypadku przecieku bazy danych**
Nawet jeśli baza danych zawierająca skróty danych i soli zostanie złamana, dodanie soli sprawia, że trzeba wykonać osobne obliczenia dla każdego hasła co zwiększa koszty obliczeniowe ataku.


# Czy funkcję MD5 można uznać za bezpieczną?
MD5, jest uważana za niebezpieczną z powodu swoich słabych właściwości kryptograficznych. Znane są ataki na MD5, które umożliwiają generowanie kolizji, czyli znalezienie dwóch różnych komunikatów, które mają taki sam skrót MD5. Przez lata wykazano, że możliwe jest stworzenie dwóch różnych wiadomości, które generują ten sam skrót MD5.

W 2004 roku grupa badaczy ogłosiła, że znaleźli praktyczny sposób na wygenerowanie kolizji MD5. W latach późniejszych udowodniono tę koncepcję poprzez tworzenie konkretnych kolizji.

Z tego powodu MD5 nie powinno się już stosować w zastosowaniach, które wymagają bezpiecznych funkcji skrótu.

## Bezpieczeństwo skrótów z krótkich haseł składowanych w bazach danych
Składowanie krótkich haseł w bazach danych jest bardzo niebezpieczne i ma bardzo duże ryzyko odgadnięcia. Krótkie hasła są bardziej podatne na ataki brute force, mają mniejszą entropię oraz większe prawdopodobieństwo wystąpienia w rainbow table. Wzrasta też ryzyko ich kolizji. Wygenerowany skrót czteroznakowy został bardzo szybko odgadnięty poprzez stronę online.


## Badanie kolizji MD5 na pierwszych 12 bitach

In [None]:
import hashlib

def find_collisions():
    # Tworzymy słownik, który będzie przechowywał skróty MD5 dla różnych tekstów
    hash_map = {}
    collision_count = 0

    # Przechodzimy przez zakres od 0 do 2^12, czyli możliwe kombinacje pierwszych 12 bitów
    for i in range(2**12):
        # Tworzymy tekst na podstawie numeru w zakresie
        text = str(i)
        # Obliczamy skrót MD5 dla tego tekstu
        md5_hash = hashlib.md5(text.encode()).hexdigest()
        # Wybieramy pierwsze 12 bitów z tego skrótu
        first_12_bits = md5_hash[:3]  # Pierwsze 3 znaki reprezentujące 12 bitów
        # Sprawdzamy, czy ten zestaw pierwszych 12 bitów już istnieje w słowniku
        if first_12_bits in hash_map:
            collision_count += 1

            # print("Collision found for first 12 bits:", first_12_bits)
            # print("Text 1:", hash_map[first_12_bits])
            # print("Text 2:", text)
            # print()
        else:
            hash_map[first_12_bits] = text

    print("Total collisions: ", collision_count)

if __name__ == "__main__":
    find_collisions()



W pierwszych 12 bitach znaleziono 1479 kolizji, co bardzo dobrze komentuje bezpieczeństwo funkcji skrótu MD5. Funkcja skrótu, która dla kilku wiadomości generuje tą samą funkcję skrótu nie jest bezpieczna.

### Badanie losowości wyjścia funkcji skrutu kryterium SAC

In [None]:
import hashlib

def bit_change_test(input_data):
    original_hash = hashlib.sha256(input_data.encode()).digest()
    changed_hashes = []
    for i in range(len(input_data) * 8):  # dla każdego bitu w wejściu
        modified_input = bytearray(input_data.encode())
        byte_index = i // 8
        bit_index = i % 8
        modified_input[byte_index] ^= (1 << bit_index)  # zmiana pojedynczego bitu
        changed_hash = hashlib.sha256(modified_input).digest()
        changed_hashes.append(changed_hash)

    return all(bit != original_hash[i] for changed_hash in changed_hashes for i, bit in enumerate(changed_hash))

if __name__ == "__main__":
    input_data = "Lorem ipsum dolor sit amet, consectetur adipiscing elit."
    result = bit_change_test(input_data)
    if result:
        print("SHA-256 spełnia kryterium SAC")
    else:
        print("SHA-256 nie spełnia kryterium SAC")
