# **Performance Benchmarking of Cryptographic Mechanisms**

Maximiliano Vítor Phillips e Sá (up202305979)

Rita Maria Pinho Moreira (up202303885)

Samuel José Sousa Ventura da Silva (up202305647)

# 1. Introdução

O objetivo do seguinte projeto é medir o tempo que AES, RSA e SHA levam para processar arquivos de diferentes tamanhos, usando uma implementação em Python para os mecanismos de encriptação/descriptação e hash. 

<h3>AES (Advanced Encryption Standard)<h3>

O AES é um algoritmo de criptografia simétrica, ou seja, usa a mesma chave para encriptação e decriptação. Ele opera com blocos de 128 bits e suporta chaves de 128, 192 ou 256 bits. O AES é amplamente utilizado devido à sua segurança, velocidade e eficiência em hardware e software. Um dos modos mais utilizados neste algoritmo é o CBC (Cipher Block Chaining). Este divide os dados a serem criptografados em blocos de 16 bytes, sendo o primeiro dos blocos combinado com um vetor de inicialização, via XOR, antes de ser criptografado Isso permite um encadeamento de blocos, em que cada bloco de texto cifrado é usado para modificar o próximo bloco antes da criptografia. 

<h3>RSA (Rivest-Shamir-Adleman)<h3>

O RSA é um algoritmo de criptografia assimétrica, ou seja, usa um par de chaves: uma chave pública para encriptação e uma chave privada para decriptação. O RSA suporta chaves de 2048, 3072 e 4096 bits mas uma chave de 2048 bits é considerada suficientemente segura e é o tamanho mais utilizado. É uma das mais antigas e mais utilizadas formas de transmisão segura de dados. O sistema de encriptação utiliza uma factorização de dois números primos e não há nenhum método publicado para hackear o sistema devido à chave grande.

<h3>SHA (Secure Hash Algorithm)<h3>

O SHA é uma família de funções de hash criptográfico desenvolvida pela NSA (National Security Agency). A sua principal função é converter dados de qualquer tamanho num tamanho fixo de bits (hash), garantindo integridade e autenticidade.

O trabalho especifica o uso do SHA-256, que gera um hash de 256 bits. É amplamente utilizado em assinaturas digitais, blockchain e verificação de integridade de arquivos.

---

# 2. Implementação 

<h3>Geração de Arquivos<h3>

Foram gerados, para este projeto, 100 ficheiros para cada tamanho. 

In [None]:
import os
import random
import string

def generate_random_file(folder, filename, size):
    file_path = os.path.join("text_files", folder, filename)
    os.makedirs(os.path.dirname(file_path), exist_ok=True)  # Ensure directory exists
    
    random_content = ''.join(random.choices(string.ascii_letters + string.digits, k=size))
    with open(file_path, "w") as f:
        f.write(random_content)

file_sizes = [2, 4, 8, 16, 32, 64, 128, 512, 4096, 32768, 262144, 2097152]  # Adjust for RSA if needed
for size in file_sizes:
    folder_name = str(size)  # Folder named after size
    for i in range(1, 101):
        generate_random_file(folder_name, f"{size}_{i}.txt", size)

---

<h3>Encriptação e Descriptação com AES<h3>

Bibliotecas e módulos necessários para a implementação das funções de AES, e variáveis globais utilizadas nas mesmas:

In [None]:
from cryptography.hazmat.primitives.ciphers import Cipher,algorithms,modes
from cryptography.hazmat.primitives import padding
import os
import timeit
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import numpy as np

sizes = [8, 64, 512, 4096, 32768, 262144, 2097152]
results = {}
key = os.urandom(32) # key of 32 bytes (256 bits)

A função **encrypt(data,size,iv)** cria um objeto de cifra AES, no modo CBC (Cipher Block Chaining) com uma chave (key, variável global) e um vetor de inicializção (iv), para um ficheiro de tamanho size. Se os dados não forem múltiplos de 16 bytes, este adiciona preenchimento (padding PKCS7) para que fiquem com o tamanho correto. A função encripta os dados (data) e retorna o resultado.

A função **decrypt(ciphertext, size, iv)** cria um objeto de cifra AES, no mesmo modo, com a mesma chave e vetor de inicialização. Se os dados tiverem sido preenchidos anteriormente (padding), a função remove esse preenchimento após o processo. Retorna os dados originais descriptografados. 

In [None]:
def encrypt(data, size, iv):
    cipher = Cipher(algorithms.AES(key), modes.CBC(iv))
    encryptor = cipher.encryptor()

    # bytes have to be a multiple of 16... if not add padding
    if size % 16 != 0:
        # Pad the data to the AES block size (128 bits)
        padder = padding.PKCS7(128).padder()
        padded_data = padder.update(data) + padder.finalize()
        ct = encryptor.update(padded_data) + encryptor.finalize()
        return ct
    else:
        ct = encryptor.update(data) + encryptor.finalize()
        return ct


def decrypt(ciphertext, size, iv):
    # if not a size multiple of 16 it will have padding to be removed
    if size % 16 != 0:
        cipher = Cipher(algorithms.AES(key), modes.CBC(iv))
        decryptor = cipher.decryptor()
        padded_data = decryptor.update(ciphertext) + decryptor.finalize()
        unpadder = padding.PKCS7(128).unpadder()
        data = unpadder.update(padded_data) + unpadder.finalize()
        return data
    else:
        cipher = Cipher(algorithms.AES(key), modes.CBC(iv))
        decryptor = cipher.decryptor()
        data = decryptor.update(ciphertext) + decryptor.finalize()
        return data

---

<h3>Encriptação e Descriptação com RSA<h3>

Módulos necessários para as funções de RSA, tal como um gerador de chave privada e chave pública, necessárias para a encriptação e decriptação em RSA.

In [None]:
from cryptography.hazmat.primitives.asymmetric import rsa, padding
from cryptography.hazmat.primitives import serialization, hashes

# Generate RSA Key Pair (2048-bit)
private_key = rsa.generate_private_key(
    public_exponent=65537,
    key_size=2048
)
public_key = private_key.public_key()

A função **encrypt_data(data)** usa uma chave pública (public_key) para criptografar os dados. Aplica OAEP (Optimal Asymmetric Encryption Padding) com SHA-256, que aumenta a segurança ao evitar ataques baseados em estrutura de texto. Retorna os dados criptografados, que só podem ser descriptografados com a chave privada (private_key) correspondente.

A função **decrypt_data(encrypted_data)** usa a chava privada (private_key) para descriptografar os dados, aplicando o mesmo sistema OAEP + SHA-256 para garantir segurança. Retorna os dados originais, isto é, os dados anteriores à criptografia.

In [None]:
# Function to encrypt data
def encrypt_data(data):
    return public_key.encrypt(
        data,
        padding.OAEP(
            mgf=padding.MGF1(algorithm=hashes.SHA256()),
            algorithm=hashes.SHA256(),
            label=None
        )
    )

# Function to decrypt data
def decrypt_data(encrypted_data):
    return private_key.decrypt(
        encrypted_data,
        padding.OAEP(
            mgf=padding.MGF1(algorithm=hashes.SHA256()),
            algorithm=hashes.SHA256(),
            label=None
        )
    )

---

<h3>Hashing com SHA-256<h3>

O processo hashing transforma o "input", file_data, de qualquer tamanho, num hash fixo de 256 bits, ou 64 caracteres hexadecimais. Para isto, é necessário importar a biblioteca hashlib. Também foram criada uma lista para armazenar os tamanhos que serão tratados com SHA-256 e um dicionário para armazenar o desvio padrão de cada tamanho.

In [None]:
import hashlib
sizes = [8, 64, 512, 4096, 32768, 262144, 2097152]
std_dev = {}
#Gerar a hash SHA-256 
def calculate_sha256_hash(file_data):
    return hashlib.sha256(file_data).hexdigest()

---

**Cálculo de intervalos de confiança**, que nos dá uma estimativa de incerteza ao inferir sobre uma população com base numa amostra. Têm como nível de confiança 95%. numa distribuição normal.

In [None]:
# Calculate and return the confidence interval for the given data.
def get_confidence_interval(data, confidence=0.95):
    # Parameters: confidence (float): The confidence level (default is 0.95).
    n = len(data)
    mean = np.mean(data)
    std_dev = np.std(data, ddof=1)
    se = std_dev / np.sqrt(n)
    
    # 95% confidence, using the normal distribution approximation: the z-score is 1.96.
    z = 1.96  
    margin_error = z * se
    return (mean - margin_error, mean + margin_error)

---

<h3>Medição do Tempo e processamento de ficheiros com AES<h3>

Para processar todos os ficheiros de um só tamanho (100), é usada a função **processAllFiles(size)**, que mede o tempo de encriptação e decriptação de cada ficheiro, em microsegundos, que será impresso no terminal. Cada tempo será armazenado no respetivo array: se for o tempo de encriptação irá para o arrayEnc, e se for de decriptação irá para o arrayDec. No final, armazenamos no dicionário results (variável global) esses arrays, com a chave "encryption_time" e "decryption_time" para facilitar a identificação. 

In [None]:
def processAllFiles(size):
    arrEnc = [0] * 100  # Array to store encryption times for 100 files
    arrDec = [0] * 100  # Array to store decryption times for 100 files
    for i in range(1, 101):
        file_path = os.path.join("text_files", str(size), f"{size}_{i}.txt")
        with open(file_path, "rb") as file:
            plaintext = file.read()
        iv = os.urandom(16)  # IV has to be 16 bytes

        # Encrypt and time encryption
        encrypt_timer = timeit.Timer(lambda: encrypt(plaintext, size, iv))
        enc_time = (encrypt_timer.timeit(number=100) / 100) * 1000000
        arrEnc[i - 1] = enc_time

        ciphertext = encrypt(plaintext, size, iv)

        # Decrypt and time decryption
        decrypt_timer = timeit.Timer(lambda: decrypt(ciphertext, size, iv))
        dec_time = (decrypt_timer.timeit(number=100) / 100) * 1000000
        arrDec[i - 1] = dec_time

    confidenceEnc = get_confidence_interval(arrEnc)
    confidenceDec = get_confidence_interval(arrDec)
    print(f"{size} bytes:\tEncryption: ({confidenceEnc[0]:.2f}, {confidenceEnc[1]:.2f})\tDecryption: ({confidenceDec[0]:.2f}, {confidenceDec[1]:.2f})")
    # Store all times for the given size
    results[size] = {'encryption_time': arrEnc, 'decryption_time': arrDec}

A função **processUnique(file, size)** é utilizada para a medição de um só ficheiro, 100 vezes, para se observar as variações de tempo de um só ficheiro a cada encriptação ou decriptação. Armazenamos assim cada tempo de encriptação no arrayEnc e cada tempo de decriptação no arrayDec, e no fim é chamada uma função **plot_results(arrayEnc, arrayDec, file)** que cria um gráfico de linhas com os resultados, exposto no capítulo 3, **Resultados**.

In [None]:
def processUnique(file,size):
    file_path = os.path.join("text_files", str(size), file)
    # Check if the file exists
    if not os.path.isfile(file_path):
        print(f"Error: File {file_path} not found.")
        return
    # Read the file only once
    with open(file_path, "rb") as f:
        data = f.read()
    # Arrays to store encryption and decryption times
    arrayEnc = []
    arrayDec = []
    #print(f"{file:<8}:")
    for i in range(100):
        with open(file_path, "rb") as f:
            plaintext = f.read()
        iv = os.urandom(16)  # IV has to be 16 bytes
        # Encrypt and time encryption
        encrypt_timer = timeit.Timer(lambda: encrypt(plaintext, size, iv))
        enc_time = (encrypt_timer.timeit(number=1000) / 1000) * 1000000
        arrayEnc.append(enc_time)

        ciphertext = encrypt(plaintext, size, iv)

        # Decrypt and time decryption
        decrypt_timer = timeit.Timer(lambda: decrypt(ciphertext, size, iv))
        dec_time = (decrypt_timer.timeit(number=1000) / 1000) * 1000000
        arrayDec.append(dec_time) 

    plot_results(arrayEnc, arrayDec, file)

---

<h3>Medição do Tempo e processamento de ficheiros com RSA<h3>

A função **process_all_files(size)**, usa o mesmo método que a função para AES, mas sem o vetor de inicialização. 

In [None]:
def process_all_files(size):
    arrayEnc = [0]*100
    arrayDec = [0]*100
    results[size] = {'encryption_time': [], 'decryption_time': []}
    for i in range(1,101):
        file_path = os.path.join("text_files", str(size), str(size)+"_"+str(i)+".txt")

        if os.path.isfile(file_path):
            with open(file_path, "rb") as f:
                data = f.read()

            # Measure encryption time
            enc_time = (timeit.timeit(lambda: encrypt_data(data), number=100) / 100)* 1_000_000 
            encrypted_data = encrypt_data(data)
            arrayEnc[i-1] = enc_time
            # Measure decryption time
            dec_time = (timeit.timeit(lambda: decrypt_data(encrypted_data), number=100) / 100)* 1_000_000
            arrayDec[i-1] = dec_time
            # Store results
            results[size]['encryption_time'].append(enc_time)
            results[size]['decryption_time'].append(dec_time)
            filename = str(size) + "_" + str(i) + ".txt"
            #print(f"{filename:<8} | {size:<12} | {enc_time:.9f}         | {dec_time:.6f}")
    
    confidenceEnc = get_confidence_interval(arrayEnc)
    confidenceDec = get_confidence_interval(arrayDec)
    print(f"{size} bytes:\tEncryption: ({confidenceEnc[0]:.2f}, {confidenceEnc[1]:.2f})\tDecryption: ({confidenceDec[0]:.2f}, {confidenceDec[1]:.2f})")

A função **process_unique(file, size)** tem o mesmo efeito que a função processUnique para AES, imprimindo no terminal o tempo que o mesmo ficheiro demora a criptografar e descriptografar, para cada iteração. Após isso é chamada uma função **plot_results(arrayEnc, arrayDec, file)** que retorna um gráfico de linhas com os resultados, também acessível no Capítulo 3, **Resultados**.

In [None]:
def process_unique(file,size):
    file_path = os.path.join("text_files", str(size), file)
    # Check if the file exists
    if not os.path.isfile(file_path):
        print(f"Error: File {file_path} not found.")
        return
    # Read the file only once
    with open(file_path, "rb") as f:
        data = f.read()
    # Arrays to store encryption and decryption times
    arrayEnc = []
    arrayDec = []
    #print(f"{file:<8}:")
    for i in range(100):  # Run 100 times for accuracy
        try:
            # Measure encryption time
            enc_time = (timeit.timeit(lambda: encrypt_data(data), number=100) / 100)* 1_000_000
            encrypted_data = encrypt_data(data)
        except Exception as e:
            print(f"Error encrypting {file}: {e}")
            continue
        arrayEnc.append(enc_time)
        try:
            # Measure decryption time
            dec_time = (timeit.timeit(lambda: decrypt_data(encrypted_data), number=100) / 100)* 1_000_000
        except Exception as e:
            print(f"Error decrypting {file}: {e}")
            continue
        arrayDec.append(dec_time)
    # Print averaged results
        #print(f"Encryption Time: {arrayEnc[i]:.9f} s | Decryption Time: {arrayDec[i]:.6f} s")
    plot_results(arrayEnc, arrayDec, file)

---

**Medição do Tempo e processamento de ficheiros com SHA**

A função **process_files(base_dir, size)**, semelhante às funções processAllFiles (AES) e process_all_files (RSA), calcula e retorna o tempo de hashing de 100 ficheiros de cada tamanho, em microssegundos. É nos disponibilizado, também, o intervalo de confiança e o desvio padrão para os resultados obtidos.

In [None]:
def process_files(base_dir, size):
    size_dir = os.path.join(base_dir, str(size))
    hash_times = []
    
    for i in range(1, 101):
        file_path = os.path.join(size_dir, f"{size}_{i}.txt")
        if os.path.exists(file_path):
            with open(file_path, "rb") as file:
                file_data = file.read()
                
                timer = timeit.Timer(lambda: calculate_sha256_hash(file_data))
                hash_time = (timer.timeit(number=100) / 100) * 1000000
                hash_times.append(hash_time)

    confidenceHash = get_confidence_interval(hash_times)
    print(f"{size} bytes:\tHashing: ({confidenceHash[0]:.2f}, {confidenceHash[1]:.2f})")

    std_hash = np.std(hash_times, ddof=1)  # ddof=1 for sample std deviation
    std_dev[size] = std_hash
    # Gráfico de distribuição
    plt.figure(figsize=(10, 6))
    plt.text(0.75, 1.05, f"Std Dev: {std_hash:.2f}", fontsize=12, color='blue',
             verticalalignment='bottom', horizontalalignment='center', transform=plt.gca().transAxes)
    tick_positions = range(0, 101, 10)  # Show ticks every 10 iterations
    plt.xticks(tick_positions)  # Set X-axis to display only 10th iterations
    # Set the width of the bars
    bar_width = 1
    index = range(1, len(hash_times) + 1)  # Indices for X-axis
    # Plot the lines
    plt.plot([i - bar_width / 2 for i in index], hash_times, '-', linewidth=2, color='blue', label='Tempo de Hash')
    plt.ylabel('Tempo de hash (µs)')
    plt.xlabel('Iterações')
    plt.legend(loc='upper right')
    plt.title(f'Tempos de Hashing SHA ({size} bytes)')
    #plt.savefig(f'{file_name}_performance.png', dpi=120)
    plt.show()
    plt.close()

    return sum(hash_times)/len(hash_times) if hash_times else None

A função **process_unique_file(file_name, size)**, da mesma forma que as funções para AES e RSA, calcula e retorna o tempo de hashing de um só ficheiro iterado 100 vezes, em microssegundos. Para além disso, retorna um gráfico de linhas associado aos resultados obtidos, com o desvio padrão dos resultados. 

In [None]:
def process_unique_file(file_name, size):
    base_dir = find_correct_path()
    file_path = os.path.join(base_dir, str(size), file_name)
    
    if not os.path.exists(file_path):
        print(f"Arquivo {file_path} não encontrado!")
        return

    with open(file_path, "rb") as f:
        data = f.read()

    hash_times = []
    for _ in range(100):
        timer = timeit.Timer(lambda: calculate_sha256_hash(data))
        hash_time = (timer.timeit(number=100) / 100) * 1000000
        hash_times.append(hash_time)

    # Gráfico de distribuição
    plt.figure(figsize=(10, 6))
    std_hash = np.std(hash_times, ddof=1)  # ddof=1 for sample std deviation
    # Gráfico de distribuição
    plt.figure(figsize=(10, 6))
    plt.text(0.75, 1.05, f"Std Dev: {std_hash:.2f}", fontsize=12, color='blue',
             verticalalignment='bottom', horizontalalignment='center', transform=plt.gca().transAxes)
    tick_positions = range(0, 101, 10)  # Show ticks every 10 iterations
    plt.xticks(tick_positions)  # Set X-axis to display only 10th iterations
    # Set the width of the bars
    bar_width = 1
    index = range(1, len(hash_times) + 1)  # Indices for X-axis
    # Plot the lines
    plt.plot([i - bar_width / 2 for i in index], hash_times, '-', linewidth=2, color='blue', label='Tempo de Hash')
    plt.ylabel('Tempo de hash (µs)')
    plt.xlabel('Iterações')
    plt.legend(loc='upper right')
    plt.title(f'Distribuição de tempos - {file_name}')
    #plt.savefig(f'{file_name}_performance.png', dpi=120)
    plt.show()
    plt.close()

---

<h3>Funções de projeção dos resultados em gráficos (AES, RSA, SHA)<h3>

As funções são semelhantes, logo serão generalizadas para os três modos.

A função **plot_results(arrayEnc, arrayDec, file)** retorna um gráfico de linhas com os tempos de encriptação e decriptação respetivos a cada iteração de um só ficheiro. O tempo de encriptação está a azul, e o tempo de decriptação a vermelho. O tempo é medido em microsegundos. Também é possível ter acesso ao desvio padrão (std) dos resultados obtidos. A função apresentada é para o modo AES, sendo igual nos restantes modos.

In [None]:
def plot_results(arrayEnc, arrayDec, file):
    # Create a figure
    plt.figure(figsize=(12, 8))

    # Set the width
    bar_width = 1
    index = range(1, len(arrayEnc) + 1)  # Indices for X-axis

    # Plot the lines
    plt.plot([i - bar_width / 2 for i in index], arrayEnc, '-', linewidth=2, color='blue', label='Encryption Time')
    plt.plot([i - bar_width / 2 for i in index], arrayDec, '-', linewidth=2, color='red',label='Decryption Time')

    # Compute standard deviation for encryption times
    std_enc = np.std(arrayEnc, ddof=1)  # ddof=1 for sample std deviation
    std_dec = np.std(arrayDec, ddof=1)  # ddof=1 for sample std deviation

    # Adding labels and title
    plt.xlabel('Iteration')
    plt.ylabel('Time (microseconds)')
    plt.title(f"AES Encryption and Decryption Times for {file}")
    
    # Set X-axis labels to the index of iterations
    tick_positions = range(0, 101, 10)  # Show ticks every 10 iterations
    plt.xticks(tick_positions)  # Set X-axis to display only 10th iterations
    plt.legend(loc='upper right')

    # Display both standard deviations below the title and above the bars
    plt.text(0.25, 1.05, f"Std Dev (Encryption): {std_enc:.2f}", fontsize=12, color='blue',
             verticalalignment='bottom', horizontalalignment='center', transform=plt.gca().transAxes)
    
    plt.text(0.75, 1.05, f"Std Dev (Decryption): {std_dec:.2f}", fontsize=12, color='red',
             verticalalignment='bottom', horizontalalignment='center', transform=plt.gca().transAxes)
    # Display the plot
    plt.show()

A função **plot_graph(results)**, especificada para o modo AES, é utilizada para retornar o gráfico de linhas para um tamanho específico, com as variações dos 100 ficheiros correspondentes. É possível, também, observar o desvio padrão dos resultados.

In [None]:
def plot_graph(results):
    # Loop através dos resultados para cada pasta/tamanho
    for folder_size, times in results.items():
        # Criar um novo gráfico para cada tamanho de pasta
        plt.figure(figsize=(12, 8))  # Definir o tamanho da figura

        bar_width = 1
        index = range(1, len(times['encryption_time']) + 1)  # Indices for X-axis
        # Plotando o tempo de encriptação
        plt.plot([i - bar_width / 2 for i in index], times['encryption_time'], '-', linewidth=2, color='blue', label='Encryption Time')
        
        # Plotando o tempo de decriptação
        plt.plot([i - bar_width / 2 for i in index], times['decryption_time'], '-', linewidth=2, color='red', label='Decryption Time')
        
        # Calculate the standard deviation for encryption and decryption times
        std_enc = np.std(times['encryption_time'], ddof=1)
        std_dec = np.std(times['decryption_time'], ddof=1)

        # Ajustar os rótulos e título para o gráfico
        plt.xlabel('File Index')
        plt.ylabel('Time (Microseconds)')
        plt.title(f"Encryption and Decryption Times for AES ({folder_size} bytes)")
        
        # Definir os ticks no eixo X para mostrar a cada 10 arquivos
        tick_positions = range(0, 101, 10)  # Mostrar ticks a cada 10 iterações
        plt.xticks(tick_positions)
        plt.legend()
        # Display both standard deviations below the title and above the bars
        plt.text(0.25, 1.05, f"Std Dev (Encryption): {std_enc:.2f}", fontsize=12, color='blue',
                verticalalignment='bottom', horizontalalignment='center', transform=plt.gca().transAxes)
        
        plt.text(0.75, 1.05, f"Std Dev (Decryption): {std_dec:.2f}", fontsize=12, color='red',
                verticalalignment='bottom', horizontalalignment='center', transform=plt.gca().transAxes)
        plt.show()

A função **plot_graph_avg(results)**, utilizada para o ficheiro de RSA, tem como retorno o gráfico de linhas para a média de cada tamanho utilizado pelo modo. No caso do RSA, é nos dada a média de tempo de encriptação e decriptação para os tamanhos 2, 4, 8, 16, 32, 64 e 128 bytes. Uma função com código da mesma estrutura foi utilizada para retornar um gráfico de linhas para a média de cada tamanho utilizado pelo modo AES. No caso do AES os tamanhos são de 8, 64, 512, 4096, 32768, 262144 e 2097152 bytes.

In [None]:
def plot_graph_avg(results): # works well, corrigir avg dec 
    # For each size, compute the average encryption and decryption time
    sizes = sorted(results.keys())
    avg_enc_times = []
    avg_dec_times = []

    for s in sizes:
        avg_enc = sum(results[s]['encryption_time']) / len(results[s]['encryption_time'])
        avg_dec = sum(results[s]['decryption_time']) / len(results[s]['decryption_time'])
        # Calculate the standard deviation for encryption and decryption times
        avg_enc_times.append(avg_enc)
        avg_dec_times.append(avg_dec)


    plt.figure(figsize=(12, 8))
    
    # Line plot for encryption and decryption times
    plt.plot(sizes, avg_enc_times, marker='o', color='blue', label='Encryption Time')
    plt.plot(sizes, avg_dec_times, marker='x', color='red', label='Decryption Time')

    # Adding labels and title
    plt.xscale('log')  # 'log' for better visualization
    plt.xlabel('Size (Bytes)')
    plt.ylabel('Time (Microseconds)')
    plt.title("Average Encryption and Decryption Times for RSA")
    plt.xticks(sizes, [str(x) for x in sizes])
    # Display the bars and the legend
    plt.legend()
    plt.show()

A função **plot_sha256_performance(results)** funciona como a plot_graph_avg(results), mas para hashing, usando um line chart.

In [None]:
def plot_sha256_performance(results, std_devs):
    x_values = list(results.keys())
    y_values = list(results.values())

    plt.figure(figsize=(12, 8))
    plt.plot(x_values, y_values, '-', linewidth=2,color='blue', label='Tempo de Hash')
    plt.xscale('log')    
    plt.xlabel('Tamanho do arquivo (bytes)', fontsize=12)
    plt.ylabel('Tempo médio de hash (µs)', fontsize=12)
    plt.title('Desempenho do SHA-256 por Tamanho de Arquivo', fontsize=14)
    plt.grid(True, alpha=0.3)
    plt.xticks(x_values, [str(x) for x in x_values], rotation=45)
    plt.legend(loc='upper right')
    #plt.savefig('sha256_performance.png', dpi=300)
    plt.show()
    plt.close()

---

# 3. Resultados

>O computador usado para a obtenção dos resultadoa abaixo é o MacBook Air 2022, de chip M2. Possui o OS Sequoia 15.3.1, memória de 16GB e tem como disco de arranque o Macintosh HD.

<h3>AES: Tempo de encriptação/descriptação vs. tamanho do arquivo<h3>

Em baixo estão apresentados alguns gráficos do modo AES.

Comparação entre tamanhos, usando a função processAllFiles, é apresentada a variação de tempo para os 100 ficheiros de um tamanho, com o seu desvio padrão:

![Gráfico de barras AES para o tamanho 8 bytes](gráficos/AES_8bytes.png)

![Gráfico de barras AES para 4096 bytes](gráficos/AES_4096bytes.png)

![Gráfico de barras AES para 2097152 bytes](gráficos/AES_2097152bytes.png)

> Intervalos de confiança para cada tamanho analisado:

>![Intervalos de Confiança AES por tamanho](intervalosDeConfiança/confidence_intervals_AES.png)

Variação de tempo para um só ficheiro (100 iterações), e o seu desvio padrão:

![Gráfico de barras AES para o ficheiro 64_5.txt](gráficos/AES_uniqueFile.png)

Comparação entre a média de tempo de encriptação e decriptação de cada tamanho, com o devido desvio padrão:

![Gráfico de barras médio AES](gráficos/AES_avgBar.png)

---

<h3>RSA: Tempo de encriptação vs. tempo de descriptação<h3>

Em baixo estão apresentados alguns gráficos do modo RSA.

Comparação entre tamanhos, usando a função process_all_files, é apresentada a variação de tempo para os 100 ficheiros de um tamanho, com o seu desvio padrão:

![Gráfico de Barras RSA para 2 bytes](gráficos/RSA_2bytes.png)

![Gráfico de barras RSA para 16 bytes](gráficos/RSA_16bytes.png)

![Gráfico de Barras RSA para 128 bytes](gráficos/RSA_128bytes.png)

> Intervalos de confiança para cada tamanho analisado:

>![Intervalos de Confiança RSA para cada tamanho](intervalosDeConfiança/ConfidenceIntervalRSA.png)

Variação de tempo para um só ficheiro (100 iterações), e o seu desvio padrão:

![Gráfico de Barras RSA para o ficheiro 64_5.txt](gráficos/RSA_uniqueFile.png)

Comparação entre a média de tempo de encriptação e decriptação de cada tamanho, com o devido desvio padrão:

![Gráfico de Barras RSA médio](gráficos/RSA_avgBar.png)

---

<h3>SHA: Tempo de hashing vs. tamanho do arquivo<h3>

Em baixo estão apresentados alguns gráficos do modo AES.

Comparação entre tamanhos, usando a função process_files, é apresentada a variação de tempo de hashing para os 100 ficheiros de um tamanho, com o seu desvio padrão:

![Gráfico de barras SHA256 para 8 bytes](gráficos/SHA_8bytes.png)

![Gráfico de barras SHA256 para 4096 bytes](gráficos/SHA_4096bytes.png)

![Gráfico de barras SHA256 para 2097152 bytes](gráficos/SHA_2097152bytes.png)

> Intervalos de confiança para cada tamanho analisado:

> ![Intervalos de confiança SHA256 para cada tamanho](intervalosDeConfiança/SHA_confidenceInterval.png)

Variação de tempo de hashing para um só ficheiro (100 iterações), e o seu desvio padrão:

![Gráfico de barras para um só ficheiro 64_5.txt SHA](gráficos/SHA_uniquefile.png)

Comparação entre a média de tempo de hashing de cada tamanho, com o devido desvio padrão:

![Gráfico de Linhas SHA average](gráficos/SHA_avg.png)

---

# 4. Análise de Resultados

<h3>Análise de AES<h3>

Em relação à comparação entre ficheiros de tamanhos diferentes, podemos ver uma diferença grande. Com 8 bytes, o tempo de encriptação e decriptação é quase idêntico e muito baixo, rondando os 10 microssegundos, tal como o desvio padrão respetivo (1,65 e 1,56 microssegundos). Nos últimos ficheiros desse tamanho, tal como nos primeiros 5, ocorreu um aumento significativo, talvez devido a oscilações no processamento. Com 4096 bytes, o tempo de encriptação é maior que o tempo de decriptação, sendo ambos estáveis e previsíveis, e com um desvio padrão baixo. O tempo de processamento é muito semelhante ao de 8 bytes, principalmente na decriptação, entre 10 e 16 microssegundos, sugerindo que em ficheiros pequenos e médios, o overhead (tempo extra que um sistema precisa para executar uma tarefa) fixo da encriptação/decriptação é dominante em relação ao tamanho real dos dados.
Com 2097152 bytes, ambos os tempos aumentam significativamente, com um pico na encriptação de quase 4000 microssegundos, concluindo que não cresce linearmente com o tamanho do ficheiro.  O tempo de encriptação é bastante superior ao de decriptacao, com um aumento de mais de 2000 microssegundos entre os mesmos, indicando que os processos envolvidos na encriptação podem ser mais exigentes que na decriptação.

Usando este processo apenas num ficheiro, neste caso com 64 bytes, criptografado e descriptografado 100 vezes, a variação é quase nula, tanto para a encriptação como para a decriptação. Na imagem relativa a este processo, a primeira iteração demorou mais que as outras, fazendo com que o desvio padrão de encriptação seja maior que na decriptação, com 0.48 microssegundos.

No modo AES, pequenos ficheiros, como por exemplo 8 bytes e 32768 bytes, possuem um tempo de encriptação e decriptação extremamente rápido, com menos de 500 microssegundos, sendo praticamente instantâneas, independentemente do tamanho (quando é pequeno). O seu desvio padrão é baixo, indicando que o tempo é estável e previsível. Em ficheiros grandes, como é o caso do ficheiro de 2097152 bytes, o tempo de encriptação aumenta significativamente, com mais de 3000 microssegundos, e o tempo de decriptação também aumenta, para quase 1000 microssegundos. O desvio padrão correspondente é muito maior aos anteriores, indicando uma variação no tempo de processamento. No caso da encriptação chega aos 82.14 microssegundos, e na decriptação aos 27.92 microssegundos, menor que na encriptação, sugerindo mais estabilidade.

---------------------------

<h3>Análise de RSA<h3>

Começando na comparação entre tamanhos, não se vê uma diferença pois são tamanhos pequenos. Como nos gráficos apresentados, para 2, 16 e 128 bytes, os tempos de encriptação e decriptação não mudam, sendo aproximadamente 100 microssegundos e 1750 microssegundos, respetivamente. Isto acontece porque o RSA não trabalha diretamente com cada byte de dados, como o AES. Em vez disso, o RSA opera em blocos do tamanho da chave (2048 bits = 256 bytes), então encriptar estes tamanhos é praticamente o mesmo, pois todos cabem no mesmo bloco. Entre encriptação e decriptação de RSA, a encriptação é mais rápida devido ao expoente público ser pequeno, o que torna os cálculos mais eficientes. Já a decriptação usa um expoente privado, que é muito maior, tornando os cálculos exponenciais muito mais caros a nível computacional. Esta exige operações modulares mais complexas e demoradas. 

No processo de apenas um ficheiro, neste caso de 64 bytes, criptografado e descriptografado 100 vezes, o tempo de cada iteração é idêntico aos tempos acima mencionados, e não há variações significativas. A encriptação é extremamente rápida e consistente, com um desvio padrão de 2.02 microssegundos, e a decriptação é significativamente mais lenta, com um desvio padrão de 7.71 microssegundos, que mesmo sendo maior que o da encriptação, continua a ser relativamente pequeno. 

Em relação à comparação do tempo médio para diferentes tamanhos no RSA, este mantém-se praticamente constante. O tempo de encriptação é de 1750 microssegundos, e o tempo de encriptação é de aproximadamente 100 microssegundos. O desvio padrão de encriptação é baixíssimo, rondando os 0.20 microssegundos, o que indica que a encriptação é muito determinística. O desvio padrão de decriptação é maior e na maioria dos casos ronda os 7 ou 8 microssegundos. Há uma ligeira variação no tempo de execução, possivelmente devido a otimizações internas de hardware. Podemos concluir que o RSA não é eficiente para dados de grande tamanho, e deve ser usado para encriptar chaves simétricas, e não ficheiros inteiros.

------

<h3>Análise de SHA<h3>

A partir dos resultados podemos observar que, em relação à comparação entre tamanhos, cada um com 100 ficheiros, o tempo de hashing cresce quase linearmente. Para dados pequenos como 8 bytes, o tempo é muito baixo, com aproximadamente 0.55 microssegundos e um desvio padrão de 0.02 microssegundos. Isto indica que a função de hash possui um processamento fixo, e este domina o tempo total da mesma. Para ficheiros um pouco maiores, como de 4096 bytes, o tempo aumenta, neste caso para 7 microssegundos inicialmente, mas após isso desce para os 3.3 microssegundos, aproximadamente. Essa descida pode ser justificada pela otimização do processador e cache do CPU, qe melhora a eficiência para dados pequenos e médios. O desvio padrão do mesmo é de 0.71 microssegundos.
Já em dados maiores, como é o caso dos ficheiros de 2097152 bytes, o tempo cresce significativamente, mas de forma linear, chegando quase aos 1400microssegundos, com desvio padrão de 5.46 microssegundos. Isto sugere que o custo computacional do SHA-256 cresce de forma previsível.

No processo de um único ficheiro, iterado 100 vezes, com um tamanho de 4096 bytes, o seu tempo médio de hashing é de 3.3 microssegundos, mas possui algumas variações, devido a variações no ambiente computacional. O seu desvio padrão é de 0.74 microssegundos.

Num ponto de vista geral, comparando todos os tamanhos, há um crescimento inicial lento para tamanhos pequenos, variando entre 0.02 microssegundos e 0.71 microssegundos de desvio padrão.
Quando o tamanho do ficheiro aumenta, o crescimento é maior e o desvio padrão sobre para 2.08 microssegundos e 5.72 microssegundos, o que significa que a função de hash começa a ser afetada pelo tamanho do arquivo, devido ao processamento em blocos. 
Para arquivos grandes, o crescimento é quase exponencial mas o desvio padrão nao muda. Isso confirma que o tempo de hashing cresce quase linearmente.

---


<h3>Comparação entre encriptação AES e encriptação RSA<h3>

A encriptação é um aspeto fundamental da segurança digital, protegendo informação de acessos não autorizados. Entre vários modelos de encriptação, o AES e o RSA são dois métodos proeminentes que representam dois tipos fundamentais de algoritmos criptográficos. Têm objetivos distintos, cada um com as suas vantagens e desvantagens. 
A escolha entre estes dois métodos depende da necessidade do utilizador. Para uma encriptação segura, eficiente e linear de grandes quantidades de dados, o AES é preferível. Por outro lado, em situações que requerem comunicações seguras entre canais com pouca segurança, como a Internet, o RSA providencia um método seguro para a troca de chaves, que podem ser posteriormente usadas com o AES.
Em relação a velocidade, o AES é muito mais rápido que o RSA, e é mais adequado aquando de criptografar grandes quantidades de dados. 
Já na segurança de dados, ambos oferecem alta segurança. O AES, com a sua abordagem de chave simétrica, é simples e potencialmente mais robusto com tamanhos de chave menores comparados ao RSA. 
O modo RSA é tipicamente usado para a troca segura de chaves e assinaturas digitais, pois lida com tamanhos de dados bastante pequenos. O modo AES é usado para a encriptação de dados com tamanhos variados, principalmente em grande escala.


<h3>Comparação entre encriptação AES e digest generation SHA-256<h3>

<h3>Comparação entre o tempo de encriptação e decriptação de RSA<h3>

Para o RSA, especificamente, a decriptação é mais lenta que a encriptação. Isto acontece porque tanto a encriptação como a decriptação usam exponenciais modulares, mas, enquanto que o expoente público de encriptação é tipicamente pequeno e fixo (está normalmente entre 3 e 65537), o expoente privado de decriptação é quase tão grande como o próprio módulo. Por isso, duplicar o tamanho do módulo irá duplicar o tempo de encriptação e irá quadriplicar o tempo de decriptação. Uma solução em alguns casos é recorrer ao uso do Teorema Chinês do Resto (Chinese Remainder Theorem), que acelera a decriptação do RSA.

---

# 5. Conclusão

Através este trabalho, é possível concluir que o tamanho dos arquivos influencia diretamente o tempo de processamento dos algoritmos criptográficos. Enquanto que o RSA mantém tempos relativamente constantes em ficheiros pequenos, apresenta um crescimento significativo em relação ao temlo de processamento de ficheiros maiores, tornando-se ineficiente. Por outro lado, o AES demonstra um desemnho altamente linear, mantendo tempos de encriptação e decriptação significativamente pequenos, mesmo em tamanhos grandes. 
SHA...
Os resultados obtidos confirmam, então, que os algoritmos simétricos, como o AES, são mais eficientes para encriptação de grandes quantidades de dados, enquanto que algoritmos assimétricos, como o RSA, são mais adequados para encriptar pequenas quantidades de dados, como chaves. 
Esta diferença de desempenho reforça o método de combinar algoritmos. 
Assim, o estudo reforça a importância da escolha adequada do algoritmo de criptografia dependendo do contexto e da necessidade, equilibrando segurança e eficiência para otimizar o desempenho dos sistemas criptográficos.