# Exercício 1 - Quebrando Shift Cipher

## Instruções:

- Elaborar os códigos para realizar a cifra por deslocamento e a respectiva
decifração (dica: validar para cifra de César onde k=3);
- Elaborar os códigos que quebram a cifra por deslocamento, através de duas
estratégias de ataques à cifra (CipherText-only):
    - o por ataque de força bruta;
    - o por distribuição de frequência;

Descrever a viabilidade das estratégias, comparar a complexidade dos algoritmos e
tempo de execução, onde cada técnica seria melhor aplicada etc.

Utilizar a distribuição de frequência da língua portuguesa:
https://www.dcc.fc.up.pt/~rvr/naulas/tabelasPT/

## Contextualização:

A criptografia é a prática de desenvolver e usar algoritmos para proteger e obscurer informações. Normalmente envolver transformar textos legíveis em textos cifrados, ou que estão em formato ilegível usando uma chave.

Nesse sentido, como estaremos lidando com uma "Shift Cipher" que é uma criptografia simétrica, ou seja o remetente e destinatário possuem a mesma chave para criptografar e descriptografar, devemos ter os seguintes componentes:
- Geração da chave privada - Gen -> K
- Encriptação da mensagem M - EncK(M)
- Decriptação da mensagem cifrada C - M = DecK(C)

## Implementação:

### Cifra por Deslocamento

Sabendo que as "Shift Cipher" tratam letras como inteiros, iniciaremos a implementação declarando um dicionário que mapeia o inteiro à letra correspondente no alfabeto:

In [None]:
letters = {
   0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e',
    5: 'f', 6: 'g', 7: 'h', 8: 'i', 9: 'j',
    10: 'k', 11: 'l', 12: 'm', 13: 'n', 14: 'o',
    15: 'p', 16: 'q', 17: 'r', 18: 's', 19: 't',
    20: 'u', 21: 'v', 22: 'w', 23: 'x', 24: 'y',
    25: 'z'
}

Em seguida, faz-se necessário realizar a função de Encriptação que deve transformar uma mensagem legível "M" em um texto cifrado "C" através de uma chave privada.

In [None]:
def enc(m, k):
 m = m.lower()
 print(f'Message being encrypted: {m}')
 c = ''
 for char in m:
  if char in letters.values():
   for num, letter in letters.items():
    if char == letter:
     c += letters[(num + k) % len(letters)]
  else:
   c += char
 print(f'Message encrypted: {c}\n')
 return c

Portanto, o código acima inicia deixando todos os caractéres minúsculos para não haver diferenciação no tratamento. Começaremos verificando cada caractér da mensagem a ser criptografada. Caso não esteja no dicionário das letras do alfabeto português, nós podemos mantê-la como está. Caso contrário, é necessário realizar o deslocamento com base na chave recebida na função. Tal deslocamento é feito através do resto da divisão pela quantidade de caractéres presente no alfabeto. Nesse sentido, caso a chave supere a quantidade de letras no alfabeto, será possível obter um inteiro que esteja nas chaves do dicionário. Por fim, para validar o funcionamento da função, foi verificado para dois cenários, a Cifra de César e outro valor para K, como implementado abaixo:

In [None]:
caesar_test_one = 'abcdefghijklmnopqrstuvwxyz'
caesar_test_two = 'cifradecesar'

# First paragraph of the Harry Potter book

shift_cipher_test_one = 'O Sr. e a Sra. Dursley, da Rua dos Alfeneiros, nº. 4, se orgulhavam de dizer que eram perfeitamente normais, muito bem, obrigado. Eram as últimas pessoas no mundo que se esperaria que se metessem em alguma coisa estranha ou misteriosa, porque simplesmente não compactuavam com esse tipo debobagem.'

# Encode test for Caesar in which K = 3

caesar_test_one_enc = enc(caesar_test_one, 3)
caesar_test_two_enc = enc(caesar_test_two, 3)

# Another test with a longer text and a different K = 8 for example

shift_cipher_test_one_enc = enc(shift_cipher_test_one, 8)

Assim, observa-se que a função está tendo o comportamento esperado. Ademais, caractéres que não estão previstos nas letras estão sendo tratados não realizando o deslocamento, os deixando iguais.

Agora, faz necessário fazer o processo contrário. Ou seja, a decriptação onde a partir de uma mensagem ilegível obtemos a mensagem legível usando a chave privada.

In [None]:
def dec(c, k):
 c = c.lower()
 print(f'Cipher being decrypted: {c}')
 m = ''
 for char in c:
  if char in letters.values():
   for num, letter in letters.items():
    if char == letter:
     m += letters[(num - k) % len(letters)]
  else:
   m += char
 print(f'Cipher decrypted: {m}\n')
 return m

No código acima, foi usado a subtração pela chave para assim retornar à letra da mensagem. O uso do resto da divisão é análogo na função "enc" em função da quantidade de letras no dicionário. Para verificar o funcionamento desta função, veremos se ao usar o resultado da função de "enc" como cifra na função de "dec" se obteremos a mesma mensagem. Novamente, faremos os testes desta função com os resultados obtidos pela função de encrypt. Com isso, observa-se que os resultados retornam o texto criptografado para a mensagem legível.

In [None]:
# Decrypt test for Caesar tests in which K = 3
dec(caesar_test_one_enc, 3)
dec(caesar_test_two_enc, 3)

# Another test with a longer text and a different K = 8 for example
dec(shift_cipher_test_one_enc, 8)

### Ataque por Força Bruta

Os ataques de segurança buscam achar informações sobre a mensagem legível e/ou a chave. Sob essa ótica, o ataque por Força Bruta consiste em testar todas chaves possíveis até obter tradução inteligível para o texto claro. Suponhamos que o "hacker" saiba que a mensagem foi originada no Brasil, portanto terá os mesmos caractéres do alfabeto da variável já definida acima.

In [None]:
def brute_force_attack(c):
 c = c.lower()
 print("Testing all possible keys:")
 possible_messages = []
 for k in range(len(letters)):
  attempted_message = dec(c, k)
  possible_messages.append(attempted_message)
 return possible_messages

No código acima, é usado como parâmetro o texto cifrado que é o que vamos tentar traduzir de volta para uma mensagem legível através do teste de todas as possibilidades. Nesse sentido, as possíveis chaves são a quantidade de letras possíveis. Assim, devemos testar todas estas chaves até conseguirmos compreender o que está escrito. Quando isso ocorrer, significa que encontramos a mensagem. Vamos testar o ataque através de mensagem encriptada abaixo:

In [None]:
brute_force_attack(shift_cipher_test_one_enc)

### Ataque por Distribuição de Frequência

Este ataque conta a frequência das letras cifradas e compara com a típica usada no português. Em seguida, usam esta frequência para ajustar o deslocamento até que a frequência do texto cifrado se alinhe com a frequência esperada. Assim, será possível descobrir a mensagem e traduzir o texto criptografado para algo legível. Para isso, iremos usar a distribuição de frequência apresentada nas intruções: https://www.dcc.fc.up.pt/~rvr/naulas/tabelasPT/

In [None]:
port_char_frequency = {
 'a': 13.9, 'b': 1, 'c': 4.4, 'd': 5.4, 'e': 12.2,
 'f': 1, 'g': 1.2, 'h': 0.8, 'i': 6.9, 'j': 0.4,
 'k': 0.1, 'l': 2.8, 'm': 4.2, 'n': 5.3, 'o': 10.8,
 'p': 2.9, 'q': 0.9, 'r': 6.9, 's': 7.9, 't': 4.9,
 'u': 4.0, 'v': 1.3, 'w': 0.0, 'x': 0.3, 'y': 0.0,
 'z': 0.4
}

Vamos iniciar fazendo uma função que realiza a distribuição de frequência para o texto cifrado deixando para cada caracter o seu percentual de aparecimento no texto cifrado. Ou seja, este dicionário terá a mesma estrutura do definido anteriormente

In [None]:
def text_frequency(t):
 t = t.lower()
 cipher_char_frequency = {}

 for char in letters.values():
  cipher_char_frequency[char] = 0

 # Count occurences of chars
 for char in t:
  if char in letters.values():
   cipher_char_frequency[char] += 1

 # Converts to percentage
 total_chars = sum(cipher_char_frequency.values())
 for char in cipher_char_frequency:
  cipher_char_frequency[char] = (cipher_char_frequency[char] / total_chars) * 100

 return cipher_char_frequency

Assim, agora temos dois dicionários com as frequências dos caractéres. Dessa forma, poderemos usar a diferença entre as duas frequências para descobrir o deslocamento. Iniciaremos esta lógica definindo uma nova função a qual irá medir esta diferença entre as duas frequências, a do texto cifrado e da língua portuguesa.

In [None]:
def frequency_score(frequency_one, frequency_two):
 return sum((frequency_one.get(char, 0) - frequency_two.get(char, 0)) ** 2 for char in frequency_one)

Agora, poderemos implementar a quebra por distribuição de frequência, pois poderemos medir qual das chaves mais se aproxima da distribuição de frequência do alfabeto português. Ao invés de passarmos por todas as chaves, poderíamos usar apenas o caracter mais presente ou um conjunto deles. Entretanto, poderia haver mais erros a depender da mensagem a ser descoberta.

In [None]:
def frequency_distribution_attack(c):
 smaller_frequency_score = float('inf')
 c = c.lower()
 for k in range(len(letters)):
  attempted_message = dec(c, k)
  frequency_attempted_message = text_frequency(attempted_message)
  frequency_score_attempted_message = frequency_score(frequency_attempted_message, port_char_frequency)
  if frequency_score_attempted_message < smaller_frequency_score:
   best_key = k
   smaller_frequency_score = frequency_score_attempted_message
 return dec(c, best_key)

In [None]:
frequency_distribution_attack(shift_cipher_test_one_enc)

Por fim, a seguinte função foi estabelecida para medir os tempos de execução das funções utilizadas:

In [None]:
def execution_times():

 import time
 function_execution_times = {}

 # Execution time for Enc:
 times = []
 for i in range(10):
  start = time.time()
  enc(shift_cipher_test_one, 3)
  end = time.time()
  times.append(end - start)
 mean = sum(times) / 10
 function_execution_times["Enc"] = mean

 # Execution time for Dec:
 times = []
 for i in range(10):
  start = time.time()
  dec(shift_cipher_test_one_enc, 3)
  end = time.time()
  times.append(end - start)
 mean = sum(times) / 10
 function_execution_times["Dec"] = mean

 # Execution time for Brute Force Attack:
 times = []
 for i in range(10):
  start = time.time()
  brute_force_attack(shift_cipher_test_one_enc)
  end = time.time()
  times.append(end - start)
 mean = sum(times) / 10
 function_execution_times["Brute Force"] = mean

 # Execution time for Distribution Frequency Attack:
 times = []
 for i in range(10):
  start = time.time()
  frequency_distribution_attack(shift_cipher_test_one_enc)
  end = time.time()
  times.append(end - start)
 mean = sum(times) / 10
 function_execution_times["Distribution Frequency"] = mean

 return function_execution_times

execution_times()