# Hashing com Python

Hashing é um mecanismo de segurança bastante utilizado para garantir a integridade em sistemas. Nesse roteiro você aprenderá a aplicar funções hash em Python.
<br>
<br>
Existem duas bibliotecas amplamente usadas para isso, a [Hashlib](https://docs.python.org/3/library/hashlib.html) e (novamente) a [Cryptography](https://cryptography.io/en/latest/hazmat/primitives/cryptographic-hashes/). Hashlib é uma biblioteca nativa, então não é preciso usar nenhum `pip install ...`, já na cryptography importamos usando:

In [None]:
!pip install cryptography

 Também seguiremos as recomendações de algoritmos do NIST para hashing: `SHA-256`.

## Criando objeto "sumarizador"

Para digerir algum tipo de dado usando `hashlib`, precisamos antes criar um objeto que receberá os dados para processa-los. Podemos fazer isso de duas formas:

In [None]:
import hashlib

message_digestor_1 = hashlib.new('sha256')
message_digestor_2 = hashlib.sha256()

Utilizando `cryptography` só existe uma forma, mas a lógica não muda muito ...

In [None]:
from cryptography.hazmat.primitives import hashes

message_digestor_3 = hashes.Hash(hashes.SHA256())

## Adicionando dados no sumarizador

Para podermos aplicar uma função hash sobre um dado, primeiro precisamos inseri-lo no objeto que acabamos de criar.
<br>
<br>
Em ambas as libs utilizamos o método `.update(data: bytes)` para fazer isso, nela, o digestor concatenará o que já tem dentro dele com o que foi adicionado:

In [None]:
mensagem_1 = 'sistemas '.encode()
mensagem_2 = 'distribuidos'.encode()

message_digestor_1.update(mensagem_1)
message_digestor_1.update(mensagem_2)

# é a mesma coisa que
message_digestor_2.update(mensagem_1 + mensagem_2)

# em cryptography
message_digestor_3. update(mensagem_1 + mensagem_2)

## Processando/digerindo dados inseridos

Para gerar o hash, hashlib disponibiliza dois métodos, o `.digest() -> bytes` e o `.hexdigest() -> str`. Você pode continuamente processar um hash e depois continuar a adicionar dados ao buffer.

In [None]:
message_digested = message_digestor_1.digest()
message_hexdigested = message_digestor_1.hexdigest()

print(f'hash em bytes: {message_digested}')
print(f'hash em hexadecimal: {message_hexdigested}')

Em cryptography, ao invés de usarmos o `.digest()` usamos o `.finalize()`. Outra diferença é que após utilizar o finalize, você não poderá utilizar o objeto, ele retornará uma excessão do tipo `AlreadyFinalized`.

In [None]:
c_message_digested = message_digestor_3.finalize()
print(c_message_digested)

Mostrando que o hash é igual para entradas iguais em algoritmos iguais.

In [None]:
print(message_digestor_1.digest())
print(message_digestor_2.digest())
print(c_message_digested)

print(message_digestor_1.digest() == message_digestor_2.digest() and \
      message_digestor_2.digest() == c_message_digested)

## Como utilizar os comandos na prática

In [None]:
# essa parte é apenas para criar um arquivo sem ter que lidar com o google drive

with open('file.txt', 'w') as file:
  file.write("Esse arquivo é para mostrar um exemplo na cadeira de sistemas distribuídos.")

# aqui começa o exemplo

final_digestor = hashlib.sha256()

with open('file.txt', 'rb') as file:
  chunk = file.read(5) # para ler de 5 em 5 bytes

  while chunk:
    final_digestor.update(chunk)
    chunk = file.read(5)

hash = final_digestor.hexdigest()

print(hash)

# Atividade

Crie um script que calcula o hash de um arquivo, calcule o hash de um arquivo que teve seu caminho passado como parâmetro e mande o código, o arquivo e o hash do arquivo [nesse form]().