# Série 2 - Exercice 2

On va maintenant s'intéresser à une vraie fonction de hachage, le `sha-256`. Cette fonction a été testé, a été attaqué en vain, et est utilisé partout dans le monde. On va donc considérer que c'est une fonction de hachage cryptographique.

Néanmoins, même si on prend une chose quasi-parfaite, en l'utilisant d'une manière inadéquate, on peut quand même se tromper.

Pour cette exercice, on va supposer qu'on veut anonymiser une partie d'une base de données afin de pouvoir l'utiliser pour la recherche.

## 1. Connaissance

Si vous faites tourner le block pour la partie 1, vous verrez que le hachage `sha256` retourne une valeur beaucoup plus longue que notre fonction simple. En plus, la valeur retournée par le `sha256` a une longueure constante.

Une autre chose intéressante est l'utilisation de la fonction `sha256`. Ligne par ligne, la chose suivante se passe:

- `sha = sha256()` crée un objet qui permet d'utiliser le hachage
- `sha.update(phrase.encode())` fournit la phrase à notre nouvel objet. Une phrase en informatique peut être écrite de différente manière, alors ici on doit spécifier qu'on suppose la plus simple avec `encode()`. Un autre point intéressant est le fait que le `update` peut être appelé plusieurs fois. Mais on ne va pas le faire ici.
- `sha.hexdigest()` finalise le hachage et fournit le résultat final dans un joli texte [hexadécimal](https://fr.wikipedia.org/wiki/Syst%C3%A8me_hexad%C3%A9cimal)

Changez les phrases et prenez soin de bien vérifier qu'un tout petit changement de la phrase change complètement le résultat du hachage.

In [None]:
# Série 2 - Exercice 2 - Partie 1

from hashlib import sha256

def sha256_str(phrase: str) -> str:
  sha = sha256()
  sha.update(phrase.encode())
  return sha.hexdigest()

def print_sha256(phrase: str) -> str:
  print('sha256("{}") is: {}'.format(phrase, sha256_str(phrase)))

print_sha256("Jean Dupont")
print_sha256("3000 Bern")

## 2. Compréhension

Maintenant on va anonymiser le tableau suivant:

| Nom complet | Code postal | Salaire | # d'enfants |
| --- | --- | --- | --- |
| Tyson Beauchamps | 8353 | 100'000 | 2 |
| Faustin Rouleau | 8353 | 60'000 | 3 |
| Harbin Angélil | 9402 | 120'000 | 0 |
| Afrodille Paulet | 8353 | 110'000 | 1 |
| Yolande Tougas | 9402 | 80'000 | 0 |
| Germaine Lejeune |9402 | 100'000 | 1 |

### 2.1 Anonymisation des noms

Utilisez la fonction `print_sha256` pour imprimer les sha256 des noms des personnes:
- est-ce que vous voyez une régularité dans la sortie?
- pourquoi? ou pourquoi pas?
- est-ce que c'est une bonne manière d'anonymisation?
- dans quel cas est-ce que c'est util de faire ça?

### 2.2 Anonymisation des codes postaux

Disons qu'on veut anonymiser le tableau par rapport au code postal:
- remplacez les codes postaux par leur sha256
- dans quel cas est-ce que c'est utile de faire ça?
- est-ce que c'est anonyme?

### 2.3 Faire deux fonctions

Pour clôre, créez deux fonctions, une pour 2.1, et une pour 2.2. 
- Pour 2.1, elle prend en argument le tableau, et retourne un nouveau tableau avec les noms hachés.
- Pour 2.2, elle retourne le tableau avec les codes postaux hachés.

In [None]:
# Série 2 - Exercice 2 - Partie 2

tableau = [["Tyson Beauchamps" ,8353 , 100000, 2],
[ "Faustin Rouleau", 3961, 60000, 3 ],
[ "Harbin Angélil", 7414, 120000, 0 ],
[ "Afrodille Paulet", 1726, 110000, 1 ],
[ "Yolande Tougas", 9402, 80000, 0 ],
[ "Germaine Lejeune", 6684, 100000, 1 ]]

print_sha256(tableau[0][0])

## 3. Application

On va maintenant dé-anonymiser le tableau de la partie 2.2. Comment pouvez-vous procéder
pour récupérer les codes postaux?

Ecrivez une fonction qui prend un hash et qui retourne un code postal, et une deuxième fonction qui prend
le tableau anonymisé dans la partie 2.2, et qui retourne le tableau déanonymisé.

In [None]:
# Série 2 - Exercice 2 - Partie 3

def find_cp(hash: str):
  pass

def deanonymize(table):
  return table
