## Vault pour les secrets, sse-c pour le chiffrement sur S3

Ce tutorial très court vous permet de lire des fichiers chiffrés sur S3.
Nous verrons comment ce tutorial est conçu :
- enregistrement dans vault du secret (variables d'environnement de ce tutorial)
- configuration du driver spark

Chaque tutorial utilise un contexte d'environnement (variables d'environnement) hébergé dans un "secret" que chaque utilisateur peut lire puisque mis dans le dossier "diffusion". Il y a trois variables : deux qui définissent le projet à cloner et le nom du tutorial.
La troisième étant le secret d'accès au données des tweets de Trump.

![image.png](attachment:35989f10-9af9-4064-aa3c-175592224729.png)

Ce contexte d'environnement est transmis dans l'url du déploiement du tutorial.
Vous constatez que le secret vault à charger est relatif à **tm8enk/diffusion/spark-lab/2b-vault-s3-sseC**
et qu'un script d'init se charge de cloner le projet et de vous placer directement dans le bon notebook :
https://datalab.sspcloud.fr/launcher/ide/jupyter-pyspark?init.personalInit=https://raw.githubusercontent.com/InseeFrLab/spark-formation/main/init-notebook.sh&vault.secret=diffusion/spark-lab/2b-vault-s3-sseC&vault.directory=tm8enk&onyxia.friendlyName=«2b_vault-s3-sseC»

In [15]:
#attention un vrai secret ne devrait jamais être affiché comme je le fais en dessous. Les outputs d'un notebook sont dans le format et donc accessible sur un dépot git.
! echo TRUMP_KEY=$TRUMP_KEY

TRUMP_KEY=32byteslongsecretkeymustgenerate


#### Le fichier chiffré sur S3, un peu de ligne de commande avec mc

*trump_insult_tweets_2014_to_2021.csv.ssec* est un fichier chiffré que j'ai symboliquement suffixé par .ssec ce qui n'a rien d'obligatoire. J'ai fait ainsi pour illustrer ce qui est chiffré ou non.

On peut facilement lire (avec mc par exemple) un fichier non chiffré mais impossible d'accèder à une donnée chiffré sans redonner à S3 la clé de chiffrement.

In [2]:
!mc ls s3/projet-spark-lab/diffusion/formation/data/trump-tweets/

]11;?\[6n[m[32m[2022-02-10 21:47:11 UTC][0m[33m 2.7MiB[0m [34mSTANDARD[0m[1m trump_insult_tweets_2014_to_2021.csv[22m[m
[m[32m[2022-10-07 15:44:04 UTC][0m[33m 2.7MiB[0m [34mSTANDARD[0m[1m trump_insult_tweets_2014_to_2021.csv.ssec[22m[m


In [3]:
!mc head -n 1 s3/projet-spark-lab/diffusion/formation/data/trump-tweets/trump_insult_tweets_2014_to_2021.csv

]11;?\[6n"","date","target","insult","tweet"


In [4]:
!mc head -n 1 s3/projet-spark-lab/diffusion/formation/data/trump-tweets/trump_insult_tweets_2014_to_2021.csv.ssec

]11;?\[6n[31;3;1mmc: <ERROR> [0m[31;3;1mUnable to read from `s3/projet-spark-lab/diffusion/formation/data/trump-tweets/trump_insult_tweets_2014_to_2021.csv.ssec`. The object was stored using a form of Server Side Encryption. The correct parameters must be provided to retrieve the object.[0;23;22m


In [5]:
!mc head -n 1  --encrypt-key "s3/projet-spark-lab=$TRUMP_KEY" s3/projet-spark-lab/diffusion/formation/data/trump-tweets/trump_insult_tweets_2014_to_2021.csv.ssec 

]11;?\[6n[31;3;1mmc: <ERROR> [0m[31;3;1ma deprecated Flag: '--encrypt-key' has been deprecated, please use --enc-c instead.[0;23;22m


#### Configuration Spark pour accèder à des fichiers chiffrés avec SSE-C 

In [6]:
from pyspark.sql import SparkSession
import os
import base64


spark = (SparkSession 
         .builder
         .appName("2b-vault-s3-sseC")
         .master("local[5]")
         .config("spark.hadoop.fs.s3a.server-side-encryption-algorithm", "SSE-C")
         .config("spark.hadoop.fs.s3a.server-side-encryption.key",
                 base64.b64encode(str.encode(os.environ['TRUMP_KEY'])).decode())
         .getOrCreate()
        )
sc = spark.sparkContext

KeyError: 'TRUMP_KEY'

In [7]:
text_file = sc.textFile("s3a://projet-spark-lab/diffusion/formation/data/trump-tweets/trump_insult_tweets_2014_to_2021.csv.ssec")
counts = (text_file
          .flatMap(lambda line: line.split(" "))
          .map(lambda word: (word, 1))
          .reduceByKey(lambda a, b: a + b)
          .sortBy(lambda a : - a[1])
         )

counts.take(20)

NameError: name 'sc' is not defined

### Conclusion

Ce tutorial succint vous a montré la possibilité d'externaliser les secrets, d'y accèder comme une variable d'environnement depuis le code.
Le but de ce secret était de déchiffrer les données sur minio et de les monter en mémoire de spark directement.

**Attention les actions de type collect qui ramene une aggrégation des données sur le driver, en l'occurence ici sous le format notebook qu'on commit ensuite sur git peut poser des problèmes de confidentialités.**

Un joli pipeline prend des données chiffrées et peut produire des aggrégats chiffrées sur S3 également.
Les principes de vérification des outputs et du secret statistique restent les mêmes.


In [8]:
spark.stop()