Question 1: Comment chiffrer les données sensibles telles que les conditions médicales et les médicaments dans le dataset en utilisant AES (Advanced Encryption Standard) avec une clé de 256 bits ?

In [17]:
%config InlineBackend.iopub_data_rate_limit = 1000000000

In [7]:
import pandas as pd
from cryptography.fernet import Fernet

# Charger le dataset 
data = pd.read_csv("medical_records.csv")

# Générer une clé AES
key = Fernet.generate_key()
cipher_suite = Fernet(key)

# Chiffrer les données sensibles
data_to_encrypt = " ".join([row["medical_conditions"] + row["medications"] for index, row in data.iterrows()])
encrypted_data = cipher_suite.encrypt(data_to_encrypt.encode())

# Enregistrer les données chiffrées dans un fichier CSV
with open("encrypted_medical_records_Steve.csv", "wb") as f:
    f.write(encrypted_data)


Question 2: Comment hasher les noms des patients pour garantir l'intégrité des données?

In [12]:
import pandas as pd
import hashlib

# Charger le dataset 
data = pd.read_csv("medical_records.csv")

# Hasher les noms des patients
hashed_names = [hashlib.sha256(row["name"].encode()).hexdigest() for index, row in data.iterrows()]

# Enregistrer le résultat du hashage dans une nouvelle colonne du DataFrame
data["hashed_name"] = hashed_names

# Enregistrer les données dans un fichier CSV
data.to_csv("hashed_medical_records.csv", index=False)

# Afficher les 5 premières lignes du fichier
print(data.head())

   patient_id              name date_of_birth gender  \
0           1        Scott Webb    1967-04-28      F   
1           2  Rachel Frederick    1977-04-04      M   
2           3        Eric Kline    1926-05-18      F   
3           4   James Rodriguez    1954-07-20      M   
4           5       David Scott    2015-12-07      M   

                  medical_conditions                  medications  \
0               Mrs, story, security        example, parent, city   
1  performance, participant, surface             be, develop, guy   
2        quite, about, international  station, situation, popular   
3               him, sea, television           about, item, often   
4             make, moment, physical     deep, letter, difference   

                        allergies last_appointment_date  \
0              each, product, two            2022-07-26   
1  north, hospital, international            2023-02-14   
2                 tree, other, at            2021-04-24   
3         di

Question 3: Comment masquer les dates de naissance des patients en utilisant une technique d'obfuscation?

In [16]:
import pandas as pd

# Charger le dataset 
data = pd.read_csv("medical_records.csv")

# Obfuscation des dates de naissance
obfuscated_dates = [dob[:4] + "XXXX" for dob in data["date_of_birth"]]

# Ajouter les dates obfusquées comme une nouvelle colonne dans le DataFrame
data["obfuscated_date_of_birth"] = obfuscated_dates

# Enregistrer les données dans un fichier CSV
data.to_csv("obfuscated_medical_records.csv", index=False)

# Afficher les 5 premières lignes du fichier CSV
print(data.head())


   patient_id              name date_of_birth gender  \
0           1        Scott Webb    1967-04-28      F   
1           2  Rachel Frederick    1977-04-04      M   
2           3        Eric Kline    1926-05-18      F   
3           4   James Rodriguez    1954-07-20      M   
4           5       David Scott    2015-12-07      M   

                  medical_conditions                  medications  \
0               Mrs, story, security        example, parent, city   
1  performance, participant, surface             be, develop, guy   
2        quite, about, international  station, situation, popular   
3               him, sea, television           about, item, often   
4             make, moment, physical     deep, letter, difference   

                        allergies last_appointment_date  \
0              each, product, two            2022-07-26   
1  north, hospital, international            2023-02-14   
2                 tree, other, at            2021-04-24   
3         di

Question 4: Comment vérifier l'intégrité des données en utilisant un code HMAC?

In [20]:
import pandas as pd
import hmac
import hashlib

# Charger le dataset 
data = pd.read_csv("medical_records.csv")

# Générer une clé HMAC
key = b'secret_key'

# Calculer le HMAC pour chaque ligne de données
hmacs = [hmac.new(key, row["medical_conditions"].encode() + row["medications"].encode(), hashlib.sha256).hexdigest() for index, row in data.iterrows()]

# Ajouter les HMACs comme une nouvelle colonne dans le DataFrame
data["hmac"] = hmacs

# Enregistrer les données dans un fichier CSV
data.to_csv("medical_records_with_hmac.csv", index=False)


Question 5: Comment utiliser une technique de pseudonymisation pour anonymiser les noms des patients en remplaçant chaque nom par un identifiant unique?

In [24]:
import pandas as pd
import hashlib

# Charger le dataset 
data = pd.read_csv("medical_records.csv")

# Générer un identifiant unique pour chaque patient en utilisant le hash de leur nom
data['patient_id'] = [hashlib.sha256(str(name).encode()).hexdigest() for name in data['name']]

# Supprimer les noms des patients originaux
data.drop(columns=['name'], inplace=True)

# Stocker les paramètres
params = {
    "pseudonymization_technique": "SHA-256 Hash",
    "dataset_path": "medical_records.csv",
    "output_path": "medical_records_pseudonymized.csv"
}

# Enregistrer les données pseudonymisées dans un nouveau fichier CSV
data.to_csv(params['output_path'], index=False)

# Afficher les 5 premières lignes des données pseudonymisées
print(data.head())

# Ajouter les paramètres dans le dictionnaire
params["first_5_rows"] = data.head().to_dict(orient="records")

# Afficher les paramètres
print(params)


                                          patient_id date_of_birth gender  \
0  be40abea3b19bd7a3daefa4d09962014a9bf37ba96b56a...    1967-04-28      F   
1  74ffb932dd9d20a62a35dfc1fb68a653d2009cdb9af561...    1977-04-04      M   
2  9fbeca4bc0eb8dee0d62c3077ba7436536722779af57a5...    1926-05-18      F   
3  51366f12b9771e00269ff2e4c54973db240f475cef89ad...    1954-07-20      M   
4  2d32ffdf3857fa92fae405e6692c49217445c652fcd283...    2015-12-07      M   

                  medical_conditions                  medications  \
0               Mrs, story, security        example, parent, city   
1  performance, participant, surface             be, develop, guy   
2        quite, about, international  station, situation, popular   
3               him, sea, television           about, item, often   
4             make, moment, physical     deep, letter, difference   

                        allergies last_appointment_date  
0              each, product, two            2022-07-26  
1  nor