# Anonymisation des données

# Code par Jonathan Torres

In [None]:
pip install pandas

## Script d'Anonymisation des Données avec Chiffrement et Randomisation

#### Premier code

In [33]:
import csv
import os
import random
from datetime import datetime, timedelta
from cryptography.fernet import Fernet

def generate_key():
    """Génère une clé pour le chiffrement."""
    return Fernet.generate_key()

def encrypt_id(user_id, key):
    """Chiffre l'ID de l'utilisateur en utilisant la clé fournie."""
    fernet = Fernet(key)
    user_id_bytes = str(user_id).encode()  # Convertir l'ID en octets
    encrypted_id = fernet.encrypt(user_id_bytes)  # Chiffrer l'ID
    return encrypted_id.decode()  # Retourner sous forme de chaîne

def anonymize_data_with_consistency(input_file, output_file):
    key = generate_key()  # Générer une clé pour le chiffrement
    fernet = Fernet(key)  # Initialiser l'objet Fernet

    def randomize_datetime(date_str):
        """Randomise la date et l'heure dans une plage variable, puis ajoute 2 heures et une valeur aléatoire entre 1 et 5 heures."""
        date_obj = datetime.strptime(date_str, '%Y-%m-%d %H:%M:%S')
        random_hours = random.randint(1, 5)  # Plage variable de 1 à 5 heures
        randomized_date = date_obj + timedelta(hours=2 + random_hours)  # Ajouter 2 heures + heures aléatoires
        return randomized_date.strftime('%Y-%m-%d %H:%M:%S')

    def modify_coordinates(coord, base_addition=1.5, variance=0.5):
        """Ajoute une valeur de base et une valeur aléatoire à la coordonnée, puis ajoute des zéros à la fin."""
        additional_value = random.uniform(0, variance)  # Valeur aléatoire entre 0 et 0.5
        digit_addition = random.randint(10, 99)  # Nombre aléatoire entre 10 et 99
        modified_coord = float(coord) + base_addition + additional_value + digit_addition
        return f"{modified_coord:.8f}0000000"  # Ajouter sept zéros à la fin

    with open(input_file, 'r') as infile:
        reader = csv.reader(infile, delimiter='\t')  # Lire le fichier CSV avec tabulation comme délimiteur
        data = list(reader)

    user_encrypted_ids = {}  # Dictionnaire pour associer les utilisateurs avec des IDs chiffrés
    anonymized_data = []

    # Première passe pour attribuer des IDs chiffrés
    for row in data:
        user_id = int(row[0])  # Identifier l'utilisateur original

        if user_id not in user_encrypted_ids:
            encrypted_id = encrypt_id(user_id, key)  # Chiffrer l'ID s'il n'existe pas
            user_encrypted_ids[user_id] = encrypted_id  # Stocker l'ID chiffré

    # Deuxième passe pour anonymiser les données
    for row in data:
        user_id = int(row[0])  # Identifier l'utilisateur original
        encrypted_id = user_encrypted_ids[user_id]  # Obtenir l'ID chiffré correspondant

        # Anonymiser les données
        randomized_date = randomize_datetime(row[1])  # Modifier la date et l'heure
        modified_latitude = modify_coordinates(row[2])  # Modifier la latitude
        modified_longitude = modify_coordinates(row[3])  # Modifier la longitude

        # Construire la ligne anonymisée
        anonymized_row = [encrypted_id, randomized_date, modified_latitude, modified_longitude]
        anonymized_data.append(anonymized_row)

    # Enregistrer les données anonymisées dans un nouveau fichier
    with open(output_file, 'w', newline='') as outfile:
        writer = csv.writer(outfile, delimiter='\t')
        writer.writerows(anonymized_data)

    # Enregistrer la clé pour le chiffrement
    with open('encryption_key.key', 'wb') as key_file:
        key_file.write(key)

# Fichiers d'entrée et de sortie
input_csv_file = 'input.csv'  # Chemin du fichier d'entrée
output_csv_file = 'anonymized_PLUS.csv'  # Chemin du fichier de sortie

# Exécuter la fonction
anonymize_data_with_consistency(input_csv_file, output_csv_file)

print(f"Le fichier anonymisé a été enregistré sous le nom {output_csv_file}.")


Le fichier anonymisé a été enregistré sous le nom anonymized_PLUS.csv.


#### Deuxième Code

In [41]:
import csv
import os
import random
from datetime import datetime, timedelta
from cryptography.fernet import Fernet

def generate_key():
    """Génère une clé pour le chiffrement."""
    return Fernet.generate_key()

def encrypt(data, key):
    """Chiffre les données en utilisant la clé fournie."""
    fernet = Fernet(key)
    data_bytes = str(data).encode()  # Convertir la donnée en octets
    encrypted_data = fernet.encrypt(data_bytes)  # Chiffrer la donnée
    return encrypted_data.decode()  # Retourner sous forme de chaîne

def randomize_value(value, perturbation_range):
    """Perturbe une valeur aléatoirement dans une plage donnée."""
    perturbation = random.uniform(-perturbation_range, perturbation_range)
    return float(value) + perturbation

def randomize_datetime(date_str):
    """Randomise la date et l'heure dans une plage variable."""
    date_obj = datetime.strptime(date_str, '%Y-%m-%d %H:%M:%S')
    random_hours = random.randint(1, 5)  # Plage variable de 1 à 5 heures
    randomized_date = date_obj + timedelta(hours=2 + random_hours)  # Ajouter 2 heures + heures aléatoires
    return randomized_date.strftime('%Y-%m-%d %H:%M:%S')

def modify_coordinates(coord, base_addition=1.5, variance=0.5):
    """Ajoute une valeur de base et une valeur aléatoire à la coordonnée, puis ajoute des zéros à la fin."""
    additional_value = random.uniform(0, variance)  # Valeur aléatoire entre 0 et 0.5
    digit_addition = random.randint(10, 99)  # Nombre aléatoire entre 10 et 99
    modified_coord = float(coord) + base_addition + additional_value + digit_addition
    return f"{modified_coord:.8f}0000000"  # Ajouter sept zéros à la fin

def anonymize_data_with_consistency(input_file, output_file):
    key = generate_key()  # Générer une clé pour le chiffrement
    fernet = Fernet(key)  # Initialiser l'objet Fernet

    with open(input_file, 'r') as infile:
        reader = csv.reader(infile, delimiter='\t')  # Lire le CSV avec tabulation comme délimiteur
        data = list(reader)

    user_encrypted_ids = {}  # Dictionnaire pour associer les utilisateurs avec des IDs chiffrés
    anonymized_data = []

    # Première passe pour assigner des IDs chiffrés
    for row in data:
        user_id = int(row[0])  # Identifier l'utilisateur original
        if user_id not in user_encrypted_ids:
            encrypted_id = encrypt(user_id, key)  # Chiffrer l'ID s'il n'existe pas
            user_encrypted_ids[user_id] = encrypted_id  # Stocker l'ID chiffré

    # Deuxième passe pour anonymiser les données
    for row in data:
        user_id = int(row[0])  # Identifier l'utilisateur original
        encrypted_id = user_encrypted_ids[user_id]  # Obtenir l'ID chiffré correspondant

        # Anonymiser les données
        randomized_date = randomize_datetime(row[1])  # Modifier la date et l'heure
        modified_latitude = modify_coordinates(row[2])  # Changer la latitude
        modified_longitude = modify_coordinates(row[3])  # Changer la longitude

        # Ici, vous pourriez ajouter plus de données à chiffrer ou randomiser
        # Par exemple, si vous aviez un email ou un téléphone dans la ligne :
        # encrypted_email = encrypt(row[4], key)  # Chiffrer l'email
        # encrypted_phone = encrypt(row[5], key)  # Chiffrer le téléphone

        # Construire la ligne anonymisée
        anonymized_row = [encrypted_id, randomized_date, modified_latitude, modified_longitude]  # Ajouter plus de champs chiffrés ici
        anonymized_data.append(anonymized_row)

    # Sauvegarder les données anonymisées dans un nouveau fichier
    with open(output_file, 'w', newline='') as outfile:
        writer = csv.writer(outfile, delimiter='\t')
        writer.writerows(anonymized_data)

    # Sauvegarder la clé pour le chiffrement
    with open('encryption_key.key', 'wb') as key_file:
        key_file.write(key)

# Fichiers d'entrée et de sortie
input_csv_file = 'input.csv'  # Chemin du fichier d'entrée
output_csv_file = 'anonymized_PLUSTwo.csv'  # Chemin du fichier de sortie

# Exécuter la fonction
anonymize_data_with_consistency(input_csv_file, output_csv_file)

print(f"Le fichier anonymisé a été sauvegardé sous {output_csv_file}.")


El archivo anonimizado se ha guardado como anonymized_PLUSTwo.csv.


### Comparison des différents modèles

### Différence  

| **Aspect**          | **Premier Code**                                       | **Deuxième Code**                                              |
|----------------------|-------------------------------------------------------|---------------------------------------------------------------|
| **Chiffrement**      | Spécifique aux IDs (`encrypt_id`).                     | Plus générique (`encrypt`) et réutilisable.                   |
| **Randomisation**    | Opérations spécifiques pour les coordonnées et dates. | Inclut une fonction générale (`randomize_value`).             |
| **Extensibilité**    | Plus limité (ne mentionne pas d'autres données).       | Préparé pour chiffrer d'autres données (emails, téléphones).  |
| **Modularité**       | Fonctions spécifiques.                                | Fonctions réutilisables et génériques.                        |
| **Usage Général**    | Axé sur l’anonymisation des IDs et des coordonnées.   | Plus flexible et adaptable pour d'autres données sensibles.   |

## Attaque par comparison de clefs

In [1]:
import pandas as pd
import json

def read_data(original_file, anonymized_file):
    # Lire les données originales
    original_data = pd.read_csv(original_file, sep="\t", header=None, names=["ID", "Date", "Latitude", "Longitude"])
    # Lire les données anonymisées
    anonymized_data = pd.read_csv(anonymized_file, sep="\t", header=None, names=["ID", "Date", "Latitude", "Longitude"])
    return original_data, anonymized_data

def calculate_sums(data):
    # Convertir la colonne de date en datetime et extraire l'année et le numéro de semaine
    data['Date'] = pd.to_datetime(data['Date'])
    data['Year'] = data['Date'].dt.year
    data['Week'] = data['Date'].dt.isocalendar().week
    
    # Grouper par ID, Année et Semaine, et sommer les coordonnées
    sums = data.groupby(['ID', 'Year', 'Week']).agg({'Latitude': 'sum', 'Longitude': 'sum'}).reset_index()
    return sums

def generate_json(original_sums, anonymized_sums):
    attack_data = {}
    
    # Parcourir chaque ID dans les données originales
    for _, original_row in original_sums.iterrows():
        original_id = original_row['ID']
        year_week_key = f"{original_row['Year']}-{original_row['Week']}"
        
        if original_id not in attack_data:
            attack_data[original_id] = {}
        
        if year_week_key not in attack_data[original_id]:
            attack_data[original_id][year_week_key] = []
        
        # Trouver les identifiants anonymisés qui correspondent à la même semaine
        anonymized_week_data = anonymized_sums[
            (anonymized_sums['Year'] == original_row['Year']) &
            (anonymized_sums['Week'] == original_row['Week'])
        ]
        
        # Obtenir les IDs anonymisés pour la semaine actuelle
        anonymized_ids = anonymized_week_data['ID'].unique()
        
        # Ajouter les IDs aux données d'attaque
        attack_data[original_id][year_week_key].extend(anonymized_ids.tolist())
    
    return attack_data

def main(original_file, anonymized_file, output_json_file):
    original_data, anonymized_data = read_data(original_file, anonymized_file)
    
    # Calculer les sommes des coordonnées
    original_sums = calculate_sums(original_data)
    anonymized_sums = calculate_sums(anonymized_data)
    
    # Générer le JSON d'attaque
    attack_data = generate_json(original_sums, anonymized_sums)
    
    # Sauvegarder le JSON dans un fichier
    with open(output_json_file, 'w') as json_file:
        json.dump(attack_data, json_file, indent=4)


In [None]:
# Exécuter le script
if __name__ == "__main__":
    original_file = 'input.csv'      # Fichier original
    anonymized_file = 'anonymized_NewInputPlus.csv'  # Fichier anonymisés
    output_json_file = 'attack_PLUS.json'    # Fichier de sortie JSON
    
    main(original_file, anonymized_file, output_json_file)
