**Anonymiser la base de données en gardant la colonne "*visitIp*" et en supprimant la colonne "*userId*"**

- Anonymiser avec la fonction "*SHA-256*" la colonne "*visitIp*"

- Anonymiser les adresses e-mail dans toute la base de données, surtout les colonnes "*url (actionDetails 0)*" et "*subtitle (actionDetails 0)*"

- Supprimer la colonne "*idSite*"

- Supprimer la colonne "*userId*" (adresse e-mail)
  
Toutes les lignes de la colonne "*visitIp*" qui sont identiques ont le même "*userId*" (adresse e-mail), on supprime donc la colonne "*userId*". 

In [15]:
import pandas as pd
import re 
import hashlib

In [2]:
# Chemin fichier
file_path = "~/Desktop/Anonymiser/visitorIp/BDDE.csv" # Changer si besoin

# Importation du fichier
df = pd.read_csv(file_path, sep="\t", encoding="utf-16")
# df = pd.read_csv(file_path, sep=",", encoding="utf-16") # Pour M. Prosper

# Premières lignes
df.head()

Unnamed: 0,idSite,idVisit,visitIp,visitorId,fingerprint,type (actionDetails 0),url (actionDetails 0),pageTitle (actionDetails 0),pageIdAction (actionDetails 0),idpageview (actionDetails 0),...,pageviewPosition (actionDetails 24),title (actionDetails 24),subtitle (actionDetails 24),icon (actionDetails 24),iconSVG (actionDetails 24),timestamp (actionDetails 24),pageLoadTime (actionDetails 5),pageLoadTimeMilliseconds (actionDetails 5),pageLoadTime (actionDetails 6),pageLoadTimeMilliseconds (actionDetails 6)
0,1,8405,90.112.0.0,ef260fdb630a685b,7e7c543e39ff572d,action,https://educapacites.fr/447-2/,Concentration | Éducapacités,6,z8fZot,...,,,,,,,,,,
1,1,8404,90.112.0.0,ef260fdb630a685b,7e7c543e39ff572d,action,https://educapacites.fr/447-2/,Concentration | Éducapacités,6,hZ5DBU,...,,,,,,,,,,
2,1,8403,90.112.0.0,ef260fdb630a685b,4aba1bbe75568d3a,action,https://educapacites.fr/447-2/,Concentration | Éducapacités,6,AuASbw,...,,,,,,,,,,
3,1,8402,88.127.0.0,2e0560546ac34954,0f11b51259781cf0,action,https://educapacites.fr/qui-sommes-nous/,Qui sommes nous | Éducapacités,139,z48PTn,...,,,,,,,,,,
4,1,8401,80.215.0.0,11c71e1778d811a3,f3e46e3c86249a17,action,https://educapacites.fr/ecrans/,Ecrans | Éducapacités,12,M5O1Kb,...,,,,,,,,,,


In [5]:
# Anonymiser avec SHA-256
def anonymise_data(data):
    if pd.notnull(data):  # Si la donnée n'est pas "NaN"
        return hashlib.sha256(data.encode('utf-8')).hexdigest()
    return None

In [7]:
# Anonymisation de la colonne "visitIp"
df['visitIp'] = df['visitIp'].apply(anonymise_data)

In [9]:
# Suppression des colonnes "idSite" et "userId"
df = df.drop(columns=['idSite', 'userId'], errors='ignore')

In [11]:
# Anonymiser les e-mails 
def anonymise_data(text):
    return hashlib.sha256(text.encode('utf-8')).hexdigest()

In [17]:
# Anonymiser les e-mails dans un texte
def anonymise_emails(text):
    if isinstance(text, str):  # Si le texte est une chaîne
        email_pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
        return re.sub(email_pattern, lambda match: anonymise_data(match.group()), text)
    return text  # Inchangé si ce n'est pas une chaîne

# Anonymiser seulement les colonnes contenant des cdc
for column in df.columns:
    # Vérifier si la colonne contient des cdc
    if df[column].dtype == 'object':
        # Appliquer l'anonymisation
        df[column] = df[column].apply(anonymise_emails)

In [19]:
# Sauvegarder le fichier anonymisé
output_path = "~/Desktop/Anonymiser/visitorIp/BDDEA_visitorIp.csv"
df.to_csv(output_path, sep="\t", encoding="utf-16", index=False)

In [21]:
# Chemin fichier
file_path = "~/Desktop/Anonymiser/visitorIp/BDDEA_visitorIp.csv"

# Importation du fichier
df = pd.read_csv(file_path, sep="\t", encoding="utf-16")

# Premières lignes
df.head()

Unnamed: 0,idVisit,visitIp,visitorId,fingerprint,type (actionDetails 0),url (actionDetails 0),pageTitle (actionDetails 0),pageIdAction (actionDetails 0),idpageview (actionDetails 0),serverTimePretty (actionDetails 0),...,pageviewPosition (actionDetails 24),title (actionDetails 24),subtitle (actionDetails 24),icon (actionDetails 24),iconSVG (actionDetails 24),timestamp (actionDetails 24),pageLoadTime (actionDetails 5),pageLoadTimeMilliseconds (actionDetails 5),pageLoadTime (actionDetails 6),pageLoadTimeMilliseconds (actionDetails 6)
0,8405,742a2df07f73ea60606e3bec8ef8b84a11877297487397...,ef260fdb630a685b,7e7c543e39ff572d,action,https://educapacites.fr/447-2/,Concentration | Éducapacités,6,z8fZot,11 janv. 2025 16:05:50,...,,,,,,,,,,
1,8404,742a2df07f73ea60606e3bec8ef8b84a11877297487397...,ef260fdb630a685b,7e7c543e39ff572d,action,https://educapacites.fr/447-2/,Concentration | Éducapacités,6,hZ5DBU,11 janv. 2025 09:18:06,...,,,,,,,,,,
2,8403,742a2df07f73ea60606e3bec8ef8b84a11877297487397...,ef260fdb630a685b,4aba1bbe75568d3a,action,https://educapacites.fr/447-2/,Concentration | Éducapacités,6,AuASbw,10 janv. 2025 21:05:36,...,,,,,,,,,,
3,8402,8e238e156dc3ec039b27cce66f731190d080404700f867...,2e0560546ac34954,0f11b51259781cf0,action,https://educapacites.fr/qui-sommes-nous/,Qui sommes nous | Éducapacités,139,z48PTn,10 janv. 2025 18:00:57,...,,,,,,,,,,
4,8401,d45bd0b484b778e60154ba2f28cd3d71e672353a59e7cb...,11c71e1778d811a3,f3e46e3c86249a17,action,https://educapacites.fr/ecrans/,Ecrans | Éducapacités,12,M5O1Kb,10 janv. 2025 17:43:09,...,,,,,,,,,,
