### 가명처리 모듈 파이썬 오픈소스 라이브러리 구현 프로젝트

**가명정보**

개인정보 일부를 삭제, 대체하는 등 가명처리함으로써 원래 상태로 복원하기 위한 추가정보의 사용, 결합 없이는 특정 개인을 알아볼 수 없는 정보

**가명정보 처리**

가명처리와 달리 가명정보 처리는 가명정보의 수집, 생성, 연계, 연동, 기록, 저장, 보유, 가공, 편집, 검색, 출력, 정정, 복구, 이용, 제공, 공개, 파기, 그밖에 이와 유사한 행위를 말한다. 

**신용정보의 이용에 관한 법률 제2조제15호 및 제16호에 의한 가명정보**

15. “가명처리”란 추가정보를 사용하지 아니하고는 특정 개인인 신용정보주체를 알아볼 수 없도록 개인신용정보를 처리(그 처리 결과가 다음 각 목의 어느 하나에 해당하는 경우로서 제40조의2제1항 및 제2항에 따라 그 추가정보를 분리하여 보관하는 등 특정 개인인 신용정보주체를 알아볼 수 없도록 개인신용정보를 처리한 경우를 포함한다)하는 것을 말한다.
    
가. 어떤 신용정보주체와 **다른 신용정보주체가 구별**되는 경우
    
나. 하나의 정보집합물(정보를 체계적으로 관리하거나 처리할 목적으로 일정한 규칙에 따라 구성되거나 배열된 둘 이상의 정보들을 말한다. 이하 같다)에서나 서로 다른 둘 이상의 정보집합물 간에서 어떤 신용정보주체에 관한 **둘 이상의 정보가 연계되거나 연동**되는 경우
    
다. 가목 및 나목과 유사한 경우로서 대통령령으로 정하는 경우
    
16. “가명정보”란 가명처리한 개인신용정보를 말한다.


In [1]:
import pymysql
from sqlalchemy import create_engine
import sys

from abc import ABC, abstractmethod
from typing import *
import re

from prettytable import PrettyTable
import pandas as pd
pd.options.display.float_format = '{:.30f}'.format
import pprint

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
engine = create_engine(
    "mysql://root:0123@localhost/FINANCIALCONSUMER", 
    convert_unicode = True)
conn = engine.connect()

  engine = create_engine(


In [3]:
DATA_FINANCE = pd.read_sql_table("DATA_FINANCE", conn)
DATA_RETAIL = pd.read_sql_table("DATA_RETAIL", conn)
# DATA_MOBILE_COMMUNICATION = pd.read_sql_table("DATA_MOBILE_COMMUNICATION", conn)
# DATA_JOIN_CARDPAYMENT = pd.read_sql_table("DATA_JOIN_CARDPAYMENT", conn)
# DATA_JOIN_ACCOMODATIONAPP = pd.read_sql_table("DATA_JOIN_ACCOMODATIONAPP", conn)

In [4]:
# ./pseudonymizer/

class Pseudonymizer(ABC):
    """가명처리 추상 클래스 및 추상 메서드 선언"""
    @abstractmethod
    def pseudonymizeData(self, value):
        """확장성을 갖춘 가명처리 클래스를 만들어 특정 가명처리 기법으로 구체화하기 위한 추상 메서드"""
        pass

In [5]:
# ./pseudonymizer/pseudonymizer/deidentificationTechnique/equivalent_class.py

class EquivalentClass:
    """개인식별가능정보 속성을 기준으로 데이터를 그룹화하는 부모 클래스
    
    준식별자를 이용한 그룹화 기법 의사코드
    --------------------------------------
    data grouping using quasi-identifier
    Input : PI(Personal Information)
    Output : Grouped PI

    grouped_PI = dict()
    for identifier, quasi in PI.items():
        key = quasi[0] + quasi[1] + quasi[2] + quasi[3]
        if key in grouping_PI:
            grouping_PI[key].append(identifier)
        else:
            grouping_PI[key] = []
            grouping_PI[key].append[identifier]

        return grouping_PI
    """
    def __init__(self, dataframe):
        self._dataframe = dataframe.copy()
        self.equivalent_class = {}

    def __str__(self):
        # __repr__
        """캡슐화된 데이터셋의 속성(컬럼)정보를 반환하는 메서드"""
        return self._dataframe.info()
    
    def categorizeEquivalentClass(self, attributes: List):
        """각 행(레코드)에 대한 개인식별가능정보 속성(컬럼)들 사이에 동질 집합을 확인하는 메서드"""
        groupby_data = self._dataframe.groupby(attributes)
        
        for group, data in groupby_data:
            if len(group) > 1:
                key = tuple(group)
                # 딕셔너리에서 키 값으로 리스트(동적 타입)는 사용할 수 없으므로 튜플로 변환
                self.equivalent_class[key] = data.index.tolist()
                # 동질 집합에 해당하는 행(레코드)의 인덱스 번호를 키 값으로 조회되도록 저장

    def removeDuplicatesInEquivalentClass(self):
        """각 동질집합 내 레코드 간 중복된 행을 제거하는 메서드"""
        for group_key, index_value in self.equivalent_class.items():
            unique_record = self._dataframe.loc[index_value, :].drop_duplicates()
            # set(self._dataframe.loc[index_value, :])
            self.equivalent_class[group_key] = unique_records.index.tolist()

In [6]:
# ./pseudonymizer/pseudonymizer/deidentificationTechnique/kAnonimity.py

# from pseudonymizer.pseudonymizer.deidentificationTechnique.equivalent_class import EquivalentClass
# from typing import *

class K_Anonymity(EquivalentClass):
    """개별 레코드가 최소한 K개 이상 동일한 속성값을 가지도록 하는 K-익명성 클래스
    
    데이터 그룹화가 적용된 k-익명성 알고리즘 의사코드
    -------------------------------------------------
    basic k-anonymity algorithm
    Input : grouped_PI, limited_k
    Output : k_data
    
    k_data = dict()
    for key, identifiers in grouped_PI.items():
        k_anonymity = len(identifiers)
        if k_anonymity >= limited_k:
            k_data[k] = identifiers
    return k_data
    """
    def __init__(self, dataframe):
        super().__init__(dataframe)
        self.K_data = None
        
    def applyKAnonymity(self, K: int, attributes: List) -> Dict:
        K_data = dict()
        # EquivalentClass 클래스의 categorizeEquivalentClass 메서드 호출
        super().categorizeEquivalentClass(attributes)

        for group_key, index_value in self.equivalent_class.items():
            K_anonymity = len(index_value)
            # index_value = identifiers
            if K_anonymity >= K:
                K_data[group_key] = index_value
            else:
                print(group_key, len(index_value))
        self.K_data = K_data

In [7]:
# ./pseudonymizer/pseudonymizer/deidentificationTechnique/lDiversity.py

# from pseudonymizer.pseudonymizer.deidentificationTechnique.equivalent_class import EquivalentClass
# from typing import *

class L_Diversity(K_Anonymity):
    """각 동질집합 내 특정 민감 속성의 빈도가 L값 이상의 다양성을 가지도록 하는 L-다양성 클래스
    k-익명성 보호 모델 적용 결과에 l-다양성 보호 모델을 적용
    
    k-익명성 처리가 그룹 단위로 구현된 상황에서 l-다양성 알고리즘 의사코드
    ----------------------------------------------------------------------
    basic l-diversity algorithm
    Input : k_data, limited_l
    Output : l_data
    
    l_data = dict()
    for key, identifiers in k_data.items():
        l_list = []
        for identifier in identifiers:
            # k익명성을 만족하는 데이터의 식별자값을 가지고 
            user_info = data[identifier]
            # 해당 식별자값의 민감정보를 가져오는 부분
            user_sa = user_info[4]
            if user_sa in l_list:
                pass
    """
    def __init__(self, dataframe):
        """모듈의 유연성을 제공하기 위해 K익명성 클래스를 확장하여 손자 클래스로 정의"""
        super().__init__(dataframe)
        self.L_data = None
        self.sensitive_attribute = None
        self.LocalL_data = None
        
    def applyLDiversity(self, K: int, L: int, attributes: List, sensitive_attribute: str):
        """두 모형을 동시에 적용할 경우 중복이 발생할 가능성이 높아 조합적인 보호 모델을 설계하여 중복을 최소화하는 메서드"""
        super().applyKAnonymity(K, attributes)
        L_data = dict()
        self.sensitive_attribute = sensitive_attribute
        
        for group_key, index_value in self.K_data.items():
            unique_sensitive_values = self._dataframe.loc[index_value, 
                                                          sensitive_attribute].unique()
            # self._dataframe.iloc[index_value, self._dataframe.columns.get_loc(column_name)]
            if len(unique_sensitive_values) >= L:
                L_data[group_key] = index_value
            else:
                print(group_key, len(unique_sensitive_values))
        self.L_data = L_data
    
    def applyLocalLDiversity(self, local_L: int):
        """특정 민감정보의 속성값이 일부 레코드(행)에 집중되는 문제에 따라
        전체적으로 안전한 다양성을 확보할 수 있도록 l-로컬 다양성을 적용하는 메서드"""
        LocalL_data = dict()
        
        for group_key, index_value in self.L_data.items():
            count_local_diversity = self._dataframe.loc[index_value, self.sensitive_attribute].value_counts()
            if count_local_diversity.min() >= local_L: 
                LocalL_data[group_key] = index_value
            else:
                for sensitive_attr, freq in count_local_diversity.items():
                    if freq == count_local_diversity.min():
                        print(group_key, sensitive_attr, freq)
                    else:
                        pass
        self.LocalL_data = LocalL_data

**전체 집단과 동질 집합의 경험분포 계산: 연속형 변수, 범주형 변수**

X 벡터의 empirical pdf(경험분포의 누적확률밀도함수) = P,
Y 벡터의 empirical pdf(경험분포의 누적확률밀도함수) = Q
$P = [p_1, p_2, \dots, p_m],\ Q = [q_1, q_2, \dots, q_m]$

**두 민감정보 확률분포의 차이: EMD(토지이동거리)**

민감정보 타입이 연속형이라면, 
$EMD(P, Q) = \frac{1}{m-1} \Sigma_{i}^{m-1} |\Sigma_{j=1}^{i}(q_j - p_j)|$

민감정보 타입이 범주형이라면, 
$E'(P, Q) = \frac{1}{2} \Sigma_{i}^{m} |p_i - q_i)|$

**범주형 변수의 경우:**

범주형 변수의 경우, 각 카테고리의 빈도를 기록하여 분포를 표현합니다.
이 경우, 각 카테고리 간의 이동 거리는 단순히 카테고리 간의 거리로 정의됩니다.
각 카테고리의 확률 분포를 계산한 후, EMD를 계산할 수 있습니다.

연속형 변수의 경우, 주어진 데이터를 히스토그램이나 누적 분포 함수로 변환하여 분포를 표현할 수 있습니다.
이 경우, 누적 분포 함수를 사용하여 누적 확률 분포를 계산한 후, EMD를 계산할 수 있습니다.
다음은 범주형 변수와 연속형 변수 각각에 대한 EMD를 계산하는 과정을 예시로 설명한 것입니다.

**범주형 변수의 EMD 계산:**
범주형 변수의 카테고리와 해당 카테고리의 빈도를 파악합니다.
각 카테고리의 빈도를 확률 분포로 변환합니다.
변환된 확률 분포를 사용하여 EMD를 계산합니다.

**연속형 변수의 EMD 계산:**
연속형 변수의 데이터를 히스토그램으로 변환하거나 누적 분포 함수로 변환합니다.
변환된 히스토그램 또는 누적 분포 함수를 사용하여 EMD를 계산합니다.
이러한 과정을 통해 각 변수 유형에 따라 적절한 방법으로 EMD를 계산할 수 있습니다. 변수의 유형을 고려하여 데이터를 준비하고 EMD를 계산하는 것이 중요합니다.

```
# SAMPLE CODE
    def t_closeness_check(self, sensitive_attribute: str, target_distribution: Dict[str, float], threshold: float) -> bool:
        # t-근접성
        sensitive_distribution = self._dataframe[sensitive_attribute].value_counts(normalize=True).to_dict()
        for value, target_prob in target_distribution.items():
            if value in sensitive_distribution:
                diff = abs(target_prob - sensitive_distribution[value])
                if diff > threshold:
                    return False
            else:
                return False
        return True
```

In [8]:
# np.set_printoptions(threshold = 10)
# np.set_printoptions(threshold = sys.maxsize)

In [9]:
# ./pseudonymizer/pseudonymizer/deidentificationTechnique/tCloseness.py

# from pseudonymizer.pseudonymizer.deidentificationTechnique.equivalent_class import EquivalentClass

# from typing import *
# from scipy.stats import wasserstein_distance

class T_Closeness_N(EquivalentClass):
    """민감 정보(SA)의 분포를 전체 데이터 셋의 분포와 유사하도록 하는 T-근접성 클래스
    
    l-다양성과 달리 민감정보를 원본 그대로 배열에 저장한 후 
    데이터를 내림차순 정렬하여 (확률분포의 차이)
    데이터의 분포도를 측정하는 t-근접성 알고리즘 의사코드
    -----------------------------------------------------
    basic Earth Mover's Distance algorithms
    Input : t_list
    Output : EMD
    """
    def __init__(self, dataframe):
        super().__init__(dataframe)
        self.T_data = None
        self.sensitive_attribute = None
        self.tolerance = None
        
    def checkSensitivesDistribution(self, dataseries):
        """개인식별가능정보(준식별자)의 모든 가능한 조합 n개의 관심 대상값
        (sensitive_attribute)의 분포와 전체 집단의 분포의 거리 최댓값이 <= t로 규정할 때
        분포를 계산하는 메서드"""
        sensitive_vector = dataseries
        cumulative_distribution = {}
        cumulative_probability = 0
        
        # 민감속성의 고유한 값과 그 값의 비율 {v: count/len(V)}
        if sensitive_vector.dtype in ["int64", "float"]:
            # 오름차순 정렬 후 중복값을 제거한 SA를 전체 데이터의 길이로 나눈 값을 확률로 하는 누적분포를 계산 
            ordered_vector = np.sort(sensitive_vector)            
            unique_value, counts = np.unique(ordered_vector, return_counts = True)
            ordered_scalar = np.array(unique_value)
            cumulative_distribution = np.cumsum(counts) / len(sensitive_vector)
    
        elif sensitive_vector.dtype in ["object", "category"]:
            # cumulative_distribution = {v: count/len(v) for (v, count) in Counter(sensitive_vector).items()}
            for value, count in Counter(sensitive_vector).items():
                probability = count / len(sensitive_vector)
                cumulative_probability += probability
                cumulative_distribution[value] = cumulative_probability
        
        else: 
            raise ValueError("입력받은 {}은 유효한 자료형이 아닙니다.".format(dataseries.dtype))
        
        return ordered_scalar, cumulative_distribution

    def earthMoversDistance(self, qi_dist, total_dist):
        """scipy.wasserstein_distance(data_sensitivity, data_population)"""
        # t수치 측정은 EMD(Earth Mover Distance)을 이용하여 계산
        # eucdistance = np.sqrt((qi_dist - total_dist)**2)
        # emdistance = np.sum(np.abs(qi_dist - total_dist))
        emdvalues: List = []

        for qi_p, total_p in zip(qi_dist, total_dist):
            emdvalue = np.sum( np.abs(qi_p - total_p) )
            emdvalues.append(emdvalue)
        emdistance = np.mean(emdvalues)

        return emdistance
    
    def kullbackLeiblerDivergence(self, qi_dist, total_dist):
        """KL발산: 두 확률분포의 평균과 표준편차를 입력으로 받아 계산
        trash code"""
        try:
            return np.sum(qi_dist * np.log(qi_dist / total_dist))
        except ZeroDivisionError as e:
            return 1
            
    def applyTCloseness(self, quasi_identifiers, tolerance: float, sensitive_attribute: str):
        """tolerance: 허용가능한 확률분포 차이의 범위를 정의하여 T-근접성을 적용하는 메서드"""
        T_data = dict()
        qi_distribution, total_distribution = {}, {}

        if tolerance >= 0: 
            # threshold
            super().categorizeEquivalentClass(quasi_identifiers)
            vector = np.array(self._dataframe[sensitive_attribute])
            sorted_total_data, total_distribution = self.checkSensitivesDistribution(vector)

            for group_key, index_value in self.equivalent_class.items():
                # 1. Empirical Cummulative Probability Distribution
                sorted_qi_data, qi_distribution[group_key] = self.checkSensitivesDistribution(vector[index_value])
                sorted_merged_data = np.unique(np.concatenate( (sorted_qi_data, sorted_total_data) ))
                    # np.argsort(): 각 위치별 순서 나타내는 함수 | np.concatenate: 배열끼리 오름차순 병합

                # 2. 두 비대칭 경험누적확률분포의 길이를 맞추기 위한 선형 보간 수행
                qi_ecdf = np.interp(
                    sorted_merged_data, sorted_qi_data, qi_distribution[group_key], left = 0, right = 1)
                total_ecdf = np.interp(
                    sorted_merged_data, sorted_total_data, total_distribution, left = 0, right = 1) 

                # 3. Earth's Mover Distance
                emd = self.earthMoversDistance(qi_ecdf, total_ecdf)
                # 3. KL Divergence
                # kld = self.kullbackLeiblerDivergence(qi_ecdf, total_ecdf)

                # 4.
                if emd < tolerance:
                    # if kld < tolerance:
                    print("T-근접성 성립하는 동질집합:", group_key, emd, "\n", len(index_value), "\n")
                    T_data[group_key] = index_value
                else:
                    print("T-근접성에서 이탈한 동질집합:", group_key, emd, "\n", len(index_value), "\n")
                    pass
                self.T_data = T_data
                
        else: 
            raise ValueError("입력받은 {}은 허용가능한 동질집합과 전체집단 간 확률분포 차이의 범위로서 유효하지 않습니다.".format(tolerance))

In [10]:
t_numeric = T_Closeness_N(dataframe = DATA_FINANCE)

In [11]:
t_numeric.applyTCloseness(quasi_identifiers = ["HOME_TYPE", "TF_LOAN", "TF_PENSION"], 
                          tolerance = 0.2, sensitive_attribute = "AMT_CREDITLOAN")

T-근접성 성립하는 동질집합: ('기타', 'N', 'N') 0.04981985388148164 
 5009 

T-근접성 성립하는 동질집합: ('기타', 'N', 'Y') 0.04981985388148164 
 372 

T-근접성에서 이탈한 동질집합: ('기타', 'Y', 'N') 0.4471850571628123 
 523 

T-근접성에서 이탈한 동질집합: ('기타', 'Y', 'Y') 0.422580872373432 
 37 

T-근접성 성립하는 동질집합: ('다가구 단독주택', 'N', 'N') 0.04981985388148164 
 10008 

T-근접성 성립하는 동질집합: ('다가구 단독주택', 'N', 'Y') 0.04981985388148164 
 748 

T-근접성에서 이탈한 동질집합: ('다가구 단독주택', 'Y', 'N') 0.46283001808417557 
 1087 

T-근접성에서 이탈한 동질집합: ('다가구 단독주택', 'Y', 'Y') 0.4654292885153424 
 94 

T-근접성 성립하는 동질집합: ('다세대주택', 'N', 'N') 0.04981985388148164 
 9932 

T-근접성 성립하는 동질집합: ('다세대주택', 'N', 'Y') 0.04981985388148164 
 715 

T-근접성에서 이탈한 동질집합: ('다세대주택', 'Y', 'N') 0.45675769648051545 
 1111 

T-근접성에서 이탈한 동질집합: ('다세대주택', 'Y', 'Y') 0.4653380650181491 
 96 

T-근접성 성립하는 동질집합: ('비거주용 건물(상가', 'N', 'N') 0.04981985388148164 
 5103 

T-근접성 성립하는 동질집합: ('비거주용 건물(상가', 'N', 'Y') 0.04981985388148164 
 365 

T-근접성에서 이탈한 동질집합: ('비거주용 건물(상가', 'Y', 'N') 0.42129177225376624 
 562 

T-근접

In [12]:
len(t_numeric.T_data.keys()), t_numeric.T_data.keys() 

(20,
 dict_keys([('기타', 'N', 'N'), ('기타', 'N', 'Y'), ('다가구 단독주택', 'N', 'N'), ('다가구 단독주택', 'N', 'Y'), ('다세대주택', 'N', 'N'), ('다세대주택', 'N', 'Y'), ('비거주용 건물(상가', 'N', 'N'), ('비거주용 건물(상가', 'N', 'Y'), ('아파트', 'N', 'N'), ('아파트', 'N', 'Y'), ('연립주택', 'N', 'N'), ('연립주택', 'N', 'Y'), ('영업 겸용 단독주택', 'N', 'N'), ('영업 겸용 단독주택', 'N', 'Y'), ('오피스텔', 'N', 'N'), ('오피스텔', 'N', 'Y'), ('일반 단독주택', 'N', 'N'), ('일반 단독주택', 'N', 'Y'), ('판잣집, 비닐하우스', 'N', 'N'), ('판잣집, 비닐하우스', 'N', 'Y')]))

In [13]:
len(t_numeric.equivalent_class.keys()), t_numeric.equivalent_class.keys()

(40,
 dict_keys([('기타', 'N', 'N'), ('기타', 'N', 'Y'), ('기타', 'Y', 'N'), ('기타', 'Y', 'Y'), ('다가구 단독주택', 'N', 'N'), ('다가구 단독주택', 'N', 'Y'), ('다가구 단독주택', 'Y', 'N'), ('다가구 단독주택', 'Y', 'Y'), ('다세대주택', 'N', 'N'), ('다세대주택', 'N', 'Y'), ('다세대주택', 'Y', 'N'), ('다세대주택', 'Y', 'Y'), ('비거주용 건물(상가', 'N', 'N'), ('비거주용 건물(상가', 'N', 'Y'), ('비거주용 건물(상가', 'Y', 'N'), ('비거주용 건물(상가', 'Y', 'Y'), ('아파트', 'N', 'N'), ('아파트', 'N', 'Y'), ('아파트', 'Y', 'N'), ('아파트', 'Y', 'Y'), ('연립주택', 'N', 'N'), ('연립주택', 'N', 'Y'), ('연립주택', 'Y', 'N'), ('연립주택', 'Y', 'Y'), ('영업 겸용 단독주택', 'N', 'N'), ('영업 겸용 단독주택', 'N', 'Y'), ('영업 겸용 단독주택', 'Y', 'N'), ('영업 겸용 단독주택', 'Y', 'Y'), ('오피스텔', 'N', 'N'), ('오피스텔', 'N', 'Y'), ('오피스텔', 'Y', 'N'), ('오피스텔', 'Y', 'Y'), ('일반 단독주택', 'N', 'N'), ('일반 단독주택', 'N', 'Y'), ('일반 단독주택', 'Y', 'N'), ('일반 단독주택', 'Y', 'Y'), ('판잣집, 비닐하우스', 'N', 'N'), ('판잣집, 비닐하우스', 'N', 'Y'), ('판잣집, 비닐하우스', 'Y', 'N'), ('판잣집, 비닐하우스', 'Y', 'Y')]))

In [14]:
DATA_FINANCE.isnull().sum()

NUM_SERIAL                    0
NAME                          0
GENDER                        0
AGE                           0
PHONE_NUMBER                  0
ZIP_CODE                      0
HOME_ADDRESS                  0
HOME_TYPE                     0
INCOME_BRACKET                0
CREDIT_SCORE                  0
REPAYMENT_RISK_INDEX          0
AMT_CREDITCARD_PAYMENT        0
AMT_CASHADVANCE_PAYMENT       0
NUM_CREDITCARD_ISSUANCES      0
NUM_CREDITCARD_CANCELED       0
TF_LOAN                       0
AMT_CREDITLOAN                0
AMT_CREDITLOAN_OUTSTANDING    0
TF_PENSION                    0
AMT_PENSION                   0
dtype: int64

```
# ValueError: operands could not be broadcast together with shapes (523,) (9466,) 
해당 문제를 해결하기 위해 earthMoversDistance 메서드에서 각각의 누적 분포에서 키에 해당하는 값이 있는지 확인하고, 
만약 존재하지 않는다면 해당 키에 대한 값을 0으로 설정해야 합니다. 
이렇게 하면 두 배열의 길이가 일치하여 연산이 가능해집니다.

동질집합 경험누적분포: [0.0019120459 0.0038240918 0.0057361377 ... 0.9961759082 0.9980879541
 1.          ] 

전체 데이터 경험누적분포: {('기타', 'N', 'N'): array([0.9003578947, 0.9003684211, 0.9003789474, ..., 0.9999789474,
       0.9999894737, 1.          ]), ('기타', 'N', 'Y'): array([0.9003578947, 0.9003684211, 0.9003789474, ..., 0.9999789474,
       0.9999894737, 1.          ]), ('기타', 'Y', 'N'): array([0.9003578947, 0.9003684211, 0.9003789474, ..., 0.9999789474,
       0.9999894737, 1.          ])}
```

In [15]:
# ./pseudonymizer/pseudonymizer/deidentificationTechnique/tCloseness.py

# from pseudonymizer.pseudonymizer.deidentificationTechnique.equivalent_class import EquivalentClass
# from typing import *

class T_Closeness_F(EquivalentClass):
    """민감 정보(SA)의 분포를 전체 데이터 셋의 분포와 유사하도록 하는 T-근접성 클래스
    
    l-다양성과 달리 민감정보를 원본 그대로 배열에 저장한 후 
    데이터를 내림차순 정렬하여 (확률분포의 차이)
    데이터의 분포도를 측정하는 t-근접성 알고리즘 의사코드
    -----------------------------------------------------
    basic Earth Mover's Distance algorithms
    Input : t_list
    Output : EMD
    """
    def __init__(self, dataframe):
        super().__init__(dataframe)
        self.T_data = None
        self.sensitive_attribute = None
        self.tolerance = None
        
    def checkSensitivesDistribution(self, dataseries):
        """개인식별가능정보(준식별자)의 모든 가능한 조합 n개의 관심 대상값
        (sensitive_attribute)의 분포와 전체 집단의 분포의 거리 최댓값이 <= t로 규정할 때
        분포를 계산하는 메서드"""
        sensitive_vector = dataseries
        cumulative_distribution = {}
        cumulative_probability = 0
        
        # 민감속성의 고유한 값과 그 값의 비율 {v: count/len(V)}
        if sensitive_vector.dtype in ["object", "category"]:
            # cumulative_distribution = {v: count/len(v) for (v, count) in Counter(sensitive_vector).items()}
            for value, count in Counter(sensitive_vector).items():
                probability = count / len(sensitive_vector)
                cumulative_probability += probability
                cumulative_distribution[value] = cumulative_probability
    
        else: 
            raise ValueError("입력받은 {}은 유효한 자료형이 아닙니다.".format(dataseries.dtype))
        
        return cumulative_distribution

    def earthMoversDistance(self, qi_dist, total_dist):
        """scipy.wasserstein_distance(data_sensitivity, data_population)"""
        # 누적 분포가 아닌 개별 값의 분포가 필요
        # t수치 측정은 EMD(Earth Mover Distance)을 이용하여 계산

        # eucdistance = np.sqrt((qi_dist - total_dist)**2)
        # emdistance = np.sum(np.abs(qi_dist - total_dist))
        emdvalues: List = []

        for key in qi_dist:
            emdvalue = np.sum( np.abs(qi_dist[key] - total_dist[key]) )
            emdvalues.append(emdvalue)
            emdistance = np.mean(emdvalues)

        return emdistance
    
    def applyTCloseness(self, quasi_identifiers, tolerance: float, sensitive_attribute: str):
        """tolerance: 허용가능한 확률분포 차이의 범위를 정의하여 T-근접성을 적용하는 메서드"""
        T_data = dict()
        qi_distribution, total_distribution = {}, {}

        if tolerance >= 0: 
            # threshold
            super().categorizeEquivalentClass(quasi_identifiers)
            vector = np.array(self._dataframe[sensitive_attribute])
            total_distribution = self.checkSensitivesDistribution(vector)
            print(total_distribution)

            for group_key, index_value in self.equivalent_class.items():
                # 1. Empirical Cummulative Probability Distribution
                qi_distribution[group_key] = self.checkSensitivesDistribution(vector[index_value])
                print(qi_distribution[group_key])

                # 2. Earth's Mover Distance
                emd = self.earthMoversDistance(qi_distribution[group_key], total_distribution)

                # 3.
                if emd < tolerance:
                    print("T-근접성 성립하는 동질집합:", group_key, emd, "\n", len(index_value), "\n")
                    T_data[group_key] = index_value
                else:
                    print("T-근접성에서 이탈한 동질집합:", group_key, len(index_value), emd, "\n")
                    
                self.T_data = T_data
                
        else: 
            raise ValueError("입력받은 {}은 허용가능한 동질집합과 전체집단 간 확률분포 차이의 범위로서 유효하지 않습니다.".format(tolerance))

In [16]:
t_factor = T_Closeness_F(dataframe = DATA_FINANCE)

In [17]:
t_factor.applyTCloseness(quasi_identifiers = ["TF_LOAN", "TF_PENSION"], tolerance = 0.3, sensitive_attribute = "HOME_TYPE")

{'판잣집, 비닐하우스': 0.06169473684210526, '다세대주택': 0.18647368421052632, '다가구 단독주택': 0.3121263157894737, '영업 겸용 단독주택': 0.37526315789473685, '아파트': 0.561221052631579, '오피스텔': 0.6839473684210526, '기타': 0.7464842105263158, '비거주용 건물(상가': 0.8104210526315789, '연립주택': 0.9369894736842105, '일반 단독주택': 1.0}
{'판잣집, 비닐하우스': 0.06173755565057726, '다세대주택': 0.18664637673868753, '다가구 단독주택': 0.312511004351435, '영업 겸용 단독주택': 0.3759212214201273, '아파트': 0.5610207007570994, '기타': 0.624015896571673, '비거주용 건물(상가': 0.688193274140403, '연립주택': 0.8137434917121513, '일반 단독주택': 0.8766758055185251, '오피스텔': 1.0}
T-근접성 성립하는 동질집합: ('N', 'N') 0.08087775157767646 
 79514 

{'아파트': 0.2019933554817276, '다가구 단독주택': 0.32624584717607974, '연립주택': 0.45398671096345516, '오피스텔': 0.573920265780731, '영업 겸용 단독주택': 0.6342192691029901, '기타': 0.6960132890365449, '비거주용 건물(상가': 0.7566445182724253, '일반 단독주택': 0.8212624584717608, '판잣집, 비닐하우스': 0.8812292358803987, '다세대주택': 1.0}
T-근접성에서 이탈한 동질집합: ('N', 'Y') 6020 0.3141379017310718 

{'오피스텔': 0.1203914

In [18]:
t_factor.T_data.keys()

dict_keys([('N', 'N'), ('Y', 'N')])

---

**차분 프라이버시**

* 제약조건 : 데이터 공개 메커니즘만으로는 임의의 레코드가 포함된 데이터셋과 그렇지 않은 데이터셋을 구별하기 어려워야 한다.

* 통계적 확률응답모형을 응용하여 원본 데이터에 노이즈를 추가하는 방법

    (1) 라플라스 메커니즘
        
    * 라플라스 분포(laplace distribution)로부터 파생된 랜덤 노이즈 값
    
    * 분산이 개인정보의 민감도(sensitivity)/ε 상수와 비례하도록 설정된 라플라스 분포로부터 생성한 임의의 잡음
    
    * $f(x) = \frac{1}{2b}exp[\frac{-|x-\mu|}{b}]$
        
    (2) 가우스 메커니즘

    * ε 값과 관계된 평균과 분산을 가지는 가우스 분포로부터 생성한 임의의 잡음을 더하여(noise addition) 변조된 결과를 데이터 이용자에게 제공
    
    * $f(x) = \frac1{\sqrt{2\pi\sigma^2}}{exp}^\frac{x-\mu}{\sigma}$

In [19]:
# ./pseudonymizer/pseudonymizer/deidentificationTechnique/differentialPrivacy.py

# from pseudonymizer.pseudonymizer.deidentificationTechnique.equivalentClass import EquivalentClass
# from typing import *

from numpy import exp
from scipy.stats import laplace


class DifferentialPrivacy(EquivalentClass):
    """라플라스 메커니즘 적용 차분 프라이버시 클래스
    차등적 정보보호 기능을 수행"""
    
    def __init__(self, dataframe, ratio_bounded: float):
        super().__init__(dataframe)
        # 동질집합을 키로하고 인덱스 번호를 값으로 하는 신뢰구간 초과하는 값을 
        self.upperoutlier_dictionary = {}
        self.loweroutlier_dictionary = {}
        self.sensitive_attribute = None
        
        # ratio_bounded = epsilon(개인정보(가명정보) 보호 수준 결정)
        self.ratio_bounded = ratio_bounded
    
    def dataDeviatingfromCI(self, boundary: float, attributes: List, sensitive_attribute: str):
        """동질집합 내 평균에서 양쪽 3표준편차의 범위 99.7%에 들지 않는 민감정보 행 번호만 별도로 추출하는 메서드
        가설검정 기반에서 노이즈를 입력하는 방식인 GDP(Gaussian Differential Privacy) 방법
        이 방식은 통계 가설 관점에서 주어진 유의수준에서 최소의 제2종 오류를 trade-off function으로 나타냄으로써 차분 정보보호를 적용
        """
        super().categorizeEquivalentClass(attributes)
        self.sensitive_attribute = sensitive_attribute
        for group_key, index_value in self.equivalent_class.items():
            mu = np.nanmean(self._dataframe.loc[index_value, sensitive_attribute])
            sigma = np.nanstd(self._dataframe.loc[index_value, sensitive_attribute])
            
            for i in index_value:
                x = self._dataframe.loc[i, self.sensitive_attribute]
                if mu-boundary*sigma <= x <= mu+boundary*sigma:
                    pass
                elif x > mu+boundary*sigma:
                    self.upperoutlier_dictionary.setdefault(group_key, []).append(i)
                elif x < mu-boundary*sigma:
                    self.loweroutlier_dictionary.setdefault(group_key, []).append(i)
                else:
                    raise ValueError(f"{x}은 유효한 수가 아닙니다.")
    
    def dataGlobalSensitivity(self, outlier):
        """특정 레코드(식별가능한 개인) 유무에 따른 민감도 산출하는 메서드
        특정 결과를 얻기 위한 쿼리 K를 각 데이터에 적용한 결과인 K(D1)와 K(D2)가 동일한 분포 S에 속할
        확률의 비율(두 데이터 분포의 차이)을 일정 수준(epsilon)보다 작도록 함
        """
        col_num = self._dataframe.columns.get_loc(self.sensitive_attribute)
        
        if outlier == "upper":
            for group_key, outlier_list in self.upperoutlier_dictionary.items():
                
                for i in outlier_list:
                    upper_outlier = self._dataframe.iloc[i, col_num]
                    group_data, exception_data = 0, 0
                    
                    group_list = self.equivalent_class[group_key]
                    group_data = self._dataframe.iloc[group_list, col_num]
                    
                    # exception_list = group_list.remove(i)
                    group_list.remove(i)
                    exception_list = group_list[:]
                    exception_data = self._dataframe.iloc[exception_list, col_num]
                    
                    pseudonymize_data = self.laplaceMechanism(
                        group_data, exception_data, upper_outlier, outlier)
                    
                    print(i, upper_outlier, pseudonymize_data)
                    
                    self._dataframe.loc[i, self.sensitive_attribute] = pseudonymize_data
        
        elif outlier == "lower":
            for group_key, outlier_list in self.loweroutlier_dictionary.items():
                for i in outlier_list:
                    lower_outlier = self._dataframe.iloc[i, col_num]
                    group_data, exception_data = 0, 0
                    
                    group_list = self.equivalent_class[group_key]
                    group_data = self._dataframe.iloc[group_list, col_num]
                    
                    # exception_list = group_list.remove(i)
                    group_list.remove(i)
                    exception_list = group_list[:]
                    exception_data = self._dataframe.iloc[exception_list, col_num]
                    
                    pseudonymize_data = self.laplaceMechanism(
                        group_data, exception_data, lower_outlier, outlier)
                    
                    print(i, lower_outlier, pseudonymize_data)
                    
                    self._dataframe.loc[i, self.sensitive_attribute] = pseudonymize_data
                    
    @classmethod
    def estimateLaplaceParameters(cls, data):
        """라플라스 분포의 모수 평균(mu)과 스케일(beta)을 추정하는 메서드"""
        mu = np.nanmean(data)
        beta = np.nanmean(np.abs(data - mu))
        return mu, beta

    @classmethod
    def laplacePDF(cls, x, mu, beta):
        """라플라스 연속확률분포 확률밀도함수
        확률분포(확률변수가 특정한 값을 가질 확률을 나타내는 함수)"""
        return (1/(2*beta)) * exp(-abs(x-mu)/beta)

    @classmethod
    def calculateProbabilityRatio(cls, include_data, exclude_data):
        """확률변수 x가 라플라스 분포에 속할 확률과 특정 행의 포함 여부 데이터 간 비율을 계산하는 메서드"""
        # 두 데이터의 평균과 스케일 파라미터를 추정
        mu_include, beta_include = cls.estimateLaplaceParameters(include_data)
        mu_exclude, beta_exclude = cls.estimateLaplaceParameters(exclude_data)
        
        # 두 데이터의 라플라스 분포에 속할 확률 계산
        prob_include = cls.laplacePDF(include_data, mu_include, beta_include)
        prob_exclude = cls.laplacePDF(exclude_data, mu_exclude, beta_exclude)
        prob_ratio = prob_include / prob_exclude
        
        # 두 데이터의 라플라스 분포에 속할 확률의 비율 계산
        return prob_ratio

    def laplaceMechanism(self, include_data, exclude_data, particular_record, outlier):
        """라플라스 메커니즘을 적용하여 특정 데이터 행에 랜덤 노이즈값을 추가하는 메서드"""
        # 전역 민감도 계산
        sensitivity = self.calculateProbabilityRatio(include_data, exclude_data)
        # 사용자 지정 개인정보 보호 수전 하이퍼파라미터 엡실론을 통해 스케일 파라미터 정의
        beta = sensitivity / self.ratio_bounded
        # 평균 0, 베타를 분산으로 가지는 라플라스 분포에 속하는 랜덤 난수 추출
        noise = np.random.laplace(0, beta, len(include_data))
        random_noise = np.random.choice(noise)
        
        # 이상치에 노이즈 추가
        if outlier == "lower":
            return particular_record + random_noise if random_noise >= 0 else particular_record - random_noise
        elif outlier == "upper":
            return particular_record - random_noise if random_noise >= 0 else particular_record + random_noise
        else:
            raise ValueError(f"{outlier}은 유효한 이상치 유형이 아닙니다.")

In [20]:
laplaceLDP = DifferentialPrivacy(dataframe = DATA_FINANCE, ratio_bounded = 3)

In [21]:
laplaceLDP.dataDeviatingfromCI(boundary = 2,
                               attributes = ["HOME_TYPE", "TF_LOAN", "TF_PENSION"], 
                               sensitive_attribute = "AMT_CREDITLOAN")

In [22]:
laplaceLDP.dataGlobalSensitivity(outlier = "lower")

42403 5014810 5014811.077483777
90878 4426364.0 4426364.024342771


In [23]:
print(DATA_FINANCE["AMT_CREDITLOAN"][42403], laplaceLDP._dataframe["AMT_CREDITLOAN"][42403])
# -0.0335924623298477
# 42403 5014810 5014809.966407537
# 5014809.966407537 5014809.966407537
# 5014810 5014809.966407537

print(DATA_FINANCE["AMT_CREDITLOAN"][90878], laplaceLDP._dataframe["AMT_CREDITLOAN"][90878])
# 0.6790675619122106
# 90878 4426364.0 4426364.679067562
# 4426364.679067562 4426364.679067562
# 4426364 4426364.679067562

# OUTPUT = DATA_FINANCE["AMT_CREDITLOAN"] == laplaceLDP._dataframe["AMT_CREDITLOAN"]
# for o in OUTPUT:
    # if o is False:
       # print(o)

5014810 5014811.077483777
4426364 4426364.024342771


___

디버깅 포인트 1) 메서드 이름 충돌로 인해 잘못된 메서드가 호출될 위험

디버깅 포인트 2) 네임스페이스 관리의 어려움(라이브러리나 프레임워크와 같이 외부 코드 통합 시 문제됨)

https://angeloyeo.github.io/2020/09/14/normal_distribution_derivation.html

In [24]:
# ./pseudonymizer/pseudonymizer/deidentificationTechnique/differentialPrivacy.py

# from pseudonymizer.pseudonymizer.deidentificationTechinique.equivalentClass import EqivalentClass
# from typing import *
from math import exp, pi


class GaussianDifferentialPrivacy(EquivalentClass):
    """가우시안 메커니즘 적용 차분 프라이버시 클래스"""
    def __init__(self, dataframe, ratio_bounded):
        # 개별 동질집합 속성값을 키로 가지고 인덱스 번호를 값으로 가지는 딕셔너리
        super().__init__(dataframe)
        # 신뢰구간을 초과하는 키와 값만 저장한 딕셔너리
        self.upperoutlier_dictionary = {}
        self.loweroutlier_dictionary = {}
        self.sensitive_attribute = None
        # epsilon으로 개인정보(가명정보) 보호 수준을 결정하는 하이퍼 파라미터
        self.ratio_bounded = ratio_bounded
    
    def dataDeviatingfromNormCI(self, boundary: float, attributes: List[str], sensitive_attribute: str):
        """동질집합 내 평균에서 양쪽 3표준편차(예: 3시그마)의 범위 99.7%에 들지 않는 민감정보 행 번호만 별도로 추출하는 메서드
        가설검정 기반에서 노이즈를 입력하는 방식인 GDP(Gaussian Differential Privacy) 방법
        이 방식은 통계 가설 관점에서 주어진 유의 수준에서 최소의 제2종 오류를 trade-off function으로 나타냄으로써 차분 정보보호 적용"""
        super().categorizeEquivalentClass(attributes)
        self.sensitive_attribute = sensitive_attribute
        for group_key, index_value in self.equivalent_class.items():
            mu = np.nanmean(self._dataframe.loc[index_value, sensitive_attribute])
            sigma = np.nanstd(self._dataframe.loc[index_value, sensitive_attribute])

            for i in index_value:
                x = self._dataframe.loc[i, self.sensitive_attribute]
                if mu-boundary*sigma <= x <= mu+boundary*sigma:
                    pass
                elif x > mu+boundary*sigma:
                    self.upperoutlier_dictionary.setdefault(group_key, []).append(i)
                elif x < mu-boundary*sigma:
                    self.loweroutlier_dictionary.setdefault(group_key, []).append(i)
                else:
                    raise ValueError(f"{x}은 유효한 수가 아닙니다.")
    
    def dataNormGlobalSensitivity(self, outlier):
        """특정 레코드(식별가능한 개인) 유무에 따른 민감도를 산출하는 메서드
        특정 결과를 얻기 위한 쿼리 K를 각 데이터에 적용한 결과인 K(D1)와 K(D2)가 동일한 분포 S에 속할
        확률의 비율(두 데이터 분포의 차이)을 일정 수준(epsilon)보다 작도록 함"""
        col_num = self._dataframe.columns.get_loc(self.sensitive_attribute)
        
        if outlier == "upper":
            for group_key, outlier_list in self.upperoutlier_dictionary.items():
                
                for i in outlier_list:
                    upper_outlier = self._dataframe.iloc[i, col_num]
                    group_data, exception_data = 0, 0
                    
                    group_list = self.equivalent_class[group_key]
                    group_data = self._dataframe.iloc[group_list, col_num]
                    group_list.remove(i)
                    exception_list = group_list[:]
                    exception_data = self._dataframe.iloc[exception_list, col_num]
                    
                    pseudonymize_data = self.gaussianMechanism(
                        group_data, exception_data, upper_outlier, outlier)
                    print(i, upper_outlier, pseudonymize_data)
                    self._dataframe.loc[i, self.sensitive_attribute] = pseudonymize_data
        
        elif outlier == "lower":
            for group_key, outlier_list in self.loweroutlier_dictionary.items():
                for i in outlier_list:
                    lower_outlier = self._dataframe.iloc[i, col_num]
                    group_data, exception_data = 0, 0
                    
                    group_list = self.equivalent_class[group_key]
                    group_data = self._dataframe.iloc[group_list, col_num]
                    
                    group_list = self.equivalent_class[group_key]
                    group_data = self._dataframe.iloc[group_list, col_num]
                    group_list.remove(i)
                    exception_list = group_list[:]
                    exception_data = self._dataframe.iloc[exception_list, col_num]
                    
                    pseudonymize_data = self.gaussianMechanism(
                        group_data, exception_data, lower_outlier, outlier)
                    print(i, lower_outlier, pseudonymize_data)
                    self._dataframe.loc[i, self.sensitive_attribute] = pseudonymize_data                    
    
    @classmethod
    def estimateGaussianParameters(cls, data):
        """정규분포의 모수 평균(mu)과 표준편차(sigma)를 추정하는 메서드"""
        mu = np.nanmean(data)
        sigma = np.nanstd(data)
        return mu, sigma
    
    @classmethod
    def gaussianPDF(cls, x, mu, sigma):
        """정규분포(가우시안) 확률밀도함수(확률변수가 특정한 값을 가질 확률을 나타내는 함수)"""
        return (1/np.sqrt(2*pi*sigma**2)) * np.exp(-0.5*((x-mu)/sigma)**2)
    
    @classmethod
    def calculateNormProbabilityRatio(cls, include_data, exclude_data):
        """확률변수 X가 정규분포에 속할 확률과 특정 행의 포함 여부 데이터 간 비율을 계산하는 메서드"""
        # 두 데이터의 평균과 표준편차 파라미터를 추정
        mu_include, sigma_include = cls.estimateGaussianParameters(include_data)
        mu_exclude, sigma_exclude = cls.estimateGaussianParameters(exclude_data)

        # 두 데이터의 정규분포에 속할 확률 계산
        prob_include = cls.gaussianPDF(include_data, mu_include, sigma_include)
        prob_exclude = cls.gaussianPDF(exclude_data, mu_exclude, sigma_exclude)
        prob_ratio = prob_include / prob_exclude

        # 두 데이터의 정규분포에 속할 확률의 비율 계산
        return prob_ratio
    
    def gaussianMechanism(self, include_data, exclude_data, particular_record, outlier):
        # 전역 민감도 계산
        sensitivity = self.calculateNormProbabilityRatio(include_data, exclude_data)
        # 사용자 지정 개인정보 보호 수준, 하이퍼파라미터 엡실론을 통해 스케일 파라미터 정의 
        beta = sensitivity / self.ratio_bounded
        # 평균 0, 시그마 값을 분산으로 가지는 정규분포에 속하는 랜덤 난수 추출
        noise = np.random.normal(0, beta, len(include_data))
        random_noise = np.random.choice(noise)

        # 이상치에 노이즈 추가
        if outlier == "lower":
            return particular_record + random_noise if random_noise >= 0 else particular_record - random_noise
        elif outlier == "upper":
            return particular_record - random_noise if random_noise >= 0 else particular_record + random_noise
        else:
            raise ValueError(f"{outlier}은 유효한 이상치 유형이 아닙니다.")

In [25]:
gaussianLDP = GaussianDifferentialPrivacy(dataframe = DATA_FINANCE, ratio_bounded = 3)

In [26]:
gaussianLDP.dataDeviatingfromNormCI(boundary = 2,
                                    attributes = ["HOME_TYPE", "TF_LOAN", "TF_PENSION"], 
                                    sensitive_attribute = "AMT_CREDITLOAN")

In [27]:
gaussianLDP.dataNormGlobalSensitivity(outlier = "lower")

42403 5014810 5014810.455229839
90878 4426364.0 4426364.149628142


In [28]:
print(DATA_FINANCE["AMT_CREDITLOAN"][42403], laplaceLDP._dataframe["AMT_CREDITLOAN"][42403], gaussianLDP._dataframe["AMT_CREDITLOAN"][42403])
# -0.0335924623298477
# 42403 5014810 5014809.966407537
# 5014809.966407537 5014809.966407537
# 5014810 5014809.966407537

print(DATA_FINANCE["AMT_CREDITLOAN"][90878], laplaceLDP._dataframe["AMT_CREDITLOAN"][90878], gaussianLDP._dataframe["AMT_CREDITLOAN"][90878])
# 0.6790675619122106
# 90878 4426364.0 4426364.679067562
# 4426364.679067562 4426364.679067562
# 4426364 4426364.679067562

# OUTPUT = DATA_FINANCE["AMT_CREDITLOAN"] == laplaceLDP._dataframe["AMT_CREDITLOAN"]
# for o in OUTPUT:
    # if o is False:
       # print(o)

5014810 5014811.077483777 5014810.455229839
4426364 4426364.024342771 4426364.149628142


___

```
# print(i, lower_outlier, pseudonymize_data)

42403 5014810 
[5014810.22674361 5014810.16427619 5014809.62968682 5014809.65137469
 5014811.36717269 5014809.68597835 5014810.28928358 5014810.13074908
 5014810.32158375 5014810.03421855              nan 5014810.82317501
 5014810.81176433 5014809.80109132 5014809.31107596 5014809.81035287
 5014809.8902467  5014810.14086389 5014809.78494491 5014810.36315886
 5014809.54076684 5014810.13574348 5014809.86632315 5014810.25892377
 5014810.2779238  5014810.22053817 5014809.97548343 5014809.88607746
 5014809.02628258 5014810.23013949 5014809.33068162 5014809.71991071
 5014810.06795087 5014809.86490138 5014811.03462286 5014810.9709311
 5014810.22550959 5014809.98885702]
 ```

---

In [29]:
# from pseudonymizer.pseudonymizer.deidentificationTechnique.equivalent_class import EquivalentClass
# from pseudonymizer.pseudonymizer.deidentificationTechnique.kAnonimity import K_Anonymity
# from pseudonymizer.pseudonymizer.deidentificationTechnique.lDiversity import L_Diversity
# from pseudonymizer.pseudonymizer.deidentificationTechnique.tClosenessFactor import T_Closeness_F
# from pseudonymizer.pseudonymizer.deidentificationTechnique.tClosenessNumeric import T_Closeness_N
# from pseudonymizer.pseudonymizer.deidentificationTechnique.differentialPrivacy import DifferentialPrivacy
# from pseudonymizer.pseudonymizer.deidentificationTechnique.gaussiandifferentialPrivacy import GaussianDifferentialPrivacy
# from typing import *


class PrivacyPreservingModel:
    """개인식별가능정보 속성을 기준으로 그룹화된 데이터로 프라이버시 보호 모델을 적용하여 정량적인 위험성을 규정하는 실행 클래스"""
    def __init__(self, dataframe, epsilon):
        self._dataframe = dataframe
        self.equivalnt_class = EquivalentClass(self._dataframe)
        self.Kanonymity = K_Anonymity(self._dataframe)
        self.Ldiversity = L_Diversity(self._dataframe)
        self.TclosenessNum = T_Closeness_N(self._dataframe)
        self.TclosenessFac = T_Closeness_F(self._dataframe)
        self.LaplaceLDP = DifferentialPrivacy(self._dataframe, epsilon)
        self.GaussianLDP = GaussianDifferentialPrivacy(self._dataframe, epsilon)

    def applyKAnonymityOrLDiversity(self, method: str, K: int, L: int, attributes: List[str], sensitive_attribute):
        """K-익명성과 L-다양성 모델을 선택적으로 적용하는 메서드
        input
        -----
        method: 프라이버시 보호 모델 메서드를 받고, 
        keyword arguments에 딕셔너리 형식으로 각 기법에 필요한 파라미터를 받아옴"""
        if method == "K":
            self.Kanonymity.applyKAnonymity(K, attributes)
                # Kanonymity Input | K: int, attributes: List[str]
            return self.Kanonymity.K_data
        elif method == "L":
            self.Ldiversity.applyLDiversity(K, L, attributes, sensitive_attribute)
                # Ldiversity Input | K: int, L: int, attribute: List[str], sensitive_attribute
            return self.Ldiversity.L_data
        else:
            raise ValueError(f"입력받은 {method}는 유효한 개인정보 보호 기법이 아닙니다.")
        
    def applyLocalLDiversity(self, K: int, L: int, attributes: List[str], sensitive_attribute: str, LocalL: int):
        self.Ldiversity.applyLDiversity(K, L, attributes, sensitive_attribute)
            # Ldiversity Input | K: int, L: int, attribute: List[str], sensitive_attribute
        self.Ldiversity.applyLocalLDiversity(LocalL)
            # LocalLdiversity | local_L: int
        return self.Ldiversity.LocalL_data

    def applyTCloseness(self, method, quasi_identifiers, sensitive_attribute: str, tolerance: float):
        if method == "Numeric":
            self.TclosenessNum.applyTCloseness(quasi_identifiers, tolerance, sensitive_attribute)
            return self.TclosenessNum.T_data
        elif method == "Factor":
            self.TclosenessFac.applyTCloseness(quasi_identifiers, tolerance, sensitive_attribute)
            return self.TclosenessFac.T_data
        else:
            raise ValueError(f"입력받은 {method}는 유효한 t-근접성 기법 적용 자료형이 아닙니다.")
            
    def applyDPrivacy(self, method, boundary, attributes, sensitive_attribute, outlier):
        """차분 프라이버시 기법(차등적 정보보호 기능)을 적용하는 메서드"""
        if method == "Laplace":
            self.LaplaceLDP.dataDeviatingfromCI(boundary, attributes, sensitive_attribute)
            self.LaplaceLDP.dataGlobalSensitivity(outlier)
            return self.LaplaceLDP._dataframe
        elif method == "Gaussian":
            self.GaussianLDP.dataDeviatingfromCI(boundary, attributes, sensitive_attribute)
            self.GaussianLDP.dataGlobalSensitivity(outlier)
            return self.GaussianLDP._dataframe
        else:
            raise ValueError(f"입력받은 {method}는 유효한 차분 프라이버시 보호 기법 적용 확률분포가 아닙니다.")
                
    def __str__(self):
        """동질집합에 대한 정보를 문자열로 반환하는 메서드"""
        return str(self.equivalent_class)

In [None]:
# if __name__ == "__main__":

In [31]:
# ./pseudonymizer/pseudonymizer.py

from abc import ABC, ABCMeta, abstractmethod
from typing import List
# import pandas as pd

# from pseudonymizer.pseudonymizers.columncategorization import CategorizationOfColumn
# from pseudonymizer.pseudonymizers.microAggregation import MicroAggregation


class Pseudonymizer(ABC):
    """가명처리 추상 클래스 및 추상 메서드 선언"""
    @abstractmethod
    def pseudonymizeData(self, value):
        """확장성을 갖춘 가명처리 클래스를 만들어 특정 가명처리 기법으로 구체화하기 위한 추상 메서드"""
        pass


class Pseudonym:
    def __init__(self, dataframe):
        """원본정보(재현데이터)와 가명처리 구체 클래스를 인스턴스 변수로 선언하는(초기화) 생성자"""
        self._dataframe = dataframe
        self.equivalent_class = {}
        self._pseudonymizers = []
        self._pseudonymDictionary = {}
        
    def __str__(self):
        # __repr__
        """캡슐화된 데이터셋의 속성(컬럼)정보를 반환하는 메서드"""
        return self._dataframe.info()
    
    def categorizeEquivalentClass(self, attributes: List[str]):
        """각 행(레코드)에 대한 개인식별가능정보 속성(컬럼)들 사이에 동질 집합을 확인하는 메서드
        Pseudonym(dataframe).equivalent_class.keys()를 통해 동질집합 확인"""
        groupby_data = self._dataframe.groupby(attributes)
        for group, data in groupby_data:
            if len(group) > 1:
                key = tuple(group)
                # 딕셔너리에서 키 값으로 리스트(동적 타입)는 사용할 수 없으므로 튜플로 변환
                self.equivalent_class[key] = data.index.tolist()
                # 동질 집합에 해당하는 행(레코드)의 인덱스 번호를 키 값으로 조회되도록 저장
                
    def countEquivalentClass(self):
        for group_key, index_value in self.equivalent_class.items():
            print(group_key, len(index_value))
            
    def addPseudonymizer(self, pseudonymizer):
        """가명처리 추상 클래스에 대한 자식 클래스를 입력받는 pseudonymizer파라미터를 가지는 메서드"""
        if isinstance(pseudonymizer, Pseudonymizer):
            self._pseudonymizers.append(pseudonymizer)
        else:
            print("입력받은 {} 기술은 가명처리 기법에 추가할 수 없습니다.".format(pseudonymizer))
    
    def addDictionary(self, column, pseudonymizers):
        """가명처리를 수행할 데이터 컬럼명과 해당 열에 적용할 여러 가명처리 기법 리스트를 입력받아 다양한 비식별 조치를 수행할 수 있도록 지정하는 메서드"""
        self._pseudonymDictionary[column] = pseudonymizers
        
    def pseudonymizeData(self):
        """가명처리 기법을 해당 컬럼에 적용하는 메서드(apply함수를 활용하여 데이터프레임 모든 행, 특정 열에 비식별조치를 취하는 접근방식) """
        for column, pseudonymizers in self._pseudonymDictionary.items():
            for pseudonymizer in pseudonymizers:
                if isinstance(pseudonymizer, CategorizationOfColumn) or isinstance(pseudonymizer, TopandBottomCoding): 
                    self._dataframe[column] = pseudonymizer.pseudonymizeData(self._dataframe[column])
                elif isinstance(pseudonymizer, MicroAggregation):
                    self._dataframe[column] = pseudonymizer.pseudonymizeData(self._dataframe, column, self.equivalent_class)
                else:
                    self._dataframe[column] = self._dataframe[column].apply(pseudonymizer.pseudonymizeData)

    def getPseudonymizedDataframe(self):
        """가명처리 데이터 반환"""
        return self._dataframe

---

**가명처리 기법이 적용된 개인정보(가명정보)의 유용성을 측정하는 지표**

In [34]:
# from pseudonymizer.pseudonymizer import Pseudonymizer, Pseudonym
from numpy import dot
from numpy.linalg import norm
import Levenshtein

class PseudonymUtilityMeasure(Pseudonym):
    """가명처리 기법이 적용된 개인정보(가명정보)의 유용성을 측정하는 지표"""
    def __init__(self, dataframe, attributes, pseudonymizeddata):
        super().__init__(dataframe)
        super().categorizeEquivalentClass(attributes)
        self.pseudonymizeddata = pseudonymizeddata
        
    def measureUtility(self, parameter, sensitive_attribute):
        """
        staticmethod에서는 부모클래스의 클래스속성 값을 가져오지만, classmethod에서는 cls인자를 활용하여 cls의 클래스속성을 가져오는 것을 알 수 있습니다.
        """
        if parameter == "cs":
            self.cosineSimilarity(self.dataframe[sensitive_attribute], self.pseudonymizeddata[sensitive_attribute])
        elif parameter == "mc":
            self.meanCorrelation(self.dataframe[sensitive_attribute], self.pseudonymizeddata[sensitive_attribute])
        elif parameter == "scd_sse":
            self.standardizedEuclidianDistanceSSE(self.dataframe[sensitive_attribute], self.pseudonymizeddata[sensitive_attribute])
        elif parameter == "mgd":
            self.meanGeneralizedDifference(self.dataframe[sensitive_attribute], self.pseudonymizeddata[sensitive_attribute])
        else:
            raise ValueError(f"{parameter}은 유효한 가명정보 유용성 평가지표가 아닙니다.")
            
    @classmethod
    def cosineSimilarity(cls, X, Y):
        """코사인 유사도로 원본과 비식별 동일 속성집합 간 벡터의 스칼라곱과 크기 계산 메서드
        벡터 간의 코사인 각도를 이용해 서로 간에 얼마나 유사한지 산정"""
        # metric 만드는 로직 구현 必
        dot_product = PseudonymUtilityMeasure.dotProduct(X, Y)
        # 벡터 정규화 수행
        norm_X = np.linalg.norm(X)
        norm_Y = np.linalg.norm(Y)
        if norm_X != 0 and norm_Y != 0:
            return dot_product / norm_X * norm_Y
        # np.dot(X, Y) / (norm(X)*norm(Y))
        else: 
            return 0
    
    @staticmethod
    def dotProduct(X, Y):
        """두 행렬곱(내적)을 수행하는 정적 메서드"""
        # 행렬 변환(X는 행, Y는 열)
        matrix = [[0 for _ in range(len(Y[0]))] for _ in range(len(X))]
        # 각 행렬을 순회하면서 내적에 사용되는 행과 열의 곱 연산 수행
        for row in range(len(X)):
            for col in range(len(Y[0])):
                for dot in range(len(Y)):
                    matrix[row][col] += X[row][dot] * Y[dot][row]
        return matrix
    
    @classmethod
    def meanCorrelation(cls, X, Y):
        """지정된 2개의 특정 속성쌍들에 대한 피어슨 상관계수에 대한 차이(평균절대오차) 계산 메서드"""
        correlation_coefficients: List = []
        # 상관계수 = 공분산 / 표준편차 계산하여 상관계수 1차원 배열에 추가
        for x, y in zip(X, Y):
            correlation = 0
            correlation = PseudonymUtilityMeasure.dotProduct(
                x-np.mean(x)), ((y-np.mean(y)) ) / (np.linalg.norm(x - np.mean(x)) * np.linalg.norm(y-np.mean(y)) )
            correlation_coefficients.append(abs(correlation))
        # 상관계수의 평균절대오차값 계산
        return np.mean(correlation_coefficients)
    
    @classmethod
    def standardizedEuclidianDistanceSSE(cls, X, Y):
        """표준화된 유클리디안 거리를 이용한 제곱합오차 계산 메서드"""
        standardized_X = (X - np.mean(X)) / np.std(X)
        standardized_Y = (Y - np.mean(Y)) / np.std(Y)
        # 표준화할 때 결측값(NA)에 대한 고려가 미비한 점이 남아있는 과제
        std_squared_error = np.sum( (standardized_X - standardized_Y)**2 )
        return std_squared_error

    @classmethod
    def meanGeneralizedDifference(cls, X, Y):
        """카테고리형 트리 구조를 갖는 문자 속성집합들 간의 평균 차이 계산 메서드
        원본과 비식별 동일 문자 속성집합 간 일반화된 차이(문자열 간의 유사도 측정)"""
        item_similarity, total_similarity, count = 0, 0, 0
        for x, y in zip(X, Y):
            item_similarity = cls.levenshteinDistance(x, y)
            total_similarity += item_similarity
            count += 1
        
        if count > 0:
            mean_similarity = total_similarity / count
        else:
            mean_similarity = 0
        return mean_similarity

    @staticmethod
    def levenshteinDistance(X, Y):
        """레벤슈타인 거리 유사도(편집 시 문자열 조작 최소횟수) 알고리즘을 계산하는 정적 메서드"""
        return Levenshtein.distance(X, Y)
        # 2차원 행렬 만들고
        # 첫 행, 첫 열 초기화
        
        # 동일x = y(대각선 수)
        # 변경(대각선 수 + 1)
        # 삽입(위의 수 + 1)
        # 삭제(왼쪽 수 + 1)

        # 4경우 중 가장 낮은 수 입력

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [6]:
# from pseudonymizer.pseudonymizer import Pseudonymizer
from collections import Counter


class AnonymizationSecurityMeasure(Pseudonym):
    """익명처리 기법이 적용된 정보의 안전성을 측정하는 지표"""
    def __init__(self, dataframe, attributes, anonymizeddata, degreeoffreedom):
        super().__init__(dataframe)
        super().categorizeEquivalentClass(attributes)
        self.anonymizeddata = anonymizeddata
        self.degreeoffreedom = degreeoffreedom
        
    def __str__(self):
        """캡슐화된 데이터셋의 동질집합 유형을 반환하는 메서드"""
        return self.equivalent_class.keys()

    def measureSecurity(self, parameter, quasi_identifiers, sensitive_attribute):
        """
        데이터의 안전성을 측정하는 메서드
        """
        index_list = self.equivalent_class[quasi_identifiers]
        column_reference = self._datframe.columns.get_loc(sensitive_attribute)
        column_forward = self.anonymizeddata.columns.get_loc(sensitive_attribute)

        if parameter == "var":
            variance_reference = self.meanDistributionECMetric(self._datframe.iloc[index_list, column_reference])
            variance_forward = self.meanDistributionECMetric(self.anonymizeddata.iloc[index_list, column_forward])
            return variance_reference, variance_forward
        
        elif parameter == "norm_aver":
            average_reference = self.normalizedAverageECSizeMetric(self._datframe.iloc[index_list, column_reference])
            average_forward = self.normalizedAverageECSizeMetric(self.anonymizeddata.iloc[index_list, column_forward])
            return average_reference, average_forward
        
        elif parameter == "entropy":
            entropy_reference = self.nonUniformEntropyMetric(self._datframe.iloc[index_list, column_reference])
            entropy_forward = self.nonUniformEntropyMetric(self.anonymizeddata.iloc[index_list, column_forward])
            return entropy_reference, entropy_forward
        
        else:
            raise ValueError(f"{parameter}은(는) 유효한 익명정보 안전성 평가지표가 아닙니다.")
            
    @classmethod
    def meanDistributionECMetric(cls, X):
        """동질집합별 속성들에 대한 평균 분포도(분산) 계산 메서드"""
        if cls.degreeoffreedom == 0:  
            # 클래스 변수로 접근
            # 표본분산
            variance_X = np.mean(abs(X - np.mean(X))**2)
        elif cls.degreeoffreedom == 1:
            # 불편분산(불편추정량)
            variance_X = sum((x - np.mean(x))**2 for x in X) / (len(X) - 1)
        else:
            raise ValueError(f"{cls.degreeoffreedom}은(는) 유효한 자유도가 아닙니다.")
        return variance_X

    @classmethod
    def normalizedAverageECSizeMetric(cls, X):
        """정규화된 동질집합들의 평균 크기 계산 메서드(0과 1 사이로 데이터 범위 조정))"""
        normalized_values = (X - min(X)) / (max(X) - min(X))
        normalized_average = normalized_values / len(X)
        return normalized_average

    @classmethod
    def nonUniformEntropyMetric(cls, X):
        """비균일 엔트로피 방법을 이용한 K익명성 프라이버시 보호 모델에서의 정보 손실 측도"""
        prob_distribution = []
        prob_distribution = [len(x) / len(X) for x in Counter(X).items()]
        class_entropy = []

        for p in prob_distribution:
            if p != 0:
                class_entropy.append( np.log(p)*p )
        
        return sum(class_entropy)


In [42]:
import os
import binascii
key_list: List = []

for _ in range(1000):
    key_list.append( binascii.hexlify(os.urandom(16)).decode("utf8") )

In [43]:
key_list

['a5cd5b6d8c7d04359a601d0f12c44857',
 'b02fe3ddd058857e9e65d20d5796752c',
 '0953b60e3bb50099818bd264dc67d3a9',
 '39e488d492ec30a03476b8dedca7b5ed',
 'c8e393a7f0f91e9ec3008befd02b00f5',
 '2e6fc1642f0e842e368b2bee8fa78aa5',
 '26291342b20a6caec7ff0c43f64fe2fb',
 'b26666adf6888c179331d28cb60f5009',
 '099a6b632cd6102712fee6198f49878c',
 '831d3a69a0a6ab1dc78bbb449ee28999',
 'ef5ff0bea4e6765dfeb3c5481c2d25e8',
 '5f9624e586cfbdc2dd49caaea92b91ff',
 '769de3cbec27771f27b99ef4712f754d',
 '65eff3559073c61edd4f6a3e31c228ad',
 '13d9de088e288692dfb7f6c02e03be67',
 'fb91e4eee528dfa9319bab123ac98dad',
 '14326782f90b66841542453fa1e4ec65',
 'e4b9fec6df85c730ac8b997b3706afd6',
 'da894a30ef41458c38b4d66675d2a8fc',
 '8f11c3ce393d7bfdc71c94d76e55e61b',
 'aa7b72b966866ea005b5f2ca95d511d0',
 'd952afbd7b089e4a5acd9c77ec77b7c4',
 '36f6a919fb0f81264733222d7d6e9d5d',
 '0c73c763ca758d12f73dfdea35e68d7f',
 'c44210db09e21c37edb5e5a29164bd84',
 'b00322e987dd20ce2319461e3f86e162',
 'b10557acd80bafcbfabd85e8c2d512a9',
 