# 테스트 데이터 추출
## SQL 데이터 추출

In [1]:
import pymysql
from sqlalchemy import create_engine
from abc import ABC, abstractmethod
from typing import *
import re

from prettytable import PrettyTable
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
engine = create_engine(
    "mysql://root:1234@localhost/FINANCIALCONSUMER", 
    convert_unicode = True)
conn = engine.connect()

  engine = create_engine(


In [3]:
DATA_FINANCE = pd.read_sql_table("DATA_FINANCE", conn)
DATA_RETAIL = pd.read_sql_table("DATA_RETAIL", conn)
DATA_MOBILE_COMMUNICATION = pd.read_sql_table("DATA_MOBILE_COMMUNICATION", conn)
DATA_JOIN_CARDPAYMENT = pd.read_sql_table("DATA_JOIN_CARDPAYMENT", conn)
DATA_JOIN_ACCOMODATIONAPP = pd.read_sql_table("DATA_JOIN_ACCOMODATIONAPP", conn)

In [4]:
# ./pseudonymizer/

class Pseudonymizer(ABC):
    """가명처리 추상 클래스 및 추상 메서드 선언"""
    @abstractmethod
    def pseudonymizeData(self, value):
        """확장성을 갖춘 가명처리 클래스를 만들어 특정 가명처리 기법으로 구체화하기 위한 추상 메서드"""
        pass

In [5]:
# ./pseudonymizer/pseudonymizer.py

# from abc import ABC, ABCMeta, abstractmethod
# import pandas as pd
    
class Pseudonym:
    def __init__(self, dataframe):
        """원본정보(재현데이터)와 가명처리 구체 클래스를 인스턴스 변수로 선언하는(초기화) 생성자"""
        self._dataframe = dataframe
        self.equivalent_class = {}
        self._pseudonymizers = []
        self._pseudonymDictionary = {}
        
    def __str__(self):
        # __repr__
        """캡슐화된 데이터셋의 속성(컬럼)정보를 반환하는 메서드"""
        return self._dataframe.info()
    
    def categorizeEquivalentClass(self, attributes: List[str]):
        """각 행(레코드)에 대한 개인식별가능정보 속성(컬럼)들 사이에 동질 집합을 확인하는 메서드
        Pseudonym(dataframe).equivalent_class.keys()를 통해 동질집합 확인"""
        groupby_data = self._dataframe.groupby(attributes)
        for group, data in groupby_data:
            if len(group) > 1:
                key = tuple(group)
                # 딕셔너리에서 키 값으로 리스트(동적 타입)는 사용할 수 없으므로 튜플로 변환
                self.equivalent_class[key] = data.index.tolist()
                # 동질 집합에 해당하는 행(레코드)의 인덱스 번호를 키 값으로 조회되도록 저장
                
    def countEquivalentClass(self):
        for group_key, index_value in self.equivalent_class.items():
            print(group_key, len(index_value))
            
    def addPseudonymizer(self, pseudonymizer):
        """가명처리 추상 클래스에 대한 자식 클래스를 입력받는 pseudonymizer파라미터를 가지는 메서드"""
        if isinstance(pseudonymizer, Pseudonymizer):
            self._pseudonymizers.append(pseudonymizer)
        else:
            print("입력받은 {} 기술은 가명처리 기법에 추가할 수 없습니다.".format(pseudonymizer))
    
    def addDictionary(self, column, pseudonymizers):
        """가명처리를 수행할 데이터 컬럼명과 해당 열에 적용할 여러 가명처리 기법 리스트를 입력받아 다양한 비식별 조치를 수행할 수 있도록 지정하는 메서드"""
        self._pseudonymDictionary[column] = pseudonymizers
        
    def pseudonymizeData(self):
        """가명처리 기법을 해당 컬럼에 적용하는 메서드(apply함수를 활용하여 데이터프레임 모든 행, 특정 열에 비식별조치를 취하는 접근방식) """
        for column, pseudonymizers in self._pseudonymDictionary.items():
            for pseudonymizer in pseudonymizers:
                self._dataframe[column] = self._dataframe[column].apply(pseudonymizer.pseudonymizeData)

    def getPseudonymizedDataframe(self):
        """가명처리 데이터 반환"""
        return self._dataframe
    
    # def getAge(self): 
        # """getattr method: 숨겨놓은 변수 __age의 값을 전달하는 메서드"""
        # return self.__age
        
    # def setAge(self, value):
        # """setattr method: 숨겨놓은 변수 __age의 값을 설정(변경)하는 메서드"""
        # if value < 0:
           # print("나이는 0보다 작을 수 없습니다.")
           # self.__age = 0
        # else: 
           # self.__age = value

In [6]:
PseudonymizeFinanceData = Pseudonym(dataframe = DATA_FINANCE)
PseudonymizeFinanceData.categorizeEquivalentClass(attributes = ["HOME_TYPE", "TF_LOAN", "TF_PENSION"])
PseudonymizeFinanceData.countEquivalentClass()

('기타', 'N', 'N') 5009
('기타', 'N', 'Y') 372
('기타', 'Y', 'N') 523
('기타', 'Y', 'Y') 37
('다가구 단독주택', 'N', 'N') 10008
('다가구 단독주택', 'N', 'Y') 748
('다가구 단독주택', 'Y', 'N') 1087
('다가구 단독주택', 'Y', 'Y') 94
('다세대주택', 'N', 'N') 9932
('다세대주택', 'N', 'Y') 715
('다세대주택', 'Y', 'N') 1111
('다세대주택', 'Y', 'Y') 96
('비거주용 건물(상가', 'N', 'N') 5103
('비거주용 건물(상가', 'N', 'Y') 365
('비거주용 건물(상가', 'Y', 'N') 562
('비거주용 건물(상가', 'Y', 'Y') 44
('아파트', 'N', 'N') 14718
('아파트', 'N', 'Y') 1216
('아파트', 'Y', 'N') 1607
('아파트', 'Y', 'Y') 125
('연립주택', 'N', 'N') 9983
('연립주택', 'N', 'Y') 769
('연립주택', 'Y', 'N') 1194
('연립주택', 'Y', 'Y') 78
('영업 겸용 단독주택', 'N', 'N') 5042
('영업 겸용 단독주택', 'N', 'Y') 363
('영업 겸용 단독주택', 'Y', 'N') 550
('영업 겸용 단독주택', 'Y', 'Y') 43
('오피스텔', 'N', 'N') 9806
('오피스텔', 'N', 'Y') 722
('오피스텔', 'Y', 'N') 1058
('오피스텔', 'Y', 'Y') 73
('일반 단독주택', 'N', 'N') 5004
('일반 단독주택', 'N', 'Y') 389
('일반 단독주택', 'Y', 'N') 543
('일반 단독주택', 'Y', 'Y') 50
('판잣집, 비닐하우스', 'N', 'N') 4909
('판잣집, 비닐하우스', 'N', 'Y') 361
('판잣집, 비닐하우스', 'Y', 'N') 553
('판잣집, 

## 테스트 데이터 추출 및 타겟 데이터 설정

In [7]:
test1 = DATA_FINANCE.iloc[
    PseudonymizeFinanceData.equivalent_class[('비거주용 건물(상가', 'Y', 'Y')], :][
    (DATA_FINANCE["AMT_CREDITLOAN"] >= 0) & (DATA_FINANCE["AMT_CASHADVANCE_PAYMENT"] > 8000000)] 

  test1 = DATA_FINANCE.iloc[


In [8]:
test2 = DATA_FINANCE.iloc[
    PseudonymizeFinanceData.equivalent_class[('영업 겸용 단독주택', 'Y', 'Y') ], :][
    (DATA_FINANCE["AMT_CREDITLOAN"] >= 0) & (DATA_FINANCE["AMT_CASHADVANCE_PAYMENT"] > 8000000)] 


  test2 = DATA_FINANCE.iloc[


In [9]:
test1

Unnamed: 0,NUM_SERIAL,NAME,GENDER,AGE,PHONE_NUMBER,ZIP_CODE,HOME_ADDRESS,HOME_TYPE,INCOME_BRACKET,CREDIT_SCORE,REPAYMENT_RISK_INDEX,AMT_CREDITCARD_PAYMENT,AMT_CASHADVANCE_PAYMENT,NUM_CREDITCARD_ISSUANCES,NUM_CREDITCARD_CANCELED,TF_LOAN,AMT_CREDITLOAN,AMT_CREDITLOAN_OUTSTANDING,TF_PENSION,AMT_PENSION
16945,16945,노보운,female,68,010-5054-7449,58013,전라남도 순천시 해룡면 송산3길 5-4,비거주용 건물(상가,4,480,24,5191750,9995335,1,3,Y,45084003,32561516,Y,0
39955,39955,나일함,female,55,010-2269-5888,14614,경기도 부천시 신흥로73번길 64-5(심곡동),비거주용 건물(상가,7,912,61,3922312,9542346,5,2,Y,7487035,7149583,Y,0
42258,42258,한돈운,male,64,010-6817-7278,37765,경상북도 포항시 남구 중흥로152번길 30-1(상도동),비거주용 건물(상가,7,755,48,1285166,9022686,5,4,Y,31866241,10695604,Y,0
66544,66544,전황규,male,70,010-4074-9938,16204,"경기도 수원시 장안구 수일로 74-1(파장동, 오룡스카이빌라)",비거주용 건물(상가,3,202,19,5336631,8096377,1,2,Y,21133736,9713815,Y,0
66994,66994,민일등,male,60,010-0690-5690,21120,인천광역시 계양구 계양대로 36(작전동),비거주용 건물(상가,5,832,18,7472815,8179426,3,5,Y,30347153,7867486,Y,0
72227,72227,정신려,female,68,010-3221-3987,57706,전라남도 광양시 진상면 삼정길 68,비거주용 건물(상가,6,620,58,9308446,8432317,7,4,Y,47844105,23424363,Y,0


In [10]:
test2

Unnamed: 0,NUM_SERIAL,NAME,GENDER,AGE,PHONE_NUMBER,ZIP_CODE,HOME_ADDRESS,HOME_TYPE,INCOME_BRACKET,CREDIT_SCORE,REPAYMENT_RISK_INDEX,AMT_CREDITCARD_PAYMENT,AMT_CASHADVANCE_PAYMENT,NUM_CREDITCARD_ISSUANCES,NUM_CREDITCARD_CANCELED,TF_LOAN,AMT_CREDITLOAN,AMT_CREDITLOAN_OUTSTANDING,TF_PENSION,AMT_PENSION
47571,47571,정인붕,male,58,010-6259-8008,49073,부산광역시 영도구 상록수길 80(신선동3가),영업 겸용 단독주택,6,893,5,3036229,8346017,8,0,Y,41883762,7047880,Y,0
49020,49020,배가랑,male,76,010-3642-0324,12073,경기도 남양주시 진접읍 남가로131번길 96,영업 겸용 단독주택,5,895,69,6951609,9680143,10,0,Y,18105830,18012667,Y,0
65518,65518,양석석,male,68,010-0570-8367,50427,경상남도 밀양시 백민로 34-4(내이동),영업 겸용 단독주택,7,933,89,3430356,8495763,6,3,Y,38804832,19926059,Y,0
71768,71768,기미현,female,56,010-7971-0819,2829,서울특별시 성북구 동소문로25길 6-8(동선동4가),영업 겸용 단독주택,8,845,54,7359147,9068682,3,4,Y,17498664,7053669,Y,0
74785,74785,안혜린,female,76,010-7355-8799,39683,경상북도 김천시 조마면 장암1길 288-19,영업 겸용 단독주택,6,535,32,969903,8427629,7,0,Y,8301036,708952,Y,0


In [15]:
test1["TARGET"] = test1["NAME"] + "" + test1["GENDER"] + "" + test1["PHONE_NUMBER"]

In [16]:
test1["TARGET"]

16945    노보운female010-5054-7449
39955    나일함female010-2269-5888
42258      한돈운male010-6817-7278
66544      전황규male010-4074-9938
66994      민일등male010-0690-5690
72227    정신려female010-3221-3987
Name: TARGET, dtype: object

In [17]:
test1["TARGET"][16945]

'노보운female010-5054-7449'

In [18]:
test1

Unnamed: 0,NUM_SERIAL,NAME,GENDER,AGE,PHONE_NUMBER,ZIP_CODE,HOME_ADDRESS,HOME_TYPE,INCOME_BRACKET,CREDIT_SCORE,...,AMT_CREDITCARD_PAYMENT,AMT_CASHADVANCE_PAYMENT,NUM_CREDITCARD_ISSUANCES,NUM_CREDITCARD_CANCELED,TF_LOAN,AMT_CREDITLOAN,AMT_CREDITLOAN_OUTSTANDING,TF_PENSION,AMT_PENSION,TARGET
16945,16945,노보운,female,68,010-5054-7449,58013,전라남도 순천시 해룡면 송산3길 5-4,비거주용 건물(상가,4,480,...,5191750,9995335,1,3,Y,45084003,32561516,Y,0,노보운female010-5054-7449
39955,39955,나일함,female,55,010-2269-5888,14614,경기도 부천시 신흥로73번길 64-5(심곡동),비거주용 건물(상가,7,912,...,3922312,9542346,5,2,Y,7487035,7149583,Y,0,나일함female010-2269-5888
42258,42258,한돈운,male,64,010-6817-7278,37765,경상북도 포항시 남구 중흥로152번길 30-1(상도동),비거주용 건물(상가,7,755,...,1285166,9022686,5,4,Y,31866241,10695604,Y,0,한돈운male010-6817-7278
66544,66544,전황규,male,70,010-4074-9938,16204,"경기도 수원시 장안구 수일로 74-1(파장동, 오룡스카이빌라)",비거주용 건물(상가,3,202,...,5336631,8096377,1,2,Y,21133736,9713815,Y,0,전황규male010-4074-9938
66994,66994,민일등,male,60,010-0690-5690,21120,인천광역시 계양구 계양대로 36(작전동),비거주용 건물(상가,5,832,...,7472815,8179426,3,5,Y,30347153,7867486,Y,0,민일등male010-0690-5690
72227,72227,정신려,female,68,010-3221-3987,57706,전라남도 광양시 진상면 삼정길 68,비거주용 건물(상가,6,620,...,9308446,8432317,7,4,Y,47844105,23424363,Y,0,정신려female010-3221-3987


## 암호화 클래스 작성

In [11]:
import hashlib
import Crypto
import os

In [12]:
class preProcessData:
    """암호화 대상 데이터 dataframe 단위 값 전처리"""
    def __init__(self):
        pass

    def divideColumns(self):
        """암호화 대상 / 비대상 데이터 컬럼 분리"""
        pass

    def combineTargetData(self):
        """암호화 대상 데이터 컬럼 단위 결합"""
        pass

    def combineAllData(self):
        """암호화 결과값 및 나머지 컬럼 합치기"""
        pass

    def processData(self):
        """위 메소드 3개 순서대로 작동시켜 데이터 전처리하기"""
        pass

In [23]:
class hashData:
    """해시 알고리즘 적용 일방향 암호화"""
    def __init__(self, data):
        self.data = data

    def addSalt(self):
        """암호화 대상 데이터에 Salt값 붙이기"""
        pass

    def applySHA256(self, data):
        """해시 알고리즘 SHA256 적용"""
        result = hashlib.sha256(data.encode())
        return result

    def selectFinalData(self):
        """암호화된 결과값과 암호화 비대상 데이터를 합친 dataframe 형태 결과물 출력"""
        pass

In [14]:
class blockFuncData:
    """블록함수 적용 양방향 암호화"""
    def __init__(self):
        self.data = data

    def applyAES256(self, data):
        """암호화 대상 데이터에 블록함수 AES256 적용"""
        pass

    def selectFinalData(self):
        """암호화된 결과값과 암호화 비대상 데이터를 합친 dataframe 형태 결과물 출력"""
        pass

## 암호화 클래스 적용

In [24]:
hd = hashData(test1)

In [25]:
hd.applySHA256(test1["TARGET"][16945])

<sha256 _hashlib.HASH object @ 0x160e5bab0>