### 0. 필요한 라이브러리 로드

In [35]:
import pymysql
from sqlalchemy import create_engine
# pip install mysqlclient

from abc import ABC, abstractmethod
from typing import *
import re

from prettytable import PrettyTable
import pandas as pd
pd.options.display.float_format = '{:.10f}'.format
import pprint

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### 1. 결합대상정보 테이블 쿼리 클래스

* MySQL Server와 Python Script를 연동하여 스키마의 테이블에 쿼리를 날려 데이터를 추출하는 클래스

* 다른 데이터베이스 엔진에 대한 구현을 확장 및 유지보수하기 위해 추상화 클래스를 사용하여 인터페이스 정의

In [36]:
# import pymysql
# from abc import ABC, abstractmethod

class PreprocessQuery(ABC):
    """가명처리를 위한 개인정보 추출 목적의 SQL쿼리 추상클래스"""
    @abstractmethod
    def connectDatabase(self):
        """데이터베이스에 연결하기 위해 접속하는 메서드"""
        pass
    
    @abstractmethod
    def executeQuery(self, SQL):
        """SQL쿼리를 실행하는 메서드"""
        pass
    
    @abstractmethod
    def closeConnection(self):
        """데이터베이스와의 연결을 종료하는 메서드"""
        pass

In [37]:
# from pseudonymizer.encryptionPseudonyms.abstractpreprocessQuery import PreprocessQuery
# from typing import *

class PyMySQLQuery(PreprocessQuery):
    """MySQL Server데이터베이스에 연결하고 쿼리를 실행하여 데이터를 추출하는 클래스"""
    def __init__(self, pw):
        self._pw = pw
        self.DBconnection = ConnectMySQLserver(self._pw)
        self.SQL = None
    
    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """MySQL DBMS 데이터베이스에 접속하는 메서드"""
        self.DBconnection.connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)
    
    def dataQueryLanguage(self, sql):
        """SQL쿼리문 작성 메서드(데이터 추출 쿼리문 캡슐화)"""
        self.SQL = f"{sql}"
    
    def executeQuery(self):
        """SQL쿼리문 실행 및 예외처리 메서드(데이터베이스로 쿼리를 보내서 실행)"""
        try:
            action_output = self.DBconnection.cursor.execute(self.SQL)
            return action_output
        except pymysql.Error as e:
            print(f"Error Executing Query: {e}")

    def useFetchallQuery(self):
        """SQL 쿼리 실행 결과의 cursor.fetchall() 을 사용할 수 있도록 하는 메서드"""
        try:
            action_output = self.DBconnection.cursor.execute(self.SQL)
            records = self.DBconnection.cursor.fetchall()
            return records
        except pymysql.Error as e:
            print(f"Executing query error: {e}")


    
    def commitTransaction(self):
        """실행결과를 확정(트랜잭션을 커밋)하는 메서드"""
        self.DBconnection.connection.commit()
    
    def closeConnection(self):
        """데이터베이스와의 연결을 종료하는 메서드"""
        self.DBconnection.close_connection()
        
    def executeQueryAsDataFrame(self):
        """SQL 쿼리를 실행한 결과를 판다스 데이터프레임으로 출력하는 메서드"""
        try:
            action_output = self.DBconnection.cursor.execute(self.SQL)
            records = self.DBconnection.cursor.fetchall()
            attributes = [i[0] for i in self.DBconnection.cursor.description]
            querydata = pd.DataFrame(records, columns = attributes)
            return querydata
        
        except pymysql.Error as e:
            print(f"Executing query error: {e}")

In [38]:
class ConnectMySQLserver:
    """데이터베이스 엔진을 연동하기 위한 접속 및 연결 종료 클래스"""
    def __init__(self, pw):
        self._pw = pw
        self.connection = None
        self.cursor = None
    
    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """MySQL DBMS 데이터베이스에 접속 메서드
        : 서버IP주소, 사용자명, 계정 암호, 데이터베이스명, 한글 인코딩 방식"""
        try:
            self.connection = pymysql.connect(
                host=serverIP, port=port_num,
                user=user_name, password=self._pw,
                db=database_name, charset=kr_encoder
            )
            self.cursor = self.connection.cursor()
        except pymysql.Error as e:
            print(f"Error Connecting to MySQL from Python: {e}")
    
    def closeConnection(self):
        """연결 및 커서 닫기 메서드"""
        if self.cursor:
            self.cursor.close()
        if self.connection:
            self.connection.close()

In [39]:
queryObject = PyMySQLQuery(pw = "1234")

In [40]:
queryObject.connectDatabase(
    serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8")

In [8]:
SQL = input("SQL 쿼리문 입력변수 = ")
# DATA_FINANCE
# DATA_RETAIL
# DATA_MOBILE_COMMUNICATION
# DATA_JOIN_CARDPAYMENT
# DATA_JOIN_ACCOMODATIONAPP

SQL 쿼리문 입력변수 =  select * from DATA_JOIN_ACCOMODATIONAPP 	inner join DATA_JOIN_CARDPAYMENT 		on DATA_JOIN_ACCOMODATIONAPP.NAME = DATA_JOIN_CARDPAYMENT.NAME;


In [9]:
queryObject.dataQueryLanguage(sql = SQL)

In [10]:
results = queryObject.executeQueryAsDataFrame()

In [12]:
results.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47359 entries, 0 to 47358
Data columns (total 19 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   NUM_SERIAL                     47359 non-null  int64 
 1   NAME                           47359 non-null  object
 2   BIRTH_DATE                     47359 non-null  object
 3   GENDER                         47359 non-null  object
 4   EMAIL                          47359 non-null  object
 5   PHONE_NUMBER                   47359 non-null  object
 6   TF_BUSINESS_MEMBER             47359 non-null  object
 7   USE_SERVICE_AREA               47359 non-null  object
 8   USE_SERVICE_DATE               47359 non-null  object
 9   NUM_SERIAL                     47359 non-null  int64 
 10  NAME                           47359 non-null  object
 11  GENDER                         47359 non-null  object
 12  PHONE_NUMBER                   47359 non-null  object
 13  B

```
if results:
    columns = [ [desc[0] for desc in queryObject.cursor.description] ]
    table = PrettyTable(*columns)
    
    for row in results:
        row_list = list(row)
        table.add_row(row_list)
    print(table)
```

### 1.2. 데이터베이스 엔진만 구현해서 테이블을 판다스 데이터프레임으로 로드하는 방식

* 테스트 편의를 위해 임시로 활용

In [7]:
engine = create_engine(
    "mysql://root:1234@localhost/FINANCIALCONSUMER", 
    convert_unicode = True)

  engine = create_engine(


In [41]:
conn = engine.connect()

In [42]:
DATA_FINANCE = pd.read_sql_table("DATA_FINANCE", conn)
DATA_RETAIL = pd.read_sql_table("DATA_RETAIL", conn)
DATA_MOBILE_COMMUNICATION = pd.read_sql_table("DATA_MOBILE_COMMUNICATION", conn)
DATA_JOIN_CARDPAYMENT = pd.read_sql_table("DATA_JOIN_CARDPAYMENT", conn)
DATA_JOIN_ACCOMODATIONAPP = pd.read_sql_table("DATA_JOIN_ACCOMODATIONAPP", conn)

### * 상속용 클래스
- 클래스 1 : 테이블 분할하여 DB에 저장
- 클래스 2 : 테이블 JOIN하여 DB에 저장
- 해당 클래스들을 상속하여 이후 DB 컨트롤 및 실행클래스 내 활용에 사용

In [43]:
class DivideMySQL(PyMySQLQuery):
    """테이블을 분할하여 DB에 저장하는 클래스"""
    def insertDB(self):
        pass

In [44]:
class JoinMySQL(PyMySQLQuery):
    """테이블 여러개를 Join하여 DB에 저장하는 클래스"""
    def joinDB(self):
        pass

### 2. 결합키 생성 항목 및 결합대상정보(가명정보) 분할 클래스
- 전체 정보에 일련번호 부여
   - 일련번호 구성 : 테이블명 + 행번호
- DB에서 결합키 생성 항목 select → 원 데이터와 다른 스키마에 집어넣기
   - INSERT INTO 다른스키마명.다른테이블명 (a, b) SELECT a, b FROM 현재스키마명.원래테이블명;
   - 결합키 생성항목 + 일련번호 구성으로 테이블 만들기
- DB에서 결합대상정보 select → 원 데이터와 동일 혹은 다른 스키마에 집어넣기
   - CREATE TABLE 현재스키마명.남은테이블명 AS SELECT c, d, e FROM 현재스키마명.원래테이블명;
   - 결합대상정보 + 일련번호 구성으로 테이블 만들기

In [45]:
class InsertKey(DivideMySQL):
    """결합키 생성항목 DB 분할 삽입 클래스"""
    def __init__(self, pw: str, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        self.pw = pw
        super().__init__(pw = self.pw)
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)


    def addSerialNum(self, data: str, serial_col: str, serial_text: str):
        """SQL로 원본 데이터에 일련번호 부여하기 메서드
           일련번호 형태를 테이블명+행번호가 기본, 혹은 table이 이름이면 t1, t2, t3 이렇게 진행되도록 하기
        """
        # 컬럼명 중복시 해당 컬럼 삭제
        super().dataQueryLanguage(f"ALTER TABLE {data} DROP COLUMN {serial_col}")
        super().executeQuery()
        
        # 컬럼 만들기
        make_column = f"ALTER TABLE {data} ADD COLUMN {serial_col} VARCHAR(1000)"
        super().dataQueryLanguage(make_column)
        super().executeQuery()

        # 값 할당
        super().dataQueryLanguage("SET @counter = 0;")
        super().executeQuery()
        
        super().dataQueryLanguage(f"UPDATE {data} SET {serial_col} = CONCAT('{serial_text}', @counter := @counter + 1);")
        super().executeQuery()

    def insertDB(self, data: str, schema_name: str, table_name: str, serial_col: str, columns: list, key_col: str):
        """결합키 생성 항목 columns를 받아 DB에 입력하는 메서드"""
        join_columns = ', '.join(columns)

        super().dataQueryLanguage(f"DROP TABLE IF EXISTS {schema_name}.{table_name}")
        super().executeQuery()
        
        sql = f"CREATE TABLE {schema_name}.{table_name} AS SELECT {serial_col}, {join_columns} FROM {data}"
        super().dataQueryLanguage(sql)
        super().executeQuery()

        # 결합키 컬럼 만들기
        super().dataQueryLanguage(f"ALTER TABLE {schema_name}.{table_name} ADD COLUMN {key_col} VARCHAR(1000)")
        super().executeQuery()

        super().dataQueryLanguage(f"UPDATE {schema_name}.{table_name} SET {key_col} = CONCAT({join_columns})")
        super().executeQuery()

    

In [46]:
class InsertTargets(DivideMySQL):
    """결합대상정보 DB 분할 삽입 클래스"""
    def __init__(self, pw: str, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        self.pw = pw
        super().__init__(pw = self.pw)
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def insertDB(self, data: str, schema_name: str, table_name: str, columns: list):
        """결합대상정보 DB 입력 메서드
           : 원래 테이블을 복사한 뒤, 결합키 생성항목 columns를 제거하여 생성
        """
        super().dataQueryLanguage(f"DROP TABLE IF EXISTS {schema_name}.{table_name}")
        super().executeQuery()
        
        create_sql = f"CREATE TABLE {schema_name}.{table_name} AS SELECT * FROM {data}"
        super().dataQueryLanguage(create_sql)
        super().executeQuery()

        for column in columns:
            drop_sql = f"ALTER TABLE {schema_name}.{table_name} drop {column}"
            super().dataQueryLanguage(drop_sql)
            super().executeQuery()

### 3. 결합키 · 일련번호 · 결합키연계정보 · SALT값 생성 클래스
- 사전에 만든 결합대상정보 + 일련번호 구성 테이블 가져오기 (데이터 갯수만큼 반복)
- SALT값 직접 생성해야 할 경우 난수생성 함수로 SALT값 만들기
- 결합대상정보 컬럼 합친 뒤 암호화하여 결합키 생성 : 데이터프레임 작업
- 결합키 기준으로 일련번호 결합하여 매핑테이블 만들기 : 데이터프레임 작업
    - 입력값, 출력값 모두 데이터프레임 
    - SELECT * from 데이터1 INNER JOIN 데이터2 ON 데이터1.결합키 = 데이터2.결합키; (마지막 데이터까지 반복해서 합치기)
- 데이터프레임에서 결합키 제거

#### 매핑테이블 생성 클래스


In [48]:
class CreateMappingTable(JoinMySQL):
    """결합키연계정보, 일련번호, 결합키, SALT 등 매핑테이블 만드는 클래스"""
    def __init__(self, pw: str, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        self.pw = pw
        self._createKeyCol = None
        super().__init__(pw = self.pw)
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def addCreateKeyCol(self, createKeyCol: CreateKeyCol):
        self._createKeyCol = createKeyCol

    def createCryptoKey(self, schemas: list, tables: list, func: str, salt_col: str, key_col: str):
        """SALT값을 만든 뒤 결합키를 암호화하는 메서드"""
        for i, table in enumerate(tables):
            self._createKeyCol.createSalt(schemas[i], table, salt_col, key_col)
            self._createKeyCol.createKey(schemas[i], func, table, salt_col, key_col)

    def renameCol(self, schemas: list, tables: list, serial_col: str, suffixes: list):
        """테이블별로 serial_col 이었던 컬럼명을 {serial_col}_{suffixes[i]} 형태로 바꾸는 메서드"""
        for i in range(len(tables)):
            super().dataQueryLanguage(f"ALTER TABLE {schemas[i]}.{tables[i]} RENAME COLUMN {serial_col} to {serial_col}_{suffixes[i]}")
            super().executeQuery()

    def joinDB(self, schemas: list, tables: list, serial_col: str, suffixes: list, result_schema: str, result_table: str, key_col: str):
        """일련번호를 결합키 기준으로 결합하여 매핑테이블 만드는 메서드

           예시 구문 : 
           CREATE table joined_view2 AS
           SELECT serialnum_2, serialnum_3, new_table_concat_r.result 
           FROM new_table_concat_r
           INNER JOIN new_table_concat_2 ON new_table_concat_r.result = new_table_concat_2.result;
           
           
        """
        super().dataQueryLanguage(f"DROP TABLE IF EXISTS {result_schema}.{result_table}")
        super().executeQuery()

        create_sql = f"CREATE TABLE {result_schema}.{result_table} AS "
        select_sql = f"SELECT {schemas[0]}.{tables[0]}.{key_col}, {schemas[0]}.{tables[0]}.{serial_col}_{suffixes[0]}, {schemas[1]}.{tables[1]}.{serial_col}_{suffixes[1]}  "
        from_sql = f"FROM {schemas[0]}.{tables[0]} "
        join_sql = f"INNER JOIN {schemas[1]}.{tables[1]} ON {schemas[0]}.{tables[0]}.{key_col} = {schemas[1]}.{tables[1]}.{key_col} "

        if len(tables) > 2:
            for i in range(2, len(tables)):
                select_sql += f"{serial_col}_{suffixes[i]}, "
                join_sql += f"INNER JOIN {schemas[i]}.{tables[i]} ON {schemas[0]}.{tables[0]}.{key_col} = {schemas[i]}.{tables[i]}.{key_col} "
        else:
            pass

        select_sql = select_sql[:-2] + " "

        sql = create_sql + select_sql + from_sql + join_sql

        super().dataQueryLanguage(sql)
        super().executeQuery()

#### 암호화 클래스
- 매핑테이블에서 결합키가 들어간 특정 컬럼을 지정하여 SHA256, SHA512 함수를 통해 암호화
    - 해당 암호화는 MySQL 내장함수를 활용하여 ```UPDATE cardkey2 SET joinkey = SHA2(joinkey, 256);``` 과 같은 형태로 진행

- 해당 목표를 위해 결합키에 대한 salt값을 생성한 뒤 SALT 컬럼에 입력 (os.urandom() 으로 값 만든 뒤 SQL에 넣을 예정)

In [47]:
import os
import binascii

class CreateKeyCol(PyMySQLQuery):
    """SALT값을 더해 결합키를 암호화하는 클래스"""
    def __init__(self, pw: str, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        self.pw = pw
        self.kr_encoder = kr_encoder
        super().__init__(pw = self.pw)
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def createKey(self, func: str, schema: str, table: str, key_col: str, salt_col: str):
        """결합키 암호화 방식을 선택하여 실행시키는 메서드"""
        if func == "SHA256":
            self.applySHA256(schema, table, salt_col, key_col)
        elif func == "SHA512":
            self.applySHA512(schema, table, salt_col, key_col)

    def createSalt(self, schema: str, table: str, salt_col: str, key_col: str):
        """SALT값을 만들어 테이블 특정 컬럼에 붙이는 메서드"""
        # SALT값 컬럼 만들기
        super().dataQueryLanguage(f"ALTER TABLE {salt_col} VARCHAR(1000)")
        super().executeQuery()

        # SALT값을 만들고 컬럼에 입력하기
        super().dataQueryLanguage(f"SELECT * FROM {schema}.{table}")
        rows = super().useFetchallQuery()

        for row in rows:
            salt = binascii.hexlify(os.urandom(16)).decode(self.kr_encoder)
            sql = f"UPDATE {schema}.{table} SET {salt_col} = {salt} WHERE {key_col} = {row[0]}"
            super().dataQueryLanguage(sql)
            super().executeQuery()

            
    def applySHA256(self, schema: str, table: str, key_col: str, salt_col: str):
        """SHA256 해시함수를 통해 결합키 컬럼을 암호화하는 메서드"""
        sql = f"UPDATE {schema}.{table} SET {key_col} = SHA2(CONCAT({key_col}, {salt_col}), 256)"
        super().dataQueryLanguage(sql)
        super().executeQuery()

    def applySHA512(self, schema: str, table: str, key_col: str, salt_col: str):
        """SHA512 해시함수를 통해 결합키 컬럼을 암호화하는 메서드"""
        sql = f"UPDATE {schema}.{table} SET {key_col} = SHA2(CONCAT({key_col}, {salt_col}), 512)"
        super().dataQueryLanguage(sql)
        super().executeQuery()


### 4. 가명정보 결합 클래스
- 결합키 매핑테이블 가져오기
   - SELECT * from 매핑테이블
- 결합대상정보 가져오기 (일련번호 있음)
   - SELECT * from 결합대상정보
- 결합하기
   - 매핑테이블의 일련번호를 축으로 inner join 하기
   - A기관 결합대상정보 + A기관 일련번호, B기관 결합대상정보 + B기관 일련번호
   - SELECT * from 결합대상정보 INNER JOIN 매핑테이블 ON 결합대상정보.일련번호 = 매핑테이블.일련번호; (일련번호 컬럼 갯수만큼 반복)
   - 결합 결과 데이터프레임으로 리턴

In [19]:
help(JoinData)

Help on class JoinData in module __main__:

class JoinData(JoinMySQL)
 |  JoinData(pw: str, schema_name: str, result_name: str, mapping_table: str)
 |  
 |  매핑테이블의 일련번호를 기준으로 결합대상정보를 결합하는 클래스
 |  
 |  Method resolution order:
 |      JoinData
 |      JoinMySQL
 |      PyMySQLQuery
 |      PreprocessQuery
 |      abc.ABC
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __init__(self, pw: str, schema_name: str, result_name: str, mapping_table: str)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str)
 |      DB 연결 메서드
 |  
 |  joinDB(self, schemas: list, targets: list, serial_col: str, suffixes: list)
 |      매핑테이블의 일련번호를 기준으로 결합대상정보를 결합하는 메서드
 |      결합키를 제외한 컬럼명들을 SELECT에 나열하고, INNER JOIN을 한줄씩 더하기
 |  
 |  renameCol(self, targets: list, serial_col: str, suffixes: list)
 |      테이블별로 일련번호 붙이는 메서드. {serial_col}_{suffixes[i]} 형태의 컬럼명을 가짐.
 |  


In [49]:
class JoinData(JoinMySQL):
    """매핑테이블의 일련번호를 기준으로 결합대상정보를 결합하는 클래스"""
    def __init__(self, pw: str, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        self.pw = pw
        super().__init__(pw = self.pw)
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def renameCol(self, targets: list, serial_col: str, suffixes: list):
        """테이블별로 일련번호 붙이는 메서드. {serial_col}_{suffixes[i]} 형태의 컬럼명을 가짐."""
        for i in range(len(targets)):
            super().dataQueryLanguage(f"ALTER TABLE {targets[i]} RENAME COLUMN {serial_col} to {serial_col}_{suffixes[i]}")
            super().executeQuery()

    def joinDB(self, schemas: list, targets: list, serial_col: str, suffixes: list, mapping_schema: str, mapping_table: str, result_schema: str, result_table: str):
        """매핑테이블의 일련번호를 기준으로 결합대상정보를 결합하는 메서드
           결합키를 제외한 컬럼명들을 SELECT에 나열하고, INNER JOIN을 한줄씩 더하기
        """
        super().dataQueryLanguage(f"DROP TABLE IF EXISTS {result_schema}.{result_table}")
        super().executeQuery()

        create_sql = f"CREATE TABLE {result_schema}.{result_table} AS "
        select_sql = f"SELECT {mapping_schema}.{mapping_table}.*, "
        from_sql = f"FROM {mapping_schema}.{mapping_table} "
        join_sql = f""

    
        for i in range(len(targets)):
            # 컬럼명 전부 구하고 그중 매핑테이블 컬럼명 빼서 SELECT 구문에 포함시키기
            super().dataQueryLanguage(f"SELECT column_name FROM information_schema.columns WHERE table_schema = '{result_schema}' AND table_name = '{targets[i]}'")
            result = super().executeQueryAsDataFrame()

            li = result['COLUMN_NAME'].tolist()
            li.remove(f"{serial_col}_{suffixes[i]}")
            select_sql += f"{', '.join(li)}, "
            
            join_sql += f"INNER JOIN {schemas[i]}.{targets[i]} ON {schemas[i]}.{targets[i]}.{serial_col}_{suffixes[i]} = {mapping_table}.{serial_col}_{suffixes[i]}"
            
        select_sql = select_sql[:-2] + " "

        sql = create_sql + select_sql + from_sql + join_sql
        print(sql)

        super().dataQueryLanguage(sql)
        super().executeQuery()

### 5.1. 결합대상정보 반출 클래스
- 가명정보 결합 결과물 데이터프레임 가져오기
   - 가명정보 결합 결과물을 실행클래스 내에서 가져오기
- 매핑테이블에서 원 데이터별 전체 일련번호와 결합 결과물 일련번호 비교
- 가명정보 결합 결과물에서 희망하는 컬럼들을 골라 DB에 저장할 수 있도록 하기
    - 결합 결과물 + 결합 안된 결과물 일부 일련번호별로 추출하기

In [50]:
class ReleaseData(PyMySQLQuery):
    """결합대상정보 반출 클래스"""
    def __init__(self, external: bool, pw: str, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        self.pw = pw
        self.external = external
        super().__init__(pw = self.pw)
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def rateJoinedData(self, original_schema: str, original_table: str, joined_schema: str, joined_table: str):
        """결합률 확인 메서드
           * 결합률 = 결합된 레코드 수 / 원 레코드 수
        """
        super().dataQueryLanguage(f"SELECT COUNT(*) FROM {original_schema}.{original_table}")
        original_records = super().executeQueryAsDataFrame()['COUNT(*)'][0]

        super().dataQueryLanguage(f"SELECT COUNT(*) FROM {joined_schema}.{joined_table}")
        joined_records = super().executeQueryAsDataFrame()['COUNT(*)'][0]

        # print(original_records)
        print(joined_records)

        joined_rate = joined_records / original_records
        return joined_rate

    def releaseData(self, columns: list, original_schema: str, original_table: str, joined_schema: str, joined_table: str, 
                    result_schema: str, result_table: str, key_col: str):
        """가명정보 결합 결과물을 DB에 저장하는 메서드
           * JoinData 클래스 결과물 중 컬럼 선택

           * 예시 쿼리
           SELECT (컬럼 나열) FROM (결합결과 테이블) LEFT JOIN (원 테이블)
	        ON (결합결과 테이블).(serial_col) = (원 테이블).(serial_col);
        """
        rate = self.rateJoinedData(original_schema, original_table, joined_schema, joined_table)
        
        if self.external & rate >= 0.5:
            print("결합률이 50% 이상이므로 데이터 반출 불가합니다")
        else:
            super().dataQueryLanguage(f"DROP TABLE IF EXISTS {result_schema}.{result_table}")
            super().executeQuery()

            create_sql = f"CREATE TABLE {result_schema}.{result_table} AS "
            select_sql = f"SELECT {', '.join(columns)} FROM {joined_schema}.{joined_table} "
            join_sql = f"LEFT JOIN {original_schema}.{original_table} ON {joined_schema}.{joined_table}.{key_col} = {original_schema}.{original_table}.{key_col}"

            sql = create_sql + select_sql + join_sql

            super().dataQueryLanguage(sql)
            super().executeQuery()
        
    

### 5.2. 결합키연계정보(결합키와 일련번호의 매핑테이블) 및 SALT값 DB분리보관(이관)을 위한 추출 클래스
- 해당 기능은 CreateMappingTable 클래스의 insertMappingTable 메서드로 구현

### 5.3. 2 ~ 5.2 까지 전부 실행하는 클래스
* DB 테이블/뷰 여러개 집어넣기
* → 각 테이블/뷰에 일련번호 입력하기
* → 결합키 생성항목 및 결합대상정보로 각각 테이블 쪼개서 분할저장하기
* → 결합키 생성항목과 일련번호로 결합키 및 매핑테이블 만들어 저장하기, 여기에 더해 SALT값 만들고 컬럼 붙이기
* → 일련번호를 기준으로 각 테이블별 결합대상정보 합치기
* → 결합 결과물 중 원하는 컬럼을 골라 + 결합비대상정보와 합쳐 내보내기
* 해당 결과 위해 상속용 클래스 2개 생성


In [None]:
"""
    클래스별 필요한 입력값 정리
    - 결합키 입력 DB 스키마 & 테이블 이름
    - 결합대상정보 입력 DB 스키마 & 테이블 이름
    - 매핑테이블 DB 스키마 & 테이블 이름, serialcol_suffixes 형태에서 serialcol 이름과 suffixes 리스트
    - 결합대상정보 DB 스키마 & 테이블 이름, 매핑테이블 & 결합대상정보 테이블 이름, serialcol_suffixes 형태에서 serialcol 이름과 suffixes 리스트
    - 최종반출 결과물 DB 스키마 & 테이블 이름, 반출대상 컬럼명 리스트, 최종 결합결과 테이블 이름, 미결합 데이터 포함 위한 원본 테이블 이름

    +) 해당 입력값들 중 CryptoGraphy 영역, 긱 구체클래스 영역 구분
    +) 각 구체클래스 영역 입력값 중 __init__ 영역, 각 메서드 영역 구분 (현재는 DB pw만 __init__에서 입력)


    스키마, 테이블 이름은 각 클래스 __init__에서 직접 입력하기
    DB 구성값 (pw, host 등)은 실행클래스에서 입력 후 실행
    결합키-결합대상정보 분할용 스키마 & 테이블명 -> 각각 해당 구체클래스의 __init__에서 입력 
    매핑테이블-결합대상정보 만들기-반출대상 추출 -> 스키마 & 테이블명은 구체클래스 __init__에서 입력, serialcol 이름과 suffixes 리스트는 실행클래스에서 입력
"""

In [51]:
class PseudoCrypto(PyMySQLQuery):
    """클래스 전체 모아 최상위에서 실행하는 클래스"""
    def __init__(self, crypto_columns: list, serial_text: list, serial_col: str, suffixes: list):
        self._insertKey = None
        self._insertTarget = None
        self._createMappingTable = None
        self._joinData = None
        self._releaseData = None

        self._tables = None
        self._key_schemas = None
        self._key_results = None

        self._target_schemas = None
        self._target_results = None 

        self._mapping_schema = None
        self._mapping_table = None

        self._joined_schema = None
        self._joined_table = None

        self._original_schema = None
        self._original_table = None
        self._release_columns = None
        self._release_schema = None
        self._release_table = None
        self._key_col = None

        self._crypto_columns = crypto_columns
        self._serial_text = serial_text
        self._serial_col = serial_col
        self._suffixes = suffixes
        

    def connectDatabase(self, pw, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """DB 연결 메서드"""
        super().__init__(pw = pw)
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def addTableKeys(self, tables: list, key_schemas: list, key_results: list, key_col: str):
        self._tables = tables
        self._key_schemas = key_schemas
        self._key_results = key_results
        self._key_col = key_col


    def addTableTargets(self, target_schemas: list, target_results: list):
        self._target_schemas = target_schemas
        self._target_results = target_results

    def addMappingTable(self, mapping_schema: str, mapping_table: str):
        self._mapping_schema = mapping_schema
        self._mapping_table = mapping_table

    def addJoinedTable(self, joined_schema: str, joined_table: str):
        self._joined_schema = joined_schema
        self._joined_table = joined_table

    def addReleaseTable(self, release_columns: list, original_schema: str, original_table: str, release_schema: str, release_table: str):
        self._original_schema = original_schema
        self._original_table = original_table
        self._release_columns = release_columns
        self._release_schema = release_schema
        self._release_table = release_table
    
    def addInsertClass(self, insertKey, insertTarget):
        """InsertKey, InsertTarget 클래스 주입"""
        if isinstance(insertKey, InsertKey):
            self._insertKey = insertKey
        else:
            print("해당 클래스는 결합키생성항목 입력 클래스가 아닙니다")

        if isinstance(insertTarget, InsertTargets):
            self._insertTarget = insertTarget
        else:
            print("해당 클래스는 결합대상정보 입력 클래스가 아닙니다")

    def addCreateMappingTable(self, createMappingTable):
        """CreateMappingTable 클래스 주입"""
        if isinstance(createMappingTable, CreateMappingTable):
            self._createMappingTable = createMappingTable
        else:
            print("해당 클래스는 결합키연계정보 생성 클래스가 아닙니다")

    def addJoinData(self, joinData):
        """JoinData 클래스 주입"""
        if isinstance(joinData, JoinData):
            self._joinData = joinData
        else:
            print("해당 클래스는 가명정보 결합 클래스가 아닙니다")

    def addReleaseData(self, releaseData):
        """ReleaseData 클래스 주입"""
        if isinstance(releaseData, ReleaseData):
            self._releaseData = releaseData
        else:
            print("해당 클래스는 결합대상정보 반출 클래스가 아닙니다")

    def divideDB(self):
        # 각 테이블별로 일련번호를 self.serial_col 컬럼에 serial_text1, serial_text2 ... 형태로 붙이고, DB에 결합키와 결합대상정보를 분할
        for i, table in enumerate(self._tables):
            self._insertKey.addSerialNum(table, self._serial_col, self._serial_text[i])
            self._insertKey.insertDB(table, self._key_schemas[i], self._key_results[i], self._serial_col, self._crypto_columns, self._key_col)
            self._insertTarget.insertDB(table, self._target_schemas[i], self._target_results[i], self._crypto_columns)


    def cryptoGraphy(self):
        """CreateMappingTable, JoinData, ReleaseData 클래스 전부 순서대로 실행하기"""            
        # 매핑테이블을 만드는 과정에서 결합키 생성항목 컬럼의 self.serial_col 컬럼을 self.serial_col_suffix 로 바꾼 뒤, 결합키를 기준으로 일련번호 결합
        self._createMappingTable.renameCol(self._key_schemas, self._key_results, self._serial_col, self._suffixes)
        print("rename compleate")
        self._createMappingTable.createCryptoKey(self._key_results, self._salt_col, self._key_col)
        self._createMappingTable.joinDB(self._key_schemas, self._key_results, self._serial_col, self._suffixes, self._mapping_schema, self._mapping_table, self._key_col)
        print("mapping_table complete")

        # 테이블별 일련번호가 적힌 self.serial_col_suffix 컬럼을 기준으로 결합대상정보 테이블 결합
        self._joinData.renameCol(self._target_results, self._serial_col, self._suffixes)
        print("data rename complete")
        self._joinData.joinDB(self._target_schemas, self._target_results, self._serial_col, self._suffixes, self._mapping_schema, self._mapping_table, self._joined_schema, self._joined_table)
        print("data join complete")

        self._releaseData.releaseData(self._release_columns, self._original_schema, self._original_table, self._joined_schema, self._joined_table, self._release_schema, self._release_table, self._key_col)
        print("data release complete")
    

#### 테스트 케이스 1 : DATA_JOIN_CARDPAYMENT + DATA_JOIN_ACCOMODATIONAPP
1. DATA_JOIN_CARDPAYMENT 와 DATA_JOIN_ACCOMODATIONAPP 테이블의 일련번호를 각 테이블의 SERIALNUM 컬럼에서 C1~C10000 형태, A1~A10000 형태로 매기기
2. DATA_JOIN_CARDPAYMENT 와  테이블의 결합키대상정보를 CARDKEY와 APPKEY 테이블, 결합대상정보를 CARDTARGET, APPTARGET 테이블에 저장
3. CARDKEY와 APPKEY 테이블에서 결합키대상정보 컬럼 3개의 내용을 묶어서 JOINKEY 컬럼에 저장
4. CARDKEY와 APPKEY 테이블에서 일련번호를 저장하는 SERIALNUM 컬럼명을 각각 SERIALNUM_C, SERIALNUM_A 으로 변경
5. 결합키 JOINKEY 컬럼을 기준으로 CARDKEY와 APPKEY 테이블의 일련번호를 결합하여 매핑테이블 CARD_APP_MAP 생성
6. 매핑테이블의 각 일련번호 컬럼을 기준으로 CARDTARGET과 APPTARGET 테이블을 결합하여 JOINED_TARGET_CARD_APP 생성
7. JOINED_TARGET_CARD_APP 테이블에서 AFFILIGATESTORE_ADDRESS, AFFILIGATESTORE_INDUSTRY_CODE, USE_SERVICE_AREA, USE_SERVICE_DATE 컬럼을 뽑아 FINAL_RESULT 테이블에 저장. 이 과정에서 DATA_JOIN_ACCOMODATIONAPP 테이블과 비교하여 결합률을 선정하고 반출여부 심사.

In [58]:
cg = PseudoCrypto(crypto_columns=['NAME', 'BIRTH_DATE', 'GENDER'], serial_text=['C', 'A'], 
                  serial_col="SERIALNUM", suffixes=['C', 'A'])
cg.connectDatabase(pw="1234", serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8")

In [59]:
# cg.addTableKeys(tables=["DATA_JOIN_CARDPAYMENT", "DATA_JOIN_ACCOMODATIONAPP"], 
#                 key_schemas=["FINANCIALCONSUMER", "FINANCIALCONSUMER"],
#                 key_results=["CARDKEY", "APPKEY2"], key_col="JOINKEY")

cg.addTableKeys(tables=["DATA_JOIN_ACCOMODATIONAPP", "DATA_JOIN_CARDPAYMENT"], 
                key_schemas=["FINANCIALCONSUMER", "FINANCIALCONSUMER"],
                key_results=["APPKEY2", "CARDKEY"], key_col="JOINKEY")
cg.addTableTargets(target_schemas=["FINANCIALCONSUMER", "FINANCIALCONSUMER"],
                   target_results=["APPTARGET", "CARDTARGET"])

make_key = InsertKey(pw = "1234", serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")
make_target = InsertTargets(pw = "1234", serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")

cg.addInsertClass(insertKey=make_key, insertTarget=make_target)

In [54]:
cg.addMappingTable(mapping_schema="FINANCIALCONSUMER", mapping_table="CARD_APP_MAP")
mapping_table = CreateMappingTable(pw = "1234", serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")

cg.addCreateMappingTable(createMappingTable=mapping_table)

In [55]:
cg.addJoinedTable(joined_schema="FINANCIALCONSUMER", joined_table="JOINED_TARGET_CARD_APP")
join_data = JoinData(pw="1234", serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")
cg.addJoinData(joinData=join_data)

In [56]:
cg.addReleaseTable(release_columns=["AFFILIGATESTORE_ADDRESS", "AFFILIGATESTORE_INDUSTRY_CODE", "USE_SERVICE_AREA", "USE_SERVICE_DATE"],
                   original_schema="FINANCIALCONSUMER", original_table="DATA_JOIN_ACCOMODATIONAPP",
                   release_schema="FINANCIALCONSUMER", release_table="FINAL_RESULT")
release_data = ReleaseData(pw="1234", external=False, serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")
cg.addReleaseData(releaseData=release_data)

In [60]:
cg.divideDB()

In [53]:
cg.cryptoGraphy()

KeyboardInterrupt: 

#### 테스트 케이스 2 : DATA_FINANCE + DATA_RETAIL

In [29]:
ps = PseudoCrypto(crypto_columns=['NAME', 'GENDER', 'AGE'], serial_text=['R', 'F'], 
                  serial_col="SERIALNUM", suffixes=['R', 'F'])
ps.connectDatabase(pw="1234", serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8")

In [30]:
ps.addTableKeys(tables=["DATA_RETAIL", "DATA_FINANCE"], 
                key_schemas=["FINANCIALCONSUMER", "FINANCIALCONSUMER"],
                key_results=["RETAILKEY", "FINANCEKEY"], key_col="JOINKEY")
ps.addTableTargets(target_schemas=["FINANCIALCONSUMER", "FINANCIALCONSUMER"],
                   target_results=["RETAILTARGET", "FINANCETARGET"])

make_key2 = InsertKey(pw = "1234", serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")
make_target2 = InsertTargets(pw = "1234", serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")

ps.addInsertClass(insertKey=make_key2, insertTarget=make_target2)

In [31]:
ps.addMappingTable(mapping_schema="FINANCIALCONSUMER", mapping_table="RETAIL_FINANCE_MAP")
mapping_table2 = CreateMappingTable(pw = "1234", serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")

ps.addCreateMappingTable(createMappingTable=mapping_table2)

In [32]:
ps.addJoinedTable(joined_schema="FINANCIALCONSUMER", joined_table="JOINED_TARGET_FINANCE_RETAIL")
join_data2 = JoinData(pw="1234", serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")
ps.addJoinData(joinData=join_data2)

In [33]:
ps.addReleaseTable(release_columns=["HOME_TYPE", "CREDIT_SCORE", "SHIPPING_ADDRESS", "AMT_PURCHASES_BOOKS"],
                   original_schema="FINANCIALCONSUMER", original_table="DATA_FINANCE",
                   release_schema="FINANCIALCONSUMER", release_table="FINAL_RESULT")
release_data2 = ReleaseData(pw="1234", external=False, serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")
ps.addReleaseData(releaseData=release_data2)

In [34]:
ps.divideDB()