### 0. 필요한 라이브러리 로드

In [1]:
import pymysql
from sqlalchemy import create_engine
# pip install mysqlclient

from abc import ABC, abstractmethod
from typing import *
import re

from prettytable import PrettyTable
import pandas as pd
pd.options.display.float_format = '{:.10f}'.format
import pprint

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### 1. 결합대상정보 테이블 쿼리 클래스

* MySQL Server와 Python Script를 연동하여 스키마의 테이블에 쿼리를 날려 데이터를 추출하는 클래스

* 다른 데이터베이스 엔진에 대한 구현을 확장 및 유지보수하기 위해 추상화 클래스를 사용하여 인터페이스 정의

In [2]:
# import pymysql
# from abc import ABC, abstractmethod

class PreprocessQuery(ABC):
    """가명처리를 위한 개인정보 추출 목적의 SQL쿼리 추상클래스"""
    @abstractmethod
    def connectDatabase(self):
        """데이터베이스에 연결하기 위해 접속하는 메서드"""
        pass
    
    @abstractmethod
    def executeQuery(self, SQL):
        """SQL쿼리를 실행하는 메서드"""
        pass
    
    @abstractmethod
    def closeConnection(self):
        """데이터베이스와의 연결을 종료하는 메서드"""
        pass

In [3]:
# from pseudonymizer.encryptionPseudonyms.abstractpreprocessQuery import PreprocessQuery
# from typing import *

class PyMySQLQuery(PreprocessQuery):
    """MySQL Server데이터베이스에 연결하고 쿼리를 실행하여 데이터를 추출하는 클래스"""
    def __init__(self, pw):
        self._pw = pw
        self.DBconnection = ConnectMySQLserver(self._pw)
        self.SQL = None
    
    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """MySQL DBMS 데이터베이스에 접속하는 메서드"""
        self.DBconnection.connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)
    
    def dataQueryLanguage(self, sql):
        """SQL쿼리문 작성 메서드(데이터 추출 쿼리문 캡슐화)"""
        self.SQL = f"{sql}"
    
    def executeQuery(self):
        """SQL쿼리문 실행 및 예외처리 메서드(데이터베이스로 쿼리를 보내서 실행)"""
        try:
            action_output = self.DBconnection.cursor.execute(self.SQL)
            return action_output
        except pymysql.Error as e:
            print(f"Error Executing Query: {e}")
    
    def commitTransaction(self):
        """실행결과를 확정(트랜잭션을 커밋)하는 메서드"""
        self.DBconnection.connection.commit()
    
    def closeConnection(self):
        """데이터베이스와의 연결을 종료하는 메서드"""
        self.DBconnection.close_connection()
        
    def executeQueryAsDataFrame(self):
        """SQL 쿼리를 실행한 결과를 판다스 데이터프레임으로 출력하는 메서드"""
        try:
            action_output = self.DBconnection.cursor.execute(self.SQL)
            records = self.DBconnection.cursor.fetchall()
            attributes = [i[0] for i in self.DBconnection.cursor.description]
            querydata = pd.DataFrame(records, columns = attributes)
            return querydata
        
        except pymysql.Error as e:
            print(f"Executing query error: {e}")

In [4]:
class ConnectMySQLserver:
    """데이터베이스 엔진을 연동하기 위한 접속 및 연결 종료 클래스"""
    def __init__(self, pw):
        self._pw = pw
        self.connection = None
        self.cursor = None
    
    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """MySQL DBMS 데이터베이스에 접속 메서드
        : 서버IP주소, 사용자명, 계정 암호, 데이터베이스명, 한글 인코딩 방식"""
        try:
            self.connection = pymysql.connect(
                host=serverIP, port=port_num,
                user=user_name, password=self._pw,
                db=database_name, charset=kr_encoder
            )
            self.cursor = self.connection.cursor()
        except pymysql.Error as e:
            print(f"Error Connecting to MySQL from Python: {e}")
    
    def closeConnection(self):
        """연결 및 커서 닫기 메서드"""
        if self.cursor:
            self.cursor.close()
        if self.connection:
            self.connection.close()

In [5]:
queryObject = PyMySQLQuery(pw = "1234")

In [6]:
queryObject.connectDatabase(
    serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8")

In [8]:
SQL = input("SQL 쿼리문 입력변수 = ")
# DATA_FINANCE
# DATA_RETAIL
# DATA_MOBILE_COMMUNICATION
# DATA_JOIN_CARDPAYMENT
# DATA_JOIN_ACCOMODATIONAPP

SQL 쿼리문 입력변수 =  select * from DATA_JOIN_ACCOMODATIONAPP 	inner join DATA_JOIN_CARDPAYMENT 		on DATA_JOIN_ACCOMODATIONAPP.NAME = DATA_JOIN_CARDPAYMENT.NAME;


In [9]:
queryObject.dataQueryLanguage(sql = SQL)

In [10]:
results = queryObject.executeQueryAsDataFrame()

In [12]:
results.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47359 entries, 0 to 47358
Data columns (total 19 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   NUM_SERIAL                     47359 non-null  int64 
 1   NAME                           47359 non-null  object
 2   BIRTH_DATE                     47359 non-null  object
 3   GENDER                         47359 non-null  object
 4   EMAIL                          47359 non-null  object
 5   PHONE_NUMBER                   47359 non-null  object
 6   TF_BUSINESS_MEMBER             47359 non-null  object
 7   USE_SERVICE_AREA               47359 non-null  object
 8   USE_SERVICE_DATE               47359 non-null  object
 9   NUM_SERIAL                     47359 non-null  int64 
 10  NAME                           47359 non-null  object
 11  GENDER                         47359 non-null  object
 12  PHONE_NUMBER                   47359 non-null  object
 13  B

```
if results:
    columns = [ [desc[0] for desc in queryObject.cursor.description] ]
    table = PrettyTable(*columns)
    
    for row in results:
        row_list = list(row)
        table.add_row(row_list)
    print(table)
```

### 1.2. 데이터베이스 엔진만 구현해서 테이블을 판다스 데이터프레임으로 로드하는 방식

* 테스트 편의를 위해 임시로 활용

In [7]:
engine = create_engine(
    "mysql://root:1234@localhost/FINANCIALCONSUMER", 
    convert_unicode = True)

  engine = create_engine(


In [8]:
conn = engine.connect()

In [9]:
DATA_FINANCE = pd.read_sql_table("DATA_FINANCE", conn)
DATA_RETAIL = pd.read_sql_table("DATA_RETAIL", conn)
DATA_MOBILE_COMMUNICATION = pd.read_sql_table("DATA_MOBILE_COMMUNICATION", conn)
DATA_JOIN_CARDPAYMENT = pd.read_sql_table("DATA_JOIN_CARDPAYMENT", conn)
DATA_JOIN_ACCOMODATIONAPP = pd.read_sql_table("DATA_JOIN_ACCOMODATIONAPP", conn)

### * 상속용 클래스
- 클래스 1 : 테이블 분할하여 DB에 저장
- 클래스 2 : 테이블 JOIN하여 DB에 저장
- 해당 클래스들을 상속하여 이후 DB 컨트롤 및 실행클래스 내 활용에 사용

In [10]:
class DivideMySQL(PyMySQLQuery):
    """테이블을 분할하여 DB에 저장하는 클래스"""
    def insertDB(self):
        pass

In [11]:
class JoinMySQL(PyMySQLQuery):
    """테이블 여러개를 Join하여 DB에 저장하는 클래스"""
    def joinDB(self):
        pass

### 2. 결합키 생성 항목 및 결합대상정보(가명정보) 분할 클래스
- 전체 정보에 일련번호 부여
   - 일련번호 구성 : 테이블명 + 행번호
- DB에서 결합키 생성 항목 select → 원 데이터와 다른 스키마에 집어넣기
   - INSERT INTO 다른스키마명.다른테이블명 (a, b) SELECT a, b FROM 현재스키마명.원래테이블명;
   - 결합키 생성항목 + 일련번호 구성으로 테이블 만들기
- DB에서 결합대상정보 select → 원 데이터와 동일 혹은 다른 스키마에 집어넣기
   - CREATE TABLE 현재스키마명.남은테이블명 AS SELECT c, d, e FROM 현재스키마명.원래테이블명;
   - 결합대상정보 + 일련번호 구성으로 테이블 만들기

In [12]:
class InsertKey(DivideMySQL):
    """결합키 생성항목 DB 분할 삽입 클래스"""
    def __init__(self, data: str, pw: str, columns: list, serial_col: str):
        self.data = data
        self.pw = pw
        self.columns = columns
        self.serial_col = serial_col
        super().__init__(pw = self.pw)

    def addSerialNum(self, serial_text: str):
        """SQL로 원본 데이터에 일련번호 부여하기 메서드
           일련번호 형태를 테이블명+행번호가 기본, 혹은 table이 이름이면 t1, t2, t3 이렇게 진행되도록 하기

           * self.serial_col로 입력한 컬럼이 해당 테이블에 존재하는 경우 제거하고 작업하는 구문 삽입 필요
           * 해당 메서드 실행 클래스로 이전 가능성 있음
        """
        # super().dataQueryLanguage(f"ALTER TABLE {self.data} DROP COLUMN IF EXISTS {self.serial_col}")
        # super().executeQuery()
        
        # 컬럼 만들기
        make_column = f"ALTER TABLE {self.data} ADD COLUMN {self.serial_col} VARCHAR(1000)"
        super().dataQueryLanguage(make_column)
        super().executeQuery()

        # 값 할당
        super().dataQueryLanguage("SET @counter = 0;")
        super().executeQuery()
        
        super().dataQueryLanguage(f"UPDATE {self.data} SET {self.serial_col} = CONCAT('{serial_text}', @counter := @counter + 1);")
        super().executeQuery()

    def insertDB(self, table_name: str, schema_name: str):
        """결합키 생성 항목 DB 입력 메서드"""
        columns = ', '.join(self.columns)

        super().dataQueryLanguage(f"DROP TABLE IF EXISTS {schema_name}.{table_name}")
        super().executeQuery()
        
        sql = f"CREATE TABLE {schema_name}.{table_name} AS SELECT {self.serial_col}, {columns} FROM {self.data}"
        super().dataQueryLanguage(sql)
        super().executeQuery()

    

In [12]:
class InsertTargets(DivideMySQL):
    def __init__(self, data: str, pw: str, columns: list, serial_col: str):
        self.data = data
        self.pw = pw
        self.columns = columns
        self.serial_col = serial_col
        super().__init__(pw = self.pw)

    def addSerialNum(self, serial_text: str):
        """SQL로 원본 데이터에 일련번호 부여하기 메서드
           일련번호 형태를 테이블명+행번호가 기본, 혹은 table이 이름이면 t1, t2, t3 이렇게 진행되도록 하기

           * self.serial_col로 입력한 컬럼이 해당 테이블에 존재하는 경우 제거하고 작업하는 구문 삽입 필요
        """
        # super().dataQueryLanguage(f"ALTER TABLE {self.data} DROP COLUMN IF EXISTS {self.serial_col}")
        # super().executeQuery()
        
        # 컬럼 만들기
        make_column = f"ALTER TABLE {self.data} ADD COLUMN {self.serial_col} VARCHAR(1000)"
        super().dataQueryLanguage(make_column)
        super().executeQuery()

        # 값 할당
        super().dataQueryLanguage("SET @counter = 0;")
        super().executeQuery()

    def insertDB(self, table_name: str, schema_name: str):
        """결합대상정보 DB 입력 메서드"""
        super().dataQueryLanguage(f"DROP TABLE IF EXISTS {schema_name}.{table_name}")
        super().executeQuery()

        
        create_sql = f"CREATE TABLE {schema_name}.{table_name} AS SELECT * FROM {self.data}"
        super().dataQueryLanguage(create_sql)
        super().executeQuery()

        for column in self.columns:
            drop_sql = f"ALTER TABLE {schema_name}.{table_name} drop {column}"
            super().dataQueryLanguage(drop_sql)
            super().executeQuery()

### 3. 결합키 · 일련번호 · 결합키연계정보 · SALT값 생성 클래스
- 사전에 만든 결합대상정보 + 일련번호 구성 테이블 가져오기 (데이터 갯수만큼 반복)
- SALT값 직접 생성해야 할 경우 난수생성 함수로 SALT값 만들기
- 결합대상정보 컬럼 합친 뒤 암호화하여 결합키 생성 : 데이터프레임 작업
- 결합키 기준으로 일련번호 결합하여 매핑테이블 만들기 : 데이터프레임 작업
    - 입력값, 출력값 모두 데이터프레임 
    - SELECT * from 데이터1 INNER JOIN 데이터2 ON 데이터1.결합키 = 데이터2.결합키; (마지막 데이터까지 반복해서 합치기)
- 데이터프레임에서 결합키 제거


In [84]:
class CreateMappingTable(JoinMySQL):
    """결합키연계정보, 일련번호, 결합키, SALT 등 매핑테이블 만드는 클래스"""
    def __init__(self, pw: str):
        self.pw = pw
        super().__init__(pw = self.pw)

    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """DB 연결 메서드"""
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def createSalt(self):
        """SALT값 만드는 메서드"""
        pass

    def createKey(self):
        """데이터를 합쳐 암호화하여 결합키를 만드는 메서드"""
        pass

    def renameCol(self, tables: list, serial_col: str, suffixes: list):
        """테이블별로 일련번호 붙이는 메서드. {serial_col}_{suffixes[i]} 형태의 컬럼명을 가짐."""
        for i in range(len(tables)):
            super().dataQueryLanguage(f"ALTER TABLE {tables[i]} RENAME COLUMN {serial_col} to {serial_col}_{suffixes[i]}")
            super().executeQuery()

    def joinDB(self, schema_name: str, result_name: str, tables: list, key_col: str, serial_col: str, suffixes: list):
        """일련번호를 결합키 기준으로 결합하여 매핑테이블 만드는 메서드

           예시 구문 : 
           CREATE table joined_view2 AS
           SELECT serialnum_2, serialnum_3, new_table_concat_r.result
           FROM new_table_concat_r
           INNER JOIN new_table_concat_2 ON new_table_concat_r.result = new_table_concat_2.result;
           
        """
        super().dataQueryLanguage(f"DROP TABLE IF EXISTS {schema_name}.{result_name}")
        super().executeQuery()

        create_sql = f"CREATE TABLE {schema_name}.{result_name} AS "
        select_sql = f"SELECT {tables[0]}.{key_col}, {serial_col}_{suffixes[0]}, "
        from_sql = f"FROM {tables[0]} "
        join_sql = f"INNER JOIN {tables[1]} ON {tables[0]}.{key_col} = {tables[1]}.{key_col} "

        if len(tables) > 2:
            for i in range(2, len(tables)):
                select_sql += f"{serial_col}_{suffixes[i]}, "
                join_sql += f"INNER JOIN {tables[i]} ON {tables[0]}.{key_col} = {tables[i]}.{key_col} "
        else:
            pass

        select_sql = select_sql[:-2] + " "

        sql = create_sql + select_sql + from_sql + join_sql

        super().dataQueryLanguage(sql)
        super().executeQuery()

- CreateMappingTable 클래스 테스트

In [85]:
ct3 = CreateMappingTable(pw = "1234")
ct3.connectDatabase(serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8")

In [86]:
ct3.renameCol(tables = ["NEW_TABLE_R", "NEW_TABLE_TARGET"],
          serial_col = "SERIALNUM", suffixes=["2", "3"])

Error Executing Query: (1054, "Unknown column 'SERIALNUM' in 'new_table_r'")
Error Executing Query: (1054, "Unknown column 'SERIALNUM' in 'new_table_target'")


In [87]:
ct3.joinDB(schema_name = "FINANCIALCONSUMER", result_name = "JoinResult", 
           tables = ["NEW_TABLE_CONCAT_R", "NEW_TABLE_CONCAT_2"],
           key_col = "result", serial_col = "SERIALNUM", suffixes=["2", "3"])

- 샘플 데이터프레임으로 매핑테이블 만들기 (아래는 샘플데이터 만든 구문)
    - ```create table NEW_TABLE_CONCAT_R select SERIALNUM, concat(NAME, GENDER, AGE) as result from NEW_TABLE_R;```
    - ```create table NEW_TABLE_CONCAT_2 select SERIALNUM, concat(NAME, GENDER, AGE) as result from NEW_TABLE_2;```


In [13]:
queryObject.dataQueryLanguage("SELECT * FROM NEW_TABLE_CONCAT_R")
concat_r = queryObject.executeQueryAsDataFrame()

In [None]:
queryObject.dataQueryLanguage("SELECT * FROM NEW_TABLE_CONCAT_2")
concat_2 = queryObject.executeQueryAsDataFrame()

### 4. 가명정보 결합 클래스
- 결합키 매핑테이블 가져오기
   - SELECT * from 매핑테이블
- 결합대상정보 가져오기 (일련번호 있음)
   - SELECT * from 결합대상정보
- 결합하기
   - 매핑테이블의 일련번호를 축으로 inner join 하기
   - A기관 결합대상정보 + A기관 일련번호, B기관 결합대상정보 + B기관 일련번호
   - SELECT * from 결합대상정보 INNER JOIN 매핑테이블 ON 결합대상정보.일련번호 = 매핑테이블.일련번호; (일련번호 컬럼 갯수만큼 반복)
   - 결합 결과 데이터프레임으로 리턴

In [None]:
class JoinData2(JoinMySQL):
    """매핑테이블의 일련번호를 기준으로 결합대상정보를 결합하는 클래스"""
    def __init__(self, pw: str):
        self.pw = pw
        super().__init__(pw = self.pw)

    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """DB 연결 메서드"""
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def renameCol(self, targets: list, serial_col: str, suffixes: list):
        """테이블별로 일련번호 붙이는 메서드. {serial_col}_{suffixes[i]} 형태의 컬럼명을 가짐."""
        for i in range(len(targets)):
            super().dataQueryLanguage(f"ALTER TABLE {targets[i]} RENAME COLUMN {serial_col} to {serial_col}_{suffixes[i]}")
            super().executeQuery()

    def joinDB(self, schema_name: str, result_name: str, mapping_table: str, targets: list, serial_col: str, suffixes: list):
        """매핑테이블의 일련번호를 기준으로 결합대상정보를 결합하는 메서드"""
        super().dataQueryLanguage(f"DROP TABLE IF EXISTS {schema_name}.{result_name}")
        super().executeQuery()

        sql = f"CREATE TABLE {schema_name}.{result_name} AS SELECT * FROM {targets[0]}"

        for i in range(1, len(targets)):
            sql += f" NATURAL JOIN {targets[i]}"

        super().dataQueryLanguage(sql)
        super().executeQuery()

In [35]:
# 구 클래스
class JoinData(PyMySQLQuery):
    """매핑테이블의 일련번호를 기준으로 결합대상정보를 결합하는 클래스"""
    def __init__(self, pw: str):
        self.pw = pw
        super().__init__(pw = self.pw)

    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """DB 연결 메서드"""
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def getTable(self, table_name: str):
        """DB 테이블을 데이터프레임으로 가져오는 메서드"""
        super().dataQueryLanguage(f"SELECT * FROM {table_name}")
        table = super().executeQueryAsDataFrame()
        return table

    def joinData(self, mapping_table, targets: list, serial_col: str, suffixes: list):
        """매핑테이블의 일련번호를 기준으로 결합대상정보를 결합하는 메서드"""
        result = mapping_table
            
        for i in range(len(targets)):
            column = f"{serial_col}_{suffixes[i]}"
            targets[i].rename(columns = {serial_col : column}, inplace=True)
            result = pd.merge(result, targets[i], on = column, how = "inner")

        return result

    

- 샘플 결합대상정보 뽑아오기

In [36]:
queryObject.dataQueryLanguage("select * from NEW_TABLE_3")
target1 = queryObject.executeQueryAsDataFrame()

In [37]:
queryObject.dataQueryLanguage("select * from NEW_TABLE_TARGET;")
target2 = queryObject.executeQueryAsDataFrame()

In [38]:
jd = JoinData(pw = "1234")

In [39]:
jd.connectDatabase(
    serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8"
)

In [40]:
jd_result = jd.joinData(mapping_table = ct_result, targets = [target1, target2], serial_col = "SERIALNUM", suffixes=["2", "R"])

In [41]:
jd_result

Unnamed: 0,SERIALNUM_R,result,SERIALNUM_2,NUM_SERIAL_x,PHONE_NUMBER_x,ZIP_CODE_x,HOME_ADDRESS,HOME_TYPE,INCOME_BRACKET,CREDIT_SCORE,...,ZIP_CODE_y,SHIPPING_ADDRESS,NUM_PURCHASES_BOOKS,AMT_PURCHASES_BOOKS,NUM_PURCHASES_CULTURE,AMT_PURCHASES_CULTURE,NUM_PURCHASES_EDU,AMT_PURCHASES_EDU,AMT_USAGE_MEMBERSHIP,AMT_USAGE_GIFTCERTIFICATE
0,f1,맹수원male73,d37416,37415,010-7161-5648,26310,강원특별자치도 원주시 소초면 대왕고개길 53-13,"판잣집, 비닐하우스",4,132,...,26310,강원특별자치도 원주시 소초면 대왕고개길 53-13,949,8588542,858,21911531,7768,1743329,1201564,1569165
1,f2,가한성male44,d50732,50731,010-4411-3871,48235,부산광역시 수영구 연수로312번길 13(망미동),오피스텔,5,885,...,48235,부산광역시 수영구 연수로312번길 13(망미동),278,1696132,490,80849464,5430,5331234,1660142,967963
2,f3,진노순female59,d61430,61429,010-8299-4394,63207,제주특별자치도 제주시 신성로13길 26(이도이동),오피스텔,5,770,...,63207,제주특별자치도 제주시 신성로13길 26(이도이동),324,3843932,706,79898363,5974,8858371,3106686,1829878
3,f4,성간란female34,d76223,76222,010-8178-4332,42146,대구광역시 수성구 희망로36길 122-25(황금동),일반 단독주택,3,665,...,42146,대구광역시 수성구 희망로36길 122-25(황금동),720,9124604,384,87698526,677,22899412,576470,2423582
4,f5,프주희female49,d14711,14710,010-9654-3329,32932,충청남도 논산시 강경읍 금백로175번길 23,아파트,9,193,...,32932,충청남도 논산시 강경읍 금백로175번길 23,9,1412817,20,22057893,332,27086237,978040,901883
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80726,f84996,조양립female66,d78960,78959,010-3563-1984,17020,경기도 용인시 처인구 관전로 9-3(역북동),다세대주택,8,758,...,17020,경기도 용인시 처인구 관전로 9-3(역북동),233,383644,318,43174511,7581,9938963,2667,136798
80727,f84997,유찬엽female28,d21554,21553,010-2837-0382,36407,경상북도 영덕군 영해면 원구길 28-3,다가구 단독주택,9,950,...,36407,경상북도 영덕군 영해면 원구길 28-3,139,1365534,270,99210229,9758,46467833,915621,1222556
80728,f84998,김작향female36,d59938,59937,010-9707-4542,36929,경상북도 문경시 호계면 막곡길 39-4,다가구 단독주택,5,626,...,36929,경상북도 문경시 호계면 막곡길 39-4,351,944905,915,64036013,5488,46471629,103854,249169
80729,f84999,최충상female22,d82123,82122,010-4598-7996,32806,충청남도 계룡시 엄사면 번영4길 12-1,아파트,7,65,...,32806,충청남도 계룡시 엄사면 번영4길 12-1,578,9401781,477,28015271,3556,41935012,2360528,2680713


### 5.1. 결합대상정보 반출 클래스
- 가명정보 결합 결과물 데이터프레임 가져오기
   - 가명정보 결합 결과물을 실행클래스 내에서 가져오기
- 매핑테이블에서 원 데이터별 전체 일련번호와 결합 결과물 일련번호 비교
- 가명정보 결합 결과물에서 희망하는 컬럼들을 골라 DB에 저장할 수 있도록 하기
    - 결합 결과물 + 결합 안된 결과물 일부 일련번호별로 추출하기

In [106]:
class ReleaseData(PyMySQLQuery):
    """결합대상정보 반출 클래스"""
    def __init__(self, pw: str):
        self.pw = pw
        super().__init__(pw = self.pw)

    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """DB 연결 메서드"""
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)

    def getTable(self, table_name: str):
        """DB 테이블을 데이터프레임으로 가져오는 메서드"""
        super().dataQueryLanguage(f"SELECT * FROM {table_name}")
        table = super().executeQueryAsDataFrame()
        return table

    def getUnjoinedSerial(self, original_data, serial_col: str, mapping_table, suffix: str):
        """원 데이터와 매핑테이블을 비교하여 매핑테이블에 들어가지 못한 일련번호를 추출하는 메서드"""
        original_col = original_data[f"{serial_col}_{suffix}"]
        mapping_col = mapping_table[f"{serial_col}_{suffix}"]
        result = original_col[~original_col.isin(mapping_col)]
        return result

    def releaseData(self, data, unjoined_records, original_data, columns: list, table_name: str, schema_name: str, serial_col: str, engine):
        """가명정보 결합 결과물을 DB에 저장하는 메서드"""
        # 데이터 미결합분, 결합분 합치기
        unjoined_data = original_data[original_data[serial_col].isin(unjoined_records)]
        total_data = pd.concat([data, unjoined_data])

        result = pd.DataFrame()

        for column in columns:
            result[column] = total_data[column]

        result.to_sql(table_name, con=engine, if_exists='fail', index=False, schema=schema_name)

In [107]:
rd = ReleaseData(pw = "1234")

In [108]:
rd.connectDatabase(
    serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8"
)

In [109]:
unjoinedSerial = rd.getUnjoinedSerial(original_data=target1, serial_col = "SERIALNUM", mapping_table = ct_result, suffix = "2")

In [110]:
unjoinedSerial

10          d11
14          d15
16          d17
18          d19
19          d20
          ...  
94964    d94965
94971    d94972
94978    d94979
94991    d94992
94995    d94996
Name: SERIALNUM_2, Length: 14269, dtype: object

In [112]:
rd.releaseData(data = jd_result, unjoined_records=unjoinedSerial, original_data=target1, columns = ["HOME_TYPE", "INCOME_BRACKET", "TF_LOAN", "AMT_PURCHASES_BOOKS"], 
               table_name = "JOINED_TABLE", schema_name = "FINANCIALCONSUMER", serial_col = "SERIALNUM_2", engine = engine)

In [50]:
class ControlDB(ABC):
    """DB에 쿼리를 넣는 클래스를 묶어서 관리하기 위한 추상 클래스"""
    @abstractmethod
    def selectKey(self):
        """결합키관련정보를 제거하거나 남기는 메서드"""
        pass
    
    @abstractmethod
    def controlDB(self):
        """테이블을 SQL로 전달하는 메서드"""
        pass
    

### 5.2. 결합키연계정보(결합키와 일련번호의 매핑테이블) 및 SALT값 DB분리보관(이관)을 위한 추출 클래스
- 해당 기능은 CreateMappingTable 클래스의 insertMappingTable 메서드로 구현

### 5.3. 2 ~ 5.2 까지 전부 실행하는 클래스
* DB 테이블/뷰 여러개 집어넣기
* → 각 테이블/뷰에 일련번호 입력하기
* → 결합키 생성항목 및 결합대상정보로 각각 테이블 쪼개서 분할저장하기
* → 결합키 생성항목과 일련번호로 결합키 및 매핑테이블 만들어 저장하기, 여기에 더해 SALT값 만들고 컬럼 붙이기
* → 일련번호를 기준으로 각 테이블별 결합대상정보 합치기
* → 결합 결과물 중 원하는 컬럼을 골라 + 결합비대상정보와 합쳐 내보내기
* 해당 결과 위해 상속용 클래스 2개 생성


In [None]:
class CryptoGraphy(PyMySQLQuery):
    """클래스 전체 모아 최상위에서 실행하는 클래스"""
    def __init__(self, pw: str):
        self._pw = pw
        self._insertKey = None
        self._insertTarget = None
        self._createMappingTable = None
        self._joinData = None
        self._releaseData = None

    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """DB 연결 메서드"""
        super().connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)
    
    def addInsertClass(self, insertKey, insertTarget):
        """InsertKey, InsertTarget 클래스 주입"""
        if isinstance(insertKey, InsertKey):
            self._insertKey = insertKey
        else:
            print("해당 클래스는 결합키생성항목 입력 클래스가 아닙니다")

        if isinstance(insertTarget, InsertTarget):
            self._insertTarget = insertTarget
        else:
            print("해당 클래스는 결합대상정보 입력 클래스가 아닙니다")

    def addCreateMappingTable(self, createMappingTable):
        """CreateMappingTable 클래스 주입"""
        if isinstance(createMappingTable, CreateMappingTable):
            self._createMappingTable = createMappingTable
        else:
            print("해당 클래스는 결합키연계정보 생성 클래스가 아닙니다")

    def addJoinData(self, joinData):
        """JoinData 클래스 주입"""
        if isinstance(joinData, JoinData):
            self._joinData = joinData
        else:
            print("해당 클래스는 가명정보 결합 클래스가 아닙니다")

    def addReleaseData(self):
        """ReleaseData 클래스 주입"""
        if isinstance(releaseData, ReleaseData):
            self._releaseData = releaseData
        else:
            print("해당 클래스는 결합대상정보 반출 클래스가 아닙니다")

    def cryptoGraphy(self):
        """InsertKey-InsertTarget, CreateMappingTable, JoinData, ReleaseData 클래스 전부 순서대로 실행하기"""
        self._insertKey.insertDB()
        self._insertTarget.insertDB()
        self._createMappingTable.joinDB()
        self._joinData.joinDB()
        self._releaseData.releaseData()

    