### 0. 필요한 라이브러리 로드

In [1]:
import pymysql
from sqlalchemy import create_engine
# pip install mysqlclient

from abc import ABC, abstractmethod
from typing import *
import re

from prettytable import PrettyTable
import pandas as pd
pd.options.display.float_format = '{:.10f}'.format
import pprint

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### 1. 결합대상정보 테이블 쿼리 클래스

* MySQL Server와 Python Script를 연동하여 스키마의 테이블에 쿼리를 날려 데이터를 추출하는 클래스

* 다른 데이터베이스 엔진에 대한 구현을 확장 및 유지보수하기 위해 추상화 클래스를 사용하여 인터페이스 정의

In [2]:
# import pymysql
# from abc import ABC, abstractmethod

class PreprocessQuery(ABC):
    """가명처리를 위한 개인정보 추출 목적의 SQL쿼리 추상클래스"""
    @abstractmethod
    def connectDatabase(self):
        """데이터베이스에 연결하기 위해 접속하는 메서드"""
        pass
    
    @abstractmethod
    def executeQuery(self, SQL):
        """SQL쿼리를 실행하는 메서드"""
        pass
    
    @abstractmethod
    def closeConnection(self):
        """데이터베이스와의 연결을 종료하는 메서드"""
        pass

In [3]:
# from pseudonymizer.encryptionPseudonyms.abstractpreprocessQuery import PreprocessQuery
# from typing import *

class PyMySQLQuery(PreprocessQuery):
    """MySQL Server데이터베이스에 연결하고 쿼리를 실행하여 데이터를 추출하는 클래스"""
    def __init__(self, pw):
        self._pw = pw
        self.DBconnection = ConnectMySQLserver(self._pw)
        self.SQL = None
    
    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """MySQL DBMS 데이터베이스에 접속하는 메서드"""
        self.DBconnection.connectDatabase(serverIP, port_num, user_name, database_name, kr_encoder)
    
    def dataQueryLanguage(self, sql):
        """SQL쿼리문 작성 메서드(데이터 추출 쿼리문 캡슐화)"""
        self.SQL = f"{sql}"
    
    def executeQuery(self):
        """SQL쿼리문 실행 및 예외처리 메서드(데이터베이스로 쿼리를 보내서 실행)"""
        try:
            action_output = self.DBconnection.cursor.execute(self.SQL)
            return action_output
        except pymysql.Error as e:
            print(f"Error Executing Query: {e}")
    
    def commitTransaction(self):
        """실행결과를 확정(트랜잭션을 커밋)하는 메서드"""
        self.DBconnection.connection.commit()
    
    def closeConnection(self):
        """데이터베이스와의 연결을 종료하는 메서드"""
        self.DBconnection.close_connection()
        
    def executeQueryAsDataFrame(self):
        """SQL 쿼리를 실행한 결과를 판다스 데이터프레임으로 출력하는 메서드"""
        try:
            action_output = self.DBconnection.cursor.execute(self.SQL)
            records = self.DBconnection.cursor.fetchall()
            attributes = [i[0] for i in self.DBconnection.cursor.description]
            querydata = pd.DataFrame(records, columns = attributes)
            return querydata
        
        except pymysql.Error as e:
            print(f"Executing query error: {e}")

In [4]:
class ConnectMySQLserver:
    """데이터베이스 엔진을 연동하기 위한 접속 및 연결 종료 클래스"""
    def __init__(self, pw):
        self._pw = pw
        self.connection = None
        self.cursor = None
    
    def connectDatabase(self, serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """MySQL DBMS 데이터베이스에 접속 메서드
        : 서버IP주소, 사용자명, 계정 암호, 데이터베이스명, 한글 인코딩 방식"""
        try:
            self.connection = pymysql.connect(
                host=serverIP, port=port_num,
                user=user_name, password=self._pw,
                db=database_name, charset=kr_encoder
            )
            self.cursor = self.connection.cursor()
        except pymysql.Error as e:
            print(f"Error Connecting to MySQL from Python: {e}")
    
    def closeConnection(self):
        """연결 및 커서 닫기 메서드"""
        if self.cursor:
            self.cursor.close()
        if self.connection:
            self.connection.close()

In [5]:
queryObject = PyMySQLQuery(pw = "1234")

In [6]:
queryObject.connectDatabase(
    serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8")

In [8]:
SQL = input("SQL 쿼리문 입력변수 = ")
# DATA_FINANCE
# DATA_RETAIL
# DATA_MOBILE_COMMUNICATION
# DATA_JOIN_CARDPAYMENT
# DATA_JOIN_ACCOMODATIONAPP

SQL 쿼리문 입력변수 =  select * from DATA_JOIN_ACCOMODATIONAPP 	inner join DATA_JOIN_CARDPAYMENT 		on DATA_JOIN_ACCOMODATIONAPP.NAME = DATA_JOIN_CARDPAYMENT.NAME;


In [9]:
queryObject.dataQueryLanguage(sql = SQL)

In [10]:
results = queryObject.executeQueryAsDataFrame()

In [12]:
results.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47359 entries, 0 to 47358
Data columns (total 19 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   NUM_SERIAL                     47359 non-null  int64 
 1   NAME                           47359 non-null  object
 2   BIRTH_DATE                     47359 non-null  object
 3   GENDER                         47359 non-null  object
 4   EMAIL                          47359 non-null  object
 5   PHONE_NUMBER                   47359 non-null  object
 6   TF_BUSINESS_MEMBER             47359 non-null  object
 7   USE_SERVICE_AREA               47359 non-null  object
 8   USE_SERVICE_DATE               47359 non-null  object
 9   NUM_SERIAL                     47359 non-null  int64 
 10  NAME                           47359 non-null  object
 11  GENDER                         47359 non-null  object
 12  PHONE_NUMBER                   47359 non-null  object
 13  B

```
if results:
    columns = [ [desc[0] for desc in queryObject.cursor.description] ]
    table = PrettyTable(*columns)
    
    for row in results:
        row_list = list(row)
        table.add_row(row_list)
    print(table)
```

### 1.2. 데이터베이스 엔진만 구현해서 테이블을 판다스 데이터프레임으로 로드하는 방식

* 테스트 편의를 위해 임시로 활용

In [5]:
engine = create_engine(
    "mysql://root:1234@localhost/FINANCIALCONSUMER", 
    convert_unicode = True)

  engine = create_engine(


In [6]:
conn = engine.connect()

In [7]:
DATA_FINANCE = pd.read_sql_table("DATA_FINANCE", conn)
DATA_RETAIL = pd.read_sql_table("DATA_RETAIL", conn)
DATA_MOBILE_COMMUNICATION = pd.read_sql_table("DATA_MOBILE_COMMUNICATION", conn)
DATA_JOIN_CARDPAYMENT = pd.read_sql_table("DATA_JOIN_CARDPAYMENT", conn)
DATA_JOIN_ACCOMODATIONAPP = pd.read_sql_table("DATA_JOIN_ACCOMODATIONAPP", conn)

### 2. 결합키 생성 항목 및 결합대상정보(가명정보) 분할 클래스
- 전체 정보에 일련번호 부여
   - 일련번호 구성 : 테이블명 + 행번호
- DB에서 결합키 생성 항목 select → 원 데이터와 다른 스키마에 집어넣기
   - INSERT INTO 다른스키마명.다른테이블명 (a, b) SELECT a, b FROM 현재스키마명.원래테이블명;
   - 결합키 생성항목 + 일련번호 구성으로 테이블 만들기
- DB에서 결합대상정보 select → 원 데이터와 동일 혹은 다른 스키마에 집어넣기
   - CREATE TABLE 현재스키마명.남은테이블명 AS SELECT c, d, e FROM 현재스키마명.원래테이블명;
   - 결합대상정보 + 일련번호 구성으로 테이블 만들기

### 3. 결합키 · 일련번호 · 결합키연계정보 · SALT값 생성 클래스
- 사전에 만든 결합대상정보 + 일련번호 구성 테이블 가져오기 (데이터 갯수만큼 반복)
- SALT값 직접 생성해야 할 경우 난수생성 함수로 SALT값 만들기
- 결합대상정보 컬럼 합친 뒤 암호화하여 결합키 생성
- 결합키 기준으로 일련번호 결합하여 매핑테이블 만들기
   - SELECT * from 데이터1 INNER JOIN 데이터2 ON 데이터1.결합키 = 데이터2.결합키; (마지막 데이터까지 반복해서 합치기)


### 4. 가명정보 결합 클래스
- 결합키 매핑테이블 가져오기
   - SELECT * from 매핑테이블
- 결합대상정보 가져오기 (일련번호 있음)
   - SELECT * from 결합대상정보
- 결합하기
   - 매핑테이블의 일련번호를 축으로 inner join 하기
   - A기관 결합대상정보 + A기관 일련번호, B기관 결합대상정보 + B기관 일련번호
   - SELECT * from 결합대상정보 INNER JOIN 매핑테이블 ON 결합대상정보.일련번호 = 매핑테이블.일련번호; (일련번호 컬럼 갯수만큼 반복)
   - 결합 결과 데이터프레임으로 리턴

In [10]:
NEW_DATA = pd.merge(DATA_RETAIL, DATA_FINANCE, on = "NAME", how = "inner")
NEW_DATA

Unnamed: 0,NUM_SERIAL_x,NAME,GENDER_x,AGE_x,JOIN_DATE,PHONE_NUMBER_x,ZIP_CODE_x,SHIPPING_ADDRESS,NUM_PURCHASES_BOOKS,AMT_PURCHASES_BOOKS,...,REPAYMENT_RISK_INDEX,AMT_CREDITCARD_PAYMENT,AMT_CASHADVANCE_PAYMENT,NUM_CREDITCARD_ISSUANCES,NUM_CREDITCARD_CANCELED,TF_LOAN,AMT_CREDITLOAN,AMT_CREDITLOAN_OUTSTANDING,TF_PENSION,AMT_PENSION
0,0,맹수원,male,73,2021-02-01,010-7161-5648,26310,강원특별자치도 원주시 소초면 대왕고개길 53-13,949,8588542,...,74,9080795,6010764,9,0,N,0,0,N,0
1,1,가한성,male,44,2019-12-23,010-4411-3871,48235,부산광역시 수영구 연수로312번길 13(망미동),278,1696132,...,89,5205629,486526,4,3,N,0,0,N,0
2,2,진노순,female,59,2020-04-15,010-8299-4394,63207,제주특별자치도 제주시 신성로13길 26(이도이동),324,3843932,...,96,8075086,5434698,4,4,N,0,0,N,0
3,3,성간란,female,34,2020-02-12,010-8178-4332,42146,대구광역시 수성구 희망로36길 122-25(황금동),720,9124604,...,75,8621098,9891305,2,5,N,0,0,N,0
4,4,프주희,female,49,2020-01-22,010-9654-3329,32932,충청남도 논산시 강경읍 금백로175번길 23,9,1412817,...,55,3680804,8151371,3,2,N,0,0,N,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80726,84995,조양립,female,66,2022-09-05,010-3563-1984,17020,경기도 용인시 처인구 관전로 9-3(역북동),233,383644,...,51,3085222,6583596,3,3,N,0,0,N,0
80727,84996,유찬엽,female,28,2022-04-01,010-2837-0382,36407,경상북도 영덕군 영해면 원구길 28-3,139,1365534,...,7,9093427,3852526,4,5,N,0,0,N,0
80728,84997,김작향,female,36,2022-10-20,010-9707-4542,36929,경상북도 문경시 호계면 막곡길 39-4,351,944905,...,82,6644350,213086,1,4,N,0,0,N,0
80729,84998,최충상,female,22,2021-03-07,010-4598-7996,32806,충청남도 계룡시 엄사면 번영4길 12-1,578,9401781,...,4,8161144,6433040,6,5,N,0,0,N,0


결합키 기준 결합 (inner join) 테스트용 데이터 생성

In [11]:
def combiner(columns: list, df):
    """데이터프레임에서 원하는 컬럼을 추출하여 합치는 코드"""
    new_df = pd.DataFrame()
    result = df.copy()

    for column in columns:
        new_df[column] = df[column]

    new_df = new_df.apply(lambda x: x.astype(str))
    
    result['COMBINED'] = new_df.apply(lambda row: ''.join(row), axis=1)
    result = result.drop(columns = columns)
    return result


In [12]:
d1 = combiner(['NAME', 'GENDER', 'AGE'], DATA_FINANCE)

In [13]:
d2 = combiner(['NAME', 'GENDER', 'AGE'], DATA_RETAIL)

In [14]:
MERGED_DATA = pd.merge(d1, d2, on = 'COMBINED', how = "inner")
MERGED_DATA

Unnamed: 0,NUM_SERIAL_x,PHONE_NUMBER_x,ZIP_CODE_x,HOME_ADDRESS,HOME_TYPE,INCOME_BRACKET,CREDIT_SCORE,REPAYMENT_RISK_INDEX,AMT_CREDITCARD_PAYMENT,AMT_CASHADVANCE_PAYMENT,...,ZIP_CODE_y,SHIPPING_ADDRESS,NUM_PURCHASES_BOOKS,AMT_PURCHASES_BOOKS,NUM_PURCHASES_CULTURE,AMT_PURCHASES_CULTURE,NUM_PURCHASES_EDU,AMT_PURCHASES_EDU,AMT_USAGE_MEMBERSHIP,AMT_USAGE_GIFTCERTIFICATE
0,0,010-1826-4535,27218,충청북도 제천시 수산면 옥순봉로6길 61-32,"판잣집, 비닐하우스",6,441,61,5357418,8583708,...,27218,충청북도 제천시 수산면 옥순봉로6길 61-32,293,7093865,447,52228841,9746,21951387,1851280,2097143
1,1,010-1765-1467,12736,경기도 광주시 초월읍 도곡길 109-9,다세대주택,8,515,10,8870904,5328233,...,12736,경기도 광주시 초월읍 도곡길 109-9,11,6619891,840,9914876,8699,43716844,2397483,717648
2,2,010-6593-5091,51292,경상남도 창원시 마산회원구 회원남32길 28-1(회원동),"판잣집, 비닐하우스",1,269,17,8525658,2005663,...,51292,경상남도 창원시 마산회원구 회원남32길 28-1(회원동),636,6019351,430,41393138,4753,36913360,4219147,4940226
3,3,010-7714-1345,58541,전라남도 무안군 청계면 구로길 65,다가구 단독주택,7,254,10,2593007,8944424,...,58541,전라남도 무안군 청계면 구로길 65,292,4449894,446,9876612,8004,8373593,237327,298510
4,4,010-5360-6014,31741,충청남도 당진시 신평면 신평길 64-6,영업 겸용 단독주택,8,590,79,411525,5125357,...,31741,충청남도 당진시 신평면 신평길 64-6,725,1320354,238,30371285,7848,15456712,444548,550366
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80726,94994,010-2302-7433,62049,광주광역시 서구 풍암운리로41번길 12-6(풍암동),오피스텔,4,826,80,4079595,858885,...,62049,광주광역시 서구 풍암운리로41번길 12-6(풍암동),170,9012979,148,41705073,1508,37754185,5413979,1458690
80727,94996,010-2817-1504,26200,강원특별자치도 영월군 무릉도원면 황정길 253-11,기타,7,875,83,4691445,6000005,...,26200,강원특별자치도 영월군 무릉도원면 황정길 253-11,873,3040243,967,6373834,8557,6773262,592622,2241624
80728,94997,010-2536-2511,14614,경기도 부천시 장말로 292(심곡동),연립주택,4,294,26,8488084,7377056,...,14614,경기도 부천시 장말로 292(심곡동),237,5900094,692,5743754,8584,42650767,203925,1029630
80729,94998,010-5091-5053,32755,충청남도 금산군 부리면 물페기길 66,오피스텔,6,986,7,5109440,3625570,...,32755,충청남도 금산군 부리면 물페기길 66,433,2737383,993,21935853,8592,13730824,2604975,2359097


In [15]:
MERGED_DATA.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80731 entries, 0 to 80730
Data columns (total 31 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   NUM_SERIAL_x                80731 non-null  int64         
 1   PHONE_NUMBER_x              80731 non-null  object        
 2   ZIP_CODE_x                  80731 non-null  int64         
 3   HOME_ADDRESS                80731 non-null  object        
 4   HOME_TYPE                   80731 non-null  object        
 5   INCOME_BRACKET              80731 non-null  int64         
 6   CREDIT_SCORE                80731 non-null  int64         
 7   REPAYMENT_RISK_INDEX        80731 non-null  int64         
 8   AMT_CREDITCARD_PAYMENT      80731 non-null  int64         
 9   AMT_CASHADVANCE_PAYMENT     80731 non-null  int64         
 10  NUM_CREDITCARD_ISSUANCES    80731 non-null  int64         
 11  NUM_CREDITCARD_CANCELED     80731 non-null  int64     

In [16]:
class MergeData:
    """결합키를 기준으로 두 데이터를 결합하는 클래스(테스트용)"""
    def __init__(self, key_column: list):
        self.key_column = key_column

    def mergeData(self, data1, data2):
        """데이터 결합 메서드
           - 현재는 데이터 2개 기준, 3개 이상 데이터 결합도 확인해야 함
        """
        result = pd.merge(data1, data2, on = self.key_column, how = "inner")
        return result

    def mergeData2(self, data: list, how_join: str):
        """데이터 결합 메서드 보완
           3개 이상의 데이터 결합, inner or outer 선택 가능
        """
        if len(data) < 2:
            raise ValueError("2개 이상의 데이터를 넣어주십시오.")
        else:
            result = pd.merge(data[0], data[1], on = self.key_column, how = how_join)

            if len(data) == 2:
                return result
            else:
                for i in range(2, len(data)):
                    result = pd.merge(result, data[i], on = self.key_column, how = how_join)

                return result
        
    def mergedRadio(self, data):
        """데이터 결합률 계산 메서드"""
        ratio = len(result) / len(data)
        return ratio

In [17]:
md2 = MergeData("COMBINED")

In [18]:
result2 = md2.mergeData2([d1, d2], "inner")
result2

Unnamed: 0,NUM_SERIAL_x,PHONE_NUMBER_x,ZIP_CODE_x,HOME_ADDRESS,HOME_TYPE,INCOME_BRACKET,CREDIT_SCORE,REPAYMENT_RISK_INDEX,AMT_CREDITCARD_PAYMENT,AMT_CASHADVANCE_PAYMENT,...,ZIP_CODE_y,SHIPPING_ADDRESS,NUM_PURCHASES_BOOKS,AMT_PURCHASES_BOOKS,NUM_PURCHASES_CULTURE,AMT_PURCHASES_CULTURE,NUM_PURCHASES_EDU,AMT_PURCHASES_EDU,AMT_USAGE_MEMBERSHIP,AMT_USAGE_GIFTCERTIFICATE
0,0,010-1826-4535,27218,충청북도 제천시 수산면 옥순봉로6길 61-32,"판잣집, 비닐하우스",6,441,61,5357418,8583708,...,27218,충청북도 제천시 수산면 옥순봉로6길 61-32,293,7093865,447,52228841,9746,21951387,1851280,2097143
1,1,010-1765-1467,12736,경기도 광주시 초월읍 도곡길 109-9,다세대주택,8,515,10,8870904,5328233,...,12736,경기도 광주시 초월읍 도곡길 109-9,11,6619891,840,9914876,8699,43716844,2397483,717648
2,2,010-6593-5091,51292,경상남도 창원시 마산회원구 회원남32길 28-1(회원동),"판잣집, 비닐하우스",1,269,17,8525658,2005663,...,51292,경상남도 창원시 마산회원구 회원남32길 28-1(회원동),636,6019351,430,41393138,4753,36913360,4219147,4940226
3,3,010-7714-1345,58541,전라남도 무안군 청계면 구로길 65,다가구 단독주택,7,254,10,2593007,8944424,...,58541,전라남도 무안군 청계면 구로길 65,292,4449894,446,9876612,8004,8373593,237327,298510
4,4,010-5360-6014,31741,충청남도 당진시 신평면 신평길 64-6,영업 겸용 단독주택,8,590,79,411525,5125357,...,31741,충청남도 당진시 신평면 신평길 64-6,725,1320354,238,30371285,7848,15456712,444548,550366
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80726,94994,010-2302-7433,62049,광주광역시 서구 풍암운리로41번길 12-6(풍암동),오피스텔,4,826,80,4079595,858885,...,62049,광주광역시 서구 풍암운리로41번길 12-6(풍암동),170,9012979,148,41705073,1508,37754185,5413979,1458690
80727,94996,010-2817-1504,26200,강원특별자치도 영월군 무릉도원면 황정길 253-11,기타,7,875,83,4691445,6000005,...,26200,강원특별자치도 영월군 무릉도원면 황정길 253-11,873,3040243,967,6373834,8557,6773262,592622,2241624
80728,94997,010-2536-2511,14614,경기도 부천시 장말로 292(심곡동),연립주택,4,294,26,8488084,7377056,...,14614,경기도 부천시 장말로 292(심곡동),237,5900094,692,5743754,8584,42650767,203925,1029630
80729,94998,010-5091-5053,32755,충청남도 금산군 부리면 물페기길 66,오피스텔,6,986,7,5109440,3625570,...,32755,충청남도 금산군 부리면 물페기길 66,433,2737383,993,21935853,8592,13730824,2604975,2359097


In [19]:
md = MergeData("COMBINED")
result = md.mergeData(d1, d2)
result

Unnamed: 0,NUM_SERIAL_x,PHONE_NUMBER_x,ZIP_CODE_x,HOME_ADDRESS,HOME_TYPE,INCOME_BRACKET,CREDIT_SCORE,REPAYMENT_RISK_INDEX,AMT_CREDITCARD_PAYMENT,AMT_CASHADVANCE_PAYMENT,...,ZIP_CODE_y,SHIPPING_ADDRESS,NUM_PURCHASES_BOOKS,AMT_PURCHASES_BOOKS,NUM_PURCHASES_CULTURE,AMT_PURCHASES_CULTURE,NUM_PURCHASES_EDU,AMT_PURCHASES_EDU,AMT_USAGE_MEMBERSHIP,AMT_USAGE_GIFTCERTIFICATE
0,0,010-1826-4535,27218,충청북도 제천시 수산면 옥순봉로6길 61-32,"판잣집, 비닐하우스",6,441,61,5357418,8583708,...,27218,충청북도 제천시 수산면 옥순봉로6길 61-32,293,7093865,447,52228841,9746,21951387,1851280,2097143
1,1,010-1765-1467,12736,경기도 광주시 초월읍 도곡길 109-9,다세대주택,8,515,10,8870904,5328233,...,12736,경기도 광주시 초월읍 도곡길 109-9,11,6619891,840,9914876,8699,43716844,2397483,717648
2,2,010-6593-5091,51292,경상남도 창원시 마산회원구 회원남32길 28-1(회원동),"판잣집, 비닐하우스",1,269,17,8525658,2005663,...,51292,경상남도 창원시 마산회원구 회원남32길 28-1(회원동),636,6019351,430,41393138,4753,36913360,4219147,4940226
3,3,010-7714-1345,58541,전라남도 무안군 청계면 구로길 65,다가구 단독주택,7,254,10,2593007,8944424,...,58541,전라남도 무안군 청계면 구로길 65,292,4449894,446,9876612,8004,8373593,237327,298510
4,4,010-5360-6014,31741,충청남도 당진시 신평면 신평길 64-6,영업 겸용 단독주택,8,590,79,411525,5125357,...,31741,충청남도 당진시 신평면 신평길 64-6,725,1320354,238,30371285,7848,15456712,444548,550366
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80726,94994,010-2302-7433,62049,광주광역시 서구 풍암운리로41번길 12-6(풍암동),오피스텔,4,826,80,4079595,858885,...,62049,광주광역시 서구 풍암운리로41번길 12-6(풍암동),170,9012979,148,41705073,1508,37754185,5413979,1458690
80727,94996,010-2817-1504,26200,강원특별자치도 영월군 무릉도원면 황정길 253-11,기타,7,875,83,4691445,6000005,...,26200,강원특별자치도 영월군 무릉도원면 황정길 253-11,873,3040243,967,6373834,8557,6773262,592622,2241624
80728,94997,010-2536-2511,14614,경기도 부천시 장말로 292(심곡동),연립주택,4,294,26,8488084,7377056,...,14614,경기도 부천시 장말로 292(심곡동),237,5900094,692,5743754,8584,42650767,203925,1029630
80729,94998,010-5091-5053,32755,충청남도 금산군 부리면 물페기길 66,오피스텔,6,986,7,5109440,3625570,...,32755,충청남도 금산군 부리면 물페기길 66,433,2737383,993,21935853,8592,13730824,2604975,2359097


In [20]:
ratio = md.mergedRadio(d2)
ratio

0.9497764705882353

PyMySQL 클래스 사용 예시 추가

In [21]:
queryObject = PyMySQLQuery(pw = "1234")

queryObject.connectDatabase(
    serverIP = "localhost", 
    port_num = 3306, 
    user_name = "root", 
    database_name = "FINANCIALCONSUMER", 
    kr_encoder = "utf8")

In [22]:
queryObject.dataQueryLanguage(sql = "SELECT * FROM DATA_JOIN_CARDPAYMENT")
DATA_JOIN_CARDPAYMENT2 = queryObject.executeQueryAsDataFrame()
DATA_JOIN_CARDPAYMENT2

Unnamed: 0,NUM_SERIAL,NAME,GENDER,PHONE_NUMBER,BIRTH_DATE,PAYMENT_DATE,AMT_CREDITCARD_PAYMENT,AFFILIGATESTORE_ADDRESS,AFFILIGATESTORE_INDUSTRY_CODE,AFFILIGATESTORE_INDUSTRY_TYPE
0,1,국회옥,female,010-5233-0864,1996-08-30,2021-01-19,277642,전라북도 완주군 고산면 남봉덕암길 1-2,운수 및 창고업,운수 및 창고업\r
1,2,윤창성,male,010-7611-2927,1993-08-27,2022-03-19,939873,인천광역시 중구 영종해안남로 1017(운남동),교육 서비스업,교육 서비스업\r
2,3,신류안,female,010-5960-7983,1968-02-28,2022-01-09,562338,광주광역시 북구 부남길 20-4(문흥동),도매 및 소매업,도매 및 소매업\r
3,4,류백겸,male,010-0196-5330,2000-06-17,2020-10-21,310094,인천광역시 중구 연안부두로99번길 9(항동7가),"농업, 임업 및 어","농업, 임업 및 어업""\r\n5,남태부,"
4,6,강이비,female,010-6833-9839,1952-08-17,2020-11-20,393325,경상북도 안동시 송천3길 54-11(송천동),금융 및 보험업,금융 및 보험업\r
...,...,...,...,...,...,...,...,...,...,...
49888,94996,루동영,female,010-4088-2621,1982-03-28,2020-08-24,130488,충청북도 제천시 명지로 112-20(명지동),제조업,제조업\r
49889,94997,송명나,female,010-0545-2206,2000-08-25,2020-06-17,302768,울산광역시 남구 돋질로69번길 39(신정동),제조업,제조업\r
49890,94998,박승란,female,010-4133-0426,1988-02-12,2021-07-17,857297,경기도 성남시 분당구 판교로592번길 9-4(야탑동),도매 및 소매업,도매 및 소매업\r
49891,94999,차춘명,female,010-2317-8317,1973-05-12,2022-08-23,13548,대전광역시 대덕구 대전로1019번길 23(오정동),도매 및 소매업,도매 및 소매업\r


In [23]:
queryObject.dataQueryLanguage(sql = "SELECT * FROM DATA_JOIN_ACCOMODATIONAPP")
DATA_JOIN_ACCOMODATIONAPP2 = queryObject.executeQueryAsDataFrame()
DATA_JOIN_ACCOMODATIONAPP2

Unnamed: 0,NUM_SERIAL,NAME,BIRTH_DATE,GENDER,EMAIL,PHONE_NUMBER,TF_BUSINESS_MEMBER,USE_SERVICE_AREA,USE_SERVICE_DATE
0,1,고대옥,1966-04-01,female,고대옥@gmail.com,010-5978-9544,N,전라북도 익산시 서동로 464(용제동),2021-07-20
1,2,사미소,1991-01-12,female,사미소@outlook.com,010-3920-5092,N,제주특별자치도 제주시 조천읍 신촌남8길 87,2020-06-06
2,3,서회걸,1950-09-20,male,서회걸@naver.com,010-7209-1680,Y,경상북도 영천시 신녕면 찰방길 28,2022-02-17
3,4,장예홍,2002-11-22,male,장예홍@naver.com,010-3093-9161,Y,경기도 성남시 수정구 시민로 172(신흥동),2021-11-04
4,5,표재창,1983-08-21,male,표재창@nate.com,010-2443-6530,Y,경상남도 의령군 지정면 기강로2길 5,2020-08-20
...,...,...,...,...,...,...,...,...,...
94995,94996,서원찬,1987-05-03,male,서원찬@naver.com,010-3138-4677,Y,경상남도 창원시 마산회원구 석전동1길 47(석전동),2022-03-28
94996,94997,지주수,1963-07-02,male,지주수@naver.com,010-7829-7377,Y,전라남도 장흥군 대덕읍 내저매생이1길 120,2021-01-10
94997,94998,복홍남,1996-11-03,female,복홍남@nate.com,010-8948-3199,Y,서울특별시 관악구 청룡2길 42(봉천동),2021-10-06
94998,94999,유종강,1954-04-24,male,유종강@daum.net,010-3363-6760,Y,부산광역시 강서구 신호산단4로64번길 18-9(신호동),2022-05-14


In [24]:
queryObject.dataQueryLanguage(sql = "select * from DATA_JOIN_ACCOMODATIONAPP inner join DATA_JOIN_CARDPAYMENT on DATA_JOIN_ACCOMODATIONAPP.NAME = DATA_JOIN_CARDPAYMENT.NAME;")
JOIN_RESULT = queryObject.executeQueryAsDataFrame()
JOIN_RESULT

Unnamed: 0,NUM_SERIAL,NAME,BIRTH_DATE,GENDER,EMAIL,PHONE_NUMBER,TF_BUSINESS_MEMBER,USE_SERVICE_AREA,USE_SERVICE_DATE,NUM_SERIAL.1,NAME.1,GENDER.1,PHONE_NUMBER.1,BIRTH_DATE.1,PAYMENT_DATE,AMT_CREDITCARD_PAYMENT,AFFILIGATESTORE_ADDRESS,AFFILIGATESTORE_INDUSTRY_CODE,AFFILIGATESTORE_INDUSTRY_TYPE
0,1,고대옥,1966-04-01,female,고대옥@gmail.com,010-5978-9544,N,전라북도 익산시 서동로 464(용제동),2021-07-20,1069,고대옥,female,010-5978-9544,1966-04-01,2020-06-24,156915,경상남도 진주시 비봉로74번길 7-1(계동),도매 및 소매업,도매 및 소매업\r
1,106,이행미,1955-02-27,female,이행미@naver.com,010-1463-6722,N,강원특별자치도 삼척시 가곡면 청옥로 4090-107,2021-11-17,1444,이행미,female,010-1463-6722,1955-02-27,2021-03-14,332519,"서울특별시 금천구 금하로21길 38(시흥동, 동일타운)",제조업,제조업\r
2,294,음영준,1963-12-19,male,음영준@naver.com,010-9961-9924,Y,전라남도 영암군 삼호읍 백야길 29-199,2020-12-06,2497,음영준,male,010-9961-9924,1963-12-19,2020-03-19,265546,전라북도 전주시 덕진구 삼례로 126(고랑동),도매 및 소매업,도매 및 소매업\r
3,336,채소녕,1969-05-17,female,채소녕@daum.net,010-9987-7683,N,경기도 파주시 파주읍 정문로586번길 131,2022-10-22,543,채소녕,female,010-9987-7683,1969-05-17,2021-04-18,54774,전라남도 순천시 별량면 봉덕2길 20,도매 및 소매업,도매 및 소매업\r
4,462,최성염,1982-02-15,female,최성염@naver.com,010-0552-1049,Y,제주특별자치도 서귀포시 대정읍 서삼중로 96-10,2022-04-02,1242,최성염,female,010-0552-1049,1982-02-15,2021-10-28,614768,경상북도 구미시 산동읍 성수2길 21,제조업,제조업\r
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
47354,93682,이숙본,1980-05-10,female,이숙본@naver.com,010-8604-3923,Y,경상북도 경주시 광명윗마을2길 18(광명동),2020-02-18,30856,이숙본,female,010-8604-3923,1980-05-10,2021-06-17,697214,경기도 용인시 처인구 백암면 박곡로208번길 90,제조업,제조업\r
47355,94038,연찬중,1973-09-27,male,연찬중@naver.com,010-5499-5724,Y,경기도 이천시 신둔면 서이천로853번길 115-53,2020-08-23,77552,연찬중,male,010-5499-5724,1973-09-27,2022-11-24,819792,경기도 과천시 향교말길 47(중앙동),제조업,제조업\r
47356,94086,장한원,1998-02-15,male,장한원@daum.net,010-8497-2841,N,경상북도 상주시 모서면 중화로 903,2020-02-02,30665,장한원,male,010-8497-2841,1998-02-15,2020-07-20,307643,강원특별자치도 강릉시 용지각길8번길 8-1(포남동),도매 및 소매업,도매 및 소매업\r
47357,94488,전길석,1998-01-12,female,전길석@outlook.com,010-6350-6190,Y,경기도 수원시 권선구 상탑로21번길 19(탑동),2022-04-16,64605,전길석,female,010-6350-6190,1998-01-12,2022-08-26,960064,광주광역시 광산구 수완로74번길 11-30(수완동),도매 및 소매업,도매 및 소매업\r


In [25]:
d1 = combiner(['NAME', 'GENDER', 'BIRTH_DATE', 'PHONE_NUMBER'], DATA_JOIN_ACCOMODATIONAPP)
d2 = combiner(['NAME', 'GENDER', 'BIRTH_DATE', 'PHONE_NUMBER'], DATA_JOIN_CARDPAYMENT)

In [26]:
d1 = d1.drop(labels='NUM_SERIAL', axis=1)
d2 = d2.drop(labels='NUM_SERIAL', axis=1)

In [27]:
d1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 95000 entries, 0 to 94999
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   EMAIL               95000 non-null  object        
 1   TF_BUSINESS_MEMBER  95000 non-null  object        
 2   USE_SERVICE_AREA    95000 non-null  object        
 3   USE_SERVICE_DATE    95000 non-null  datetime64[ns]
 4   COMBINED            95000 non-null  object        
dtypes: datetime64[ns](1), object(4)
memory usage: 3.6+ MB


In [28]:
d2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49893 entries, 0 to 49892
Data columns (total 6 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   PAYMENT_DATE                   49893 non-null  datetime64[ns]
 1   AMT_CREDITCARD_PAYMENT         49893 non-null  int64         
 2   AFFILIGATESTORE_ADDRESS        49893 non-null  object        
 3   AFFILIGATESTORE_INDUSTRY_CODE  49893 non-null  object        
 4   AFFILIGATESTORE_INDUSTRY_TYPE  49893 non-null  object        
 5   COMBINED                       49893 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 2.3+ MB


In [29]:
class MergeDataWithQuery:
    """결합키를 기준으로 두 데이터를 결합하는 클래스(테스트용)"""
    def __init__(self, key_column: list):
        self.key_column = key_column

    def mergeData(self, data1, data2):
        """데이터 결합 메서드
           - 현재는 데이터 2개 기준, 3개 이상 데이터 결합도 확인해야 함
        """
        result = pd.merge(data1, data2, on = self.key_column, how = "inner")
        return result

    def mergeData2(self, data: list, how_join: str):
        """데이터 결합 메서드 보완
           3개 이상의 데이터 결합, inner or outer 선택 가능
        """
        if len(data) < 2:
            raise ValueError("2개 이상의 데이터를 넣어주십시오.")
        else:
            result = pd.merge(data[0], data[1], on = self.key_column, how = how_join)

            if len(data) == 2:
                return result
            else:
                for i in range(2, len(data)):
                    result = pd.merge(result, data[i], on = self.key_column, how = how_join)

                return result

    def mergeDatawithQuery(self, data: list, how_join: str):
        """절차 설계
           - PyMySQL, 혹은 engine을 통하여 SQL 테이블이나 뷰에서 뽑아낸 데이터프레임을 집어넣는다
           - 해당 데이터프레임을 원하는 스키마에 pd.to_sql로 집어넣는다
           - SQL 내에서 PyMySQL을 통해 데이터 간 결합을 이룬다
        """
        for i in range(len(data)):
            data[i].to_sql(f"data{i+1}", con=engine, if_exists='replace', index=False)


        queryObject = PyMySQLQuery(pw = "1234")
        queryObject.connectDatabase(serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")
        queryObject.dataQueryLanguage(sql = f"CREATE TABLE result_table AS SELECT data1.COMBINED as combined_data1, data1.EMAIL, data1.TF_BUSINESS_MEMBER FROM data1 {how_join} JOIN data2 ON data1.COMBINED = data2.COMBINED;")
        queryObject.executeQuery()

        
    def mergedRadio(self, data):
        """데이터 결합률 계산 메서드"""
        ratio = len(result) / len(data)
        return ratio

In [92]:
mq = MergeDataWithQuery(["COMBINED"])

In [93]:
mq.mergeDatawithQuery(data = [d1, d2], how_join = "inner")

In [94]:
queryObject.dataQueryLanguage(sql = "SELECT * FROM result_table")
RESULT_TABLE = queryObject.executeQueryAsDataFrame()
RESULT_TABLE

Unnamed: 0,combined_data1,EMAIL,TF_BUSINESS_MEMBER
0,고대옥female1966-04-01010-5978-9544,고대옥@gmail.com,N
1,이행미female1955-02-27010-1463-6722,이행미@naver.com,N
2,염상남female1994-12-22010-6590-1828,염상남@daum.net,Y
3,기원태male1985-07-19010-8181-5942,기원태@daum.net,Y
4,심낙희male1952-11-10010-5083-9441,심낙희@naver.com,Y
...,...,...,...
47354,콩경원male1950-01-03010-4567-0670,콩경원@naver.com,N
47355,김명낭female1958-05-18010-0262-9983,김명낭@daum.net,Y
47356,배별자female1964-02-20010-9277-8215,배별자@nate.com,Y
47357,장응수male1987-07-16010-2995-7390,장응수@outlook.com,N


In [None]:
class MergeDataWithQuery2(PyMySQLQuery):
    """결합키를 기준으로 두 데이터를 결합하는 클래스(테스트용)"""
    def __init__(self, key_column: list, pw: str, serverIP, port_num, user_name, database_name):
        self.key_column = key_column
        self.pw = pw
        self.serverIP = serverIP
        self.port_num = port_num
        self.user_name = user_name
        self.database_name = database_name
        self.kr_encoder
        super().__init__(pw = self.pw)


    def mergeDatawithQuery(self, data: list, how_join: str, table_name: str):
        """절차 설계
           - PyMySQL, 혹은 engine을 통하여 SQL 테이블이나 뷰에서 뽑아낸 데이터프레임을 집어넣는다
           - 해당 데이터프레임을 원하는 스키마에 pd.to_sql로 집어넣는다
           - SQL 내에서 PyMySQL을 통해 데이터 간 결합을 이룬다

           예시 구문: queryObject.dataQueryLanguage(sql = f"CREATE TABLE result_table 
                                                           AS SELECT data1.COMBINED 
                                                           as combined_data1, data1.EMAIL, data1.TF_BUSINESS_MEMBER 
                                                           FROM data1 {how_join} JOIN data2 
                                                           ON data1.COMBINED = data2.COMBINED;")
           
        """
        # 데이터 DB에 입력
        for i in range(len(data)):
            data[i].to_sql(f"data{i+1}", con=engine, if_exists='replace', index=False)

        # DB 연결
        super().connectDatabase(self.serverIP, self.port_num, self.user_name, self.database_name, self.kr_encoder)

        # 데이터 join 구문 만들기
        # 결합키 컬럼 중복 피해야함
        sql = f"CREATE TABLE {table_name} AS SELECT {}"

        # 데이터 join 실행
        super().dataQueryLanguage(sql = sql)
        super().executeQuery()

        
    def mergedRadio(self, data):
        """데이터 결합률 계산 메서드"""
        ratio = len(result) / len(data)
        return ratio

### 5.1. 결합대상정보 반출 클래스
- 가명정보 결합 결과물 데이터프레임 가져오기
   - 가명정보 결합 결과물을 실행클래스 내에서 가져오기
- 매핑테이블 일련번호 컬럼 제외하기
- 남은 결합 결과물을 DB에 입력하기
   - pd.to_sql() 활용

In [50]:
class ControlDB(ABC):
    """DB에 쿼리를 넣는 클래스를 묶어서 관리하기 위한 추상 클래스"""
    @abstractmethod
    def selectKey(self):
        """결합키관련정보를 제거하거나 남기는 메서드"""
        pass
    
    @abstractmethod
    def controlDB(self):
        """테이블을 SQL로 전달하는 메서드"""
        pass
    

In [95]:
class CommitTargetData(ControlDB):
    """결합대상정보 분리 및 반출 클래스"""
    def __init__(self, engine, table_name, schema_name):
        # self.data = data
        self.engine = engine
        self.table_name = table_name
        self.schema_name = schema_name

    def selectKey(self, data, columns: list):
        """결합키 제거 메서드"""
        for column in columns:
            data.drop(labels = column, axis = 1)
        
    def controlDB(self, data):
        """결합대상정보를 SQL 테이블로 커밋하는 메서드"""
        data.to_sql(self.table_name, con=engine, if_exists='fail', index=False, schema=self.schema_name)

In [96]:
cd = CommitTargetData(engine, "newTable2", "FINANCIALCONSUMER")

In [55]:
cd_result = cd.selectKey(["COMBINED"])

In [56]:
cd_result

In [24]:
cd.controlDB("newTable")

### 5.2. 결합키연계정보(결합키와 일련번호의 매핑테이블) 및 SALT값 DB분리보관(이관)을 위한 추출 클래스

In [91]:
class CommitKeyData(ControlDB):
    def __init__(self, engine, table_name, schema_name):
        # self.data = data
        self.engine = engine
        self.key = pd.DataFrame()
        self.table_name = table_name
        self.schema_name = schema_name

    def selectKey(self, data, columns: list):
        """결합키연계정보, SALT값 컬럼을 추출하는 메서드"""
        for column in columns:
            self.key[column] = data[column]

    def controlDB(self, data):
        """결합키연계정보, SALT값을 다른 스키마의 SQL 테이블로 커밋하는 메서드"""
        self.key.to_sql(self.table_name, con=engine, if_exists='fail', index=False, schema=self.schema_name)
        

In [93]:
ckd = CommitKeyData(engine, "newKey", "KEYSFOR")

In [33]:
ckd_key = ckd.selectKey(['COMBINED'])
# ckd_key

In [34]:
ckd.controlDB(ckd_key)

### 5.3. 2 ~ 5.2 까지 전부 실행하는 클래스
* Pseudonym 클래스 참고

In [103]:
class CryptoGraphy:
    """반입된 데이터를 클래스에 반입한 뒤, 결합을 실행하여 결합키연계정보와 결합대상정보를 반출하는 실행 클래스
       클래스 1개 내에서 세부 기능 클래스를 주입하여 아래 1 ~ 5를 실행함
       - 1. 데이터 리스트 단위로 반입
       - 2. 결합키생성항목 / 결합대상항목 분리
       - 3. 결합키생성항목 암호화 + 결합대상항목에 붙이기
       - 4. 결합키 기준 데이터 결합
       - 5. 결합 결과 중 결합대상정보 / 결합키연계정보 분리 반출
    """
    def __init__(self, data: list, key_columns: list):
        self.data = data
        self.key_columns = key_columns
        self._dataframe = pd.DataFrame()
        self._cryptographer = {}
        self._DBControllers = []

    def joinData(self, how_join: str):
        """결합키 기준 데이터 결합"""
        if len(self.data) < 2:
            raise ValueError("2개 이상의 데이터를 넣어주십시오.")
        else:
            self._dataframe = pd.merge(self.data[0], self.data[1], on = self.key_columns, how = how_join)

            if len(self.data) > 2:
                for i in range(2, len(self.data)):
                    self._dataframe = pd.merge(self._dataframe, self.data[i], on = self.key_columns, how = how_join)
            else:
                pass

    def addDBController(self, DBController):
        """DB 컨트롤 클래스 (CommitTargetData, CommitKeyData) 주입"""
        if isinstance(DBController, ControlDB):
            self._DBControllers.append(DBController)
        else:
            raise ValueError("해당 클래스는 DB 컨트롤 목적으로 사용할 수 없습니다.")

    def addCrptographer(self):
        """암호화 클래스 주입"""
        pass

    def controlDB(self):
        """결합 결과 중 결합대상정보 / 결합키연계정보 분리 반출 메서드
           addDBController에서 주입된 DB 컨트롤 클래스를 통해 작동
        """
        for controller in self._DBControllers:
            controller.selectKey(self._dataframe, self.key_columns)
            controller.controlDB(self._dataframe)

In [109]:
cg = CryptoGraphy(data = [DATA_JOIN_CARDPAYMENT, DATA_JOIN_ACCOMODATIONAPP], key_columns = ["NAME"])

In [105]:
cg.joinData(how_join="inner")

In [106]:
cg.addDBController(DBController = cd)

In [107]:
cg.addDBController(DBController = ckd)

In [108]:
cg.controlDB()

ValueError: Table 'newTable2' already exists.