### 1.파이썬 스크립트를 통해 MySQL 데이터베이스에 접속하여 테이블을 조회하는 방식

* import ⇢ db접속 ⇢ cursor 생성* ⇢ sql문 작성 ⇢ sql문 실행 ⇢ 실행 결과 확정(commit) ⇢ 연결 해제
* 검색해온 데이터를 key:value 타입으로 가지고 오는 pymysul.cursor.Dictionary
* insert, update, delete의 경우 자원 닫아주기 전에 commit을 해야 DB에 작업 내용이 저장
```
CURSOR = PseudonymDB.cursor()
SQL = """SELECT * FROM DATABASE.TABLE"""
CURSOR.execute(SQL)
PseudonymDB.commit()
PseudonymDB.close()
```

In [18]:
# pip install pymysql
# pip install prettytable
import pymysql
from typing import *
from prettytable import PrettyTable

In [36]:
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
class PreprocessQuery:
    """데이터 전처리 목적의 SQL 쿼리 클래스"""
    def __init__(self, pw):
        self._pw = pw
        self.connection = None
        self.Cursor = None
        self.SQL = None
    
    def connectMySQL(self, 
                     serverIP: str, port_num: int, user_name: str, database_name: str, kr_encoder: str):
        """MySQL DBMS 데이터베이스에 접속: 서버IP주소, 사용자명, 계정 암호, 데이터베이스명, 한글 인코딩 방식"""
        try:
            self.connection = pymysql.connect(
                host = serverIP, port = port_num,
                user = user_name, password = self._pw,
                db = database_name, charset = kr_encoder
            )
            self.Cursor = self.makeCursor(self.connection)
        except pymysql.Error as e:
            print(f"Error Connecting to MySQL from Python: {e}")
    
    def makeCursor(self, connect):
        """커서 생성"""
        return connect.cursor()
    
    def dataQueryLanguage(self, sql):
        """SQL 쿼리문 작성"""
        self.SQL = f"{sql}"
    
    def queryExecute(self):
        """SQL 쿼리문 실행 및 예외처리"""
        try:
            self.Cursor.execute(self.SQL)
            actionOutput = self.Cursor.fetchall()
            return actionOutput
        except pymysql.Error as e:
            print(f"Error Executing Query: {e}")
    
    def queryCommit(self):
        """실행 결과 확정"""
        self.Cursor.execute(self.SQL)
        self.Cursor.commit()
    
    def closeConnection(self):
        """연결 및 커서 닫기"""
        if self.Cursor:
            self.Cursor.close()
        if self.connection:
            self.connection.close()

In [3]:
queryObject = PreprocessQuery(pw = "0123")

In [4]:
queryObject.connectMySQL( 
    serverIP = "localhost", port_num = 3306, user_name = "root", database_name = "FINANCIALCONSUMER", kr_encoder = "utf8")

---

In [5]:
queryObject.dataQueryLanguage(sql = "DESC DATA_FINANCE;")
queryObject.queryExecute()

(('NUM_SERIAL', 'int', 'NO', 'PRI', None, ''),
 ('NAME', 'varchar(10)', 'NO', '', None, ''),
 ('GENDER', 'varchar(10)', 'YES', '', None, ''),
 ('AGE', 'int', 'YES', '', None, ''),
 ('PHONE_NUMBER', 'varchar(20)', 'YES', '', None, ''),
 ('ZIP_CODE', 'int', 'YES', '', None, ''),
 ('HOME_ADDRESS', 'varchar(100)', 'YES', '', None, ''),
 ('HOME_TYPE', 'varchar(10)', 'YES', '', None, ''),
 ('INCOME_BRACKET', 'int', 'YES', '', None, ''),
 ('CREDIT_SCORE', 'int', 'YES', '', None, ''),
 ('REPAYMENT_RISK_INDEX', 'int', 'YES', '', None, ''),
 ('AMT_CREDITCARD_PAYMENT', 'int', 'YES', '', None, ''),
 ('AMT_CASHADVANCE_PAYMENT', 'int', 'YES', '', None, ''),
 ('NUM_CREDITCARD_ISSUANCES', 'int', 'YES', '', None, ''),
 ('NUM_CREDITCARD_CANCELED', 'int', 'YES', '', None, ''),
 ('TF_LOAN', 'varchar(10)', 'YES', '', None, ''),
 ('AMT_CREDITLOAN', 'int', 'YES', '', None, ''),
 ('AMT_CREDITLOAN_OUTSTANDING', 'int', 'YES', '', None, ''),
 ('TF_PENSION', 'varchar(10)', 'YES', '', None, ''),
 ('AMT_PENSION', '

In [6]:
queryObject.dataQueryLanguage(sql = "DESC DATA_RETAIL;")
queryObject.queryExecute()

(('NUM_SERIAL', 'int', 'NO', 'PRI', None, ''),
 ('NAME', 'varchar(10)', 'NO', '', None, ''),
 ('GENDER', 'varchar(10)', 'YES', '', None, ''),
 ('AGE', 'int', 'YES', '', None, ''),
 ('JOIN_DATE', 'date', 'YES', '', None, ''),
 ('PHONE_NUMBER', 'varchar(20)', 'YES', '', None, ''),
 ('ZIP_CODE', 'int', 'YES', '', None, ''),
 ('SHIPPING_ADDRESS', 'varchar(100)', 'YES', '', None, ''),
 ('NUM_PURCHASES_BOOKS', 'int', 'YES', '', None, ''),
 ('AMT_PURCHASES_BOOKS', 'int', 'YES', '', None, ''),
 ('NUM_PURCHASES_CULTURE', 'int', 'YES', '', None, ''),
 ('AMT_PURCHASES_CULTURE', 'int', 'YES', '', None, ''),
 ('NUM_PURCHASES_EDU', 'int', 'YES', '', None, ''),
 ('AMT_PURCHASES_EDU', 'int', 'YES', '', None, ''),
 ('AMT_USAGE_MEMBERSHIP', 'int', 'YES', '', None, ''),
 ('AMT_USAGE_GIFTCERTIFICATE', 'int', 'YES', '', None, ''))

In [7]:
queryObject.dataQueryLanguage(sql = "DESC DATA_MOBILE_COMMUNICATION;")
queryObject.queryExecute()

(('NUM_SERIAL', 'int', 'NO', 'PRI', None, ''),
 ('AGE', 'int', 'YES', '', None, ''),
 ('NAME', 'varchar(10)', 'NO', '', None, ''),
 ('GENDER', 'varchar(10)', 'YES', '', None, ''),
 ('ZIP_CODE', 'int', 'YES', '', None, ''),
 ('DETAIL_ADDRESS', 'varchar(100)', 'YES', '', None, ''),
 ('INDUSTRY_TYPE', 'varchar(20)', 'YES', '', None, ''),
 ('SUBSCRIPTION_SERVICE', 'varchar(100)', 'YES', '', None, ''),
 ('SUBSCRIPTION_FEE', 'int', 'YES', '', None, ''),
 ('SUBSCRIPTION_DATE', 'date', 'YES', '', None, ''),
 ('MEMBER_TYPE', 'varchar(20)', 'YES', '', None, ''),
 ('TF_BLACKLIST', 'varchar(10)', 'YES', '', None, ''),
 ('NUM_OVERDUE_PAYMENT', 'int', 'YES', '', None, ''),
 ('MEMBERSHIP_GRADE', 'varchar(20)', 'YES', '', None, ''),
 ('TF_CONTENTS_PAYMENT', 'varchar(10)', 'YES', '', None, ''),
 ('AMT_CONTENTS_PAYMENT', 'int', 'YES', '', None, ''),
 ('EXTRA_SERVICE', 'varchar(100)', 'YES', '', None, ''))

In [8]:
queryObject.dataQueryLanguage(sql = "DESC DATA_JOIN_CARDPAYMENT;")
queryObject.queryExecute()

(('NUM_SERIAL', 'int', 'NO', 'PRI', None, ''),
 ('NAME', 'varchar(10)', 'NO', '', None, ''),
 ('GENDER', 'varchar(10)', 'YES', '', None, ''),
 ('PHONE_NUMBER', 'varchar(20)', 'YES', '', None, ''),
 ('BIRTH_DATE', 'date', 'YES', '', None, ''),
 ('PAYMENT_DATE', 'date', 'YES', '', None, ''),
 ('AMT_CREDITCARD_PAYMENT', 'int', 'YES', '', None, ''),
 ('AFFILIGATESTORE_ADDRESS', 'varchar(100)', 'YES', '', None, ''),
 ('AFFILIGATESTORE_INDUSTRY_CODE', 'varchar(10)', 'YES', '', None, ''),
 ('AFFILIGATESTORE_INDUSTRY_TYPE', 'varchar(20)', 'YES', '', None, ''))

In [9]:
queryObject.dataQueryLanguage(sql = "DESC DATA_JOIN_ACCOMODATIONAPP;")
queryObject.queryExecute()

(('NUM_SERIAL', 'int', 'NO', 'PRI', None, ''),
 ('NAME', 'varchar(10)', 'NO', '', None, ''),
 ('BIRTH_DATE', 'date', 'YES', '', None, ''),
 ('GENDER', 'varchar(10)', 'YES', '', None, ''),
 ('EMAIL', 'varchar(100)', 'YES', '', None, ''),
 ('PHONE_NUMBER', 'varchar(20)', 'YES', '', None, ''),
 ('TF_BUSINESS_MEMBER', 'varchar(10)', 'YES', '', None, ''),
 ('USE_SERVICE_AREA', 'varchar(100)', 'YES', '', None, ''),
 ('USE_SERVICE_DATE', 'date', 'YES', '', None, ''))

### 2.DQL문

* **데이터 정제의 의의**
    
    원본 데이터에 결측값이나 일관적이지 않은 데이터가 있는 경우 등에 낮은 데이터 품질을 개선하거나 분석을 더 쉽게 수행하고 더 의미 있는 결과를 이끌어내는데 필요

* **결측값 탐색**
    
    ```DQL = "SELECT {} FROM DATA_FINANCE WHERE {} IS NULL".format("GENDER", "GENDER")```
    
    ```DQL = "SELECT {} FROM DATA_MOBILE_COMMUNICATION WHERE {} IS NULL".format("SUBSCRIPTION_FEE", "SUBSCRIPTION_FEE")```

* **Fill Forward or Fill Backward**

    ```DQL = "SELECT LAG(SUBSCRIPTION_FEE) OVER (PARTITION BY SUBSCRIPTION_SERVICE ORDER BY SUBSCRIPTION_DATE) AS SUBSCRIPTION_FEE_IMPUTE FROM DATA_MOBILE_COMMUNICATION"```

* **Postgres Database에서 생성하는 날짜 차원 테이블**
    
    ```DQL = "SELECT * FROM GENERATE_SERIES('2023-01-01'::timestamp, '2023-12-31', '1 day')"```
    
    ProgrammingError: (1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near '('2023-01-01'::timestamp, '2023-12-31', '1 day')' at line 1")


* **데이터 셰이핑(데이터가 열과 행에 저장되는 형태를 조정하는 작업)**

    데이터 세밀도를 파악하고 데이터 평탄화를 수행함(행의 수 줄이기)
    
    보고서 작성과 대시보드 생성을 위해 데이터를 BI 도구에 가져올 때, 그 데이터가 어떻게 사용될지 미리 이해하는 일이 중요함. 데이터 크기가 작으면서도 이해하기 쉽게끔 집계되어 있어야 하며, 대시보드를 실행하는데 시간이 오래 걸리지 않도록 핵심적인 내용만 저장된 형태로 데이터를 빠르게 로드할 수 있어야 함. 

### 3.시계열 분석

* 예측을 위해 시간에 따른 데이터의 변화를 이해하고 정량화함. 시계열 데이터에서는 값이 시간에 따라 계속 변동하는 일이 흔함. 

* 모든 사용자가 동이한 시간대 내 지역에 산다면 전혀 문제가 되지 않지만, 전 세계에 흩어져 있다면 DB에 저장된 UTC(Coordinated Universal Time)을 각 사용자의 로컬 시간에 맞게 변환해 분석해야 함. 즉, UTC를 사용하면 데이터에 로그 또는 이벤트가 발생한 로컬 시간을 확인할 수 없다는 단점이 존재함.

* **특정일자의 시작이 되는 unit의 첫날을 가져오는 함수**
    
    ```DQL = """SELECT DATE_TRUNC('month', JOIN_DATE) AS JOIN_MONTH FROM DATA_RETAIL"""```
    
    ```DQL = """SELECT DATE_FORMAT(JOIN_DATE, "%Y-%m-01") AS JOIN_MONTH FROM DATA_RETAIL"""```
    
    
* **날짜 계산**

    고객의 나이, 회원 유지 기간, 두 이벤트 사이의 간격, 특정 기간 내 이벤트 발생 횟수 등을 계산할 때 활용함. 
    
    서로 다른 출처의 날짜를 조합하는 경우에는 타임스탬프의 시간이 제대로 동기화되었는지(사용자 기기, 서버에 저장된 데이터 등 출처가 다른 경우) 확인하여야 함. 우선 서버의 타임스탬프와 사용자의 타임스탬프 값이 다른 데이터를 찾음. 
    
    만약 두 타임스탬프의 시간 차이가 특정 값보다 크면 데이터를 삭제하고, 특정 값보다 작다면 데이터를 버리지 않고 보정하여 남겨둠. 
    
* **시간 윈도우 기반의 시계열 트렌드(데이터가 움직이는 방향) 분석**

    ```DQL = """SELECT DATE_FORMAT(JOIN_DATE, "%Y-%m") AS JOIN_MONTH, COUNT(AMT_USAGE_MEMBERSHIP) AS COUNT_MEMBERSHIP, SUM(AMT_USAGE_MEMBERSHIP) AS SALES_MEMBERSHIP, COUNT(AMT_USAGE_GIFTCERTIFICATE) AS COUNT_GIFTCERTIFICATE, SUM(AMT_USAGE_GIFTCERTIFICATE) AS SALES_GIFTCERTIFICATE FROM DATA_RETAIL GROUP BY 1 ORDER BY JOIN_MONTH"""```

In [70]:
# 본 SQL 쿼리는 데이터베이스에서 모바일 통신 테이블에서 월별 구독 매출과 해당 월의 VIP 등급 회원 매출에 대한 분석을 수행
DQL = """SELECT 
            SUBSCRIPTION_MONTH,
            SUBSCRIPTION_SALES,
            (SUBSCRIPTION_SALES / INDEX_SUBSCRIPTION - 1) * 100 AS PCT_FROM_INDEX
            -- [PCT_FROM_INDEX] 해당 월의 VIP 등급 회원 구독 매출이 인덱스 월 대비 얼마나 증가했는지 백분율로 나타내는 열
FROM (
        SELECT 
            DATE_FORMAT("%Y-%m", T12.SUBSCRIPTION_DATE) AS SUBSCRIPTION_MONTH,
            T22.INDEX_SUBSCRIPTION,
            SUM(T12.SUBSCRIPTION_FEE) AS SUBSCRIPTION_SALES
        FROM DATA_MOBILE_COMMUNICATION AS T12
        
        JOIN (
            SELECT 
                FIRST_MONTH,
                SUM(T11.SUBSCRIPTION_FEE) AS INDEX_SUBSCRIPTION
                -- [INDEX_SUBSCRIPTION] VIP 등급 회원의 첫 번째 월에 대한 총 매출을 나타내는 열
            FROM DATA_MOBILE_COMMUNICATION AS T11
            
            JOIN (
                SELECT 
                    MIN(DATE_FORMAT("%Y-%m", SUBSCRIPTION_DATE)) AS FIRST_MONTH
                    -- [FIRST_MONTH] VIP 등급 회원의 첫 번째 월에 대한 총매출을 나타내는 열
                FROM DATA_MOBILE_COMMUNICATION
                WHERE MEMBERSHIP_GRADE = "VIP"
            ) AS T21 ON DATE_FORMAT("%Y-%m", T11.SUBSCRIPTION_DATE) = T21.FIRST_MONTH
            
            WHERE T11.MEMBERSHIP_GRADE = "VIP"
            GROUP BY 1
        ) AS T22 ON 1 = 1
        
        WHERE T12.MEMBERSHIP_GRADE = "VIP"
        GROUP BY 1, 2
) AS T13
ORDER BY 1
"""

# "일반", "WHITE", "VIP", "VVIP", "GOLD", "SILVER"
# Error Executing Query: (1248, 'Every derived table must have its own alias')

In [71]:
# DQL = input("SQL 쿼리문 입력변수 = ")
queryObject.dataQueryLanguage(sql = DQL)
results = queryObject.queryExecute()

In [72]:
if results:
    # PrettyTable에 결과를 추가할 때 각 행의 값이 컬럼 수와 일치해야 함
    # ValueError: Row has incorrect number of values, (actual) 5!=1 (expected)
    columns = [ [desc[0] for desc in queryObject.Cursor.description] ]
    table = PrettyTable(*columns)
    
    for row in results:
        row_list = list(row)
        table.add_row(row_list)
    print(table)