# **Character Code**
* 캐릭터 정보를 입력받아 캐릭터 코드를 반환받는 스크립트입니다.
* 쿼리 작성 후, 원하는 캐릭터 정보를 확인한 후 캐릭터 코드를 요청합니다.

### **Import**

In [1]:
from concurrent.futures import ThreadPoolExecutor, as_completed
from src.api_request import DNF_API
from configs.config import MYSQL_CONNECTION_STRING
from configs.config import DATA_PATH
from configs.config import API_KEYS
from sqlalchemy import create_engine
from collections import defaultdict
from datetime import datetime, timedelta
from glob import glob
import pandas as pd
import os

# * 오전 06:00 전 데이터는 이전 날짜로 취급합니다.
date = (datetime.now() - timedelta(hours=6)).strftime('%Y%m%d')
engine = create_engine(MYSQL_CONNECTION_STRING)
loaders = [DNF_API(api_key) for api_key in API_KEYS]

%load_ext sql
%sql {MYSQL_CONNECTION_STRING}

### **캐릭터 코드 불러오기 - 멀티스레드**
* 요청받은 직업의 캐릭터 정보들을 이용해 캐릭터 코드를 불러옵니다.
* 속도를 높이기 위해 멀티스레드를 사용합니다.

In [2]:

def request_char_code(loader: DNF_API, sv_eng: str, char_name: str):
    
    """
    ### Summary
        - 캐릭터의 고유 id를 반환합니다.

    ### Args
        - loader (DNF_API) : DNF_API 인스턴스
        - sv_eng (str) : 캐릭터 서버 (영문)
        - char_name (str) : 캐릭터 이름 (인코딩 시 오류 감소)
        
    Returns:
        characterId (str) : 캐릭터 코드 반환. 에러 발생시 None
    """
    
    try:
        code = loader.character_search(sv_eng, char_name)
        return code['characterId'][0]
    except Exception as e:
        print(f"Error getting character code for {char_name}: {e}")
        return None


def character_code(loaders: list, request_list: list, thread_num: int) -> list:

    """
    ### Summary
        - 캐릭터 정보 (영문 서버, 캐릭터 이름)들을 입력받아 캐릭터 코드를 반환하는 함수

    ### Args
        - loaders (list) : DNF 컨테이너가 담긴 리스트
        - request_list (list[str,...,str]) : 요청할 캐릭터 정보
        
    Returns:
        - result (list) : 캐릭터 코드 정보
    """

    # step 1: 요청 리스트에 길이에 맞는 결과 리스트 생성
    L = len(request_list)
    result = [None]*L

    with ThreadPoolExecutor(max_workers = thread_num) as executor:
        
        futures = []
        for idx,(sv_eng,char_encoded_name) in enumerate(request_list):
            
            # step 2: 코드 요청하기
            # * round robbin으로 loader 돌아가면서 사용
            loader = loaders[idx%len(loaders)]
            future = executor.submit(request_char_code,
                                    loader, sv_eng, char_encoded_name)
            futures.append((future, idx))

        # step 3: 값 저장 및 진행상황 출력
        for future,idx in futures:
            try:
                code = future.result()
                result[idx] = code
                
                if idx%1000 == 0:
                    print(f"Processed {(idx/L)*100:.2f}% ({idx}/{L}) rows")
                    
            except Exception as e:
                result[idx] = None
                print(f"Error in future for row {idx}: {e}")
                
    print('complete')
    
    return result

### **MySQL 테이블 생성**
* 파티셔닝과 인덱싱을 통해서 성능을 향상시킵니다.

In [None]:

# * DB에 저장할 테이블 생성
query_create = f"""
CREATE TABLE character_{date} (
    sv_kor VARCHAR(20),
    sv_eng VARCHAR(20),
    char_name VARCHAR(20),
    char_name_encoded VARCHAR(255),
    char_code VARCHAR(255),
    char_img VARCHAR(255),
    job_name VARCHAR(20),
    lv INT,
    fame INT
)
"""

%sql {query_create}

#### **크롤링 데이터 직업 별 파티셔닝**


In [12]:

# * 직업군 별 직업 묶음
query = """
select job_group, group_concat(job_name separator ',') as grouped
from job_info
group by job_group
"""

temp = %sql {query}

# * 직업군 별 직업 목록
grouped_df = pd.DataFrame(temp)

# * 파티셔닝 쿼리 작성을 위한 분리
partition = defaultdict(set)
for idx,row in grouped_df.iterrows():
    job_group, grouped = row['job_group'], row['grouped']
    jobs = grouped.split(',')
    partition[job_group].update(jobs)
partition

 * mysql+mysqlconnector://root:***@localhost:3306/dnf
16 rows affected.


defaultdict(set,
            {'거너(남)': {'남런처', '남레인저', '남메카닉', '남스핏파이어', '어썰트'},
             '거너(여)': {'여런처', '여레인저', '여메카닉', '여스핏파이어'},
             '격투가(남)': {'남그래플러', '남넨마스터', '남스트라이커', '남스트리트파이터'},
             '격투가(여)': {'여그래플러', '여넨마스터', '여스트라이커', '여스트리트파이터'},
             '귀검사(남)': {'검귀', '버서커', '소울브링어', '아수라', '웨펀마스터'},
             '귀검사(여)': {'다크템플러', '데몬슬레이어', '베가본드', '블레이드', '소드마스터'},
             '나이트': {'드래곤나이트', '엘븐나이트', '카오스', '팔라딘'},
             '도적': {'로그', '사령술사', '섀도우댄서', '쿠노이치'},
             '마법사(남)': {'디멘션워커', '블러드 메이지', '빙결사', '스위프트 마스터', '엘레멘탈 바머'},
             '마법사(여)': {'마도학자', '배틀메이지', '소환사', '엘레멘탈 마스터', '인챈트리스'},
             '마창사': {'다크 랜서', '듀얼리스트', '드래고니안 랜서', '뱅가드'},
             '아처': {'뮤즈', '비질란테', '트래블러', '헌터'},
             '외전': {'다크나이트', '크리에이터'},
             '총검사': {'스페셜리스트', '요원', '트러블 슈터', '히트맨'},
             '프리스트(남)': {'남크루세이더', '어벤저', '인파이터', '퇴마사'},
             '프리스트(여)': {'무녀', '미스트리스', '여크루세이더', '이단심판관'}})

In [13]:
job_group_eng = [
    "Gunner (Male)",
    "Gunner (Female)",
    "Fighter (Male)",
    "Fighter (Female)",
    "Slayer (Male)",
    "Slayer (Female)",
    "Knight",
    "Thief",
    "Mage (Male)",
    "Mage (Female)",
    "Demonic Lancer",
    "Archer",
    "ETC",
    "Agent",
    "Priest (Male)",
    "Priest (Female)"
]

In [14]:

# * 파티셔닝 쿼리 작성
query_list_partition = f"""
ALTER TABLE character_{date}
PARTITION BY LIST COLUMNS (job_name) (
"""
for group, jobs in zip(job_group_eng, partition.values()):
    partition_name = group.replace(' ', '_').replace('(', '').replace(')', '')
    columns = str(tuple(jobs))
    query_list_partition += f'    PARTITION {partition_name} VALUES IN {columns},\n'

query_list_partition = query_list_partition.rstrip(',\n') + "\n);"
print(query_list_partition)

%sql {query_list_partition}

# * 파티셔닝 목록 확인
query = f"""
SELECT
    PARTITION_NAME,
    PARTITION_EXPRESSION,
    PARTITION_DESCRIPTION,
    TABLE_ROWS
FROM
    INFORMATION_SCHEMA.PARTITIONS
WHERE
    TABLE_NAME = 'character_{date}';

"""
%sql {query}


ALTER TABLE character_20240824
PARTITION BY LIST COLUMNS (job_name) (
    PARTITION Gunner_Male VALUES IN ('남스핏파이어', '남런처', '어썰트', '남메카닉', '남레인저'),
    PARTITION Gunner_Female VALUES IN ('여스핏파이어', '여런처', '여레인저', '여메카닉'),
    PARTITION Fighter_Male VALUES IN ('남스트리트파이터', '남스트라이커', '남그래플러', '남넨마스터'),
    PARTITION Fighter_Female VALUES IN ('여그래플러', '여넨마스터', '여스트라이커', '여스트리트파이터'),
    PARTITION Slayer_Male VALUES IN ('웨펀마스터', '검귀', '버서커', '아수라', '소울브링어'),
    PARTITION Slayer_Female VALUES IN ('블레이드', '소드마스터', '데몬슬레이어', '다크템플러', '베가본드'),
    PARTITION Knight VALUES IN ('카오스', '팔라딘', '엘븐나이트', '드래곤나이트'),
    PARTITION Thief VALUES IN ('섀도우댄서', '로그', '쿠노이치', '사령술사'),
    PARTITION Mage_Male VALUES IN ('스위프트 마스터', '디멘션워커', '빙결사', '엘레멘탈 바머', '블러드 메이지'),
    PARTITION Mage_Female VALUES IN ('인챈트리스', '소환사', '배틀메이지', '엘레멘탈 마스터', '마도학자'),
    PARTITION Demonic_Lancer VALUES IN ('드래고니안 랜서', '뱅가드', '듀얼리스트', '다크 랜서'),
    PARTITION Archer VALUES IN ('트래블러', '비질란테', '뮤즈', '헌터'),
    PARTITION ETC VAL

PARTITION_NAME,PARTITION_EXPRESSION,PARTITION_DESCRIPTION,TABLE_ROWS
Agent,`job_name`,"'히트맨','트러블 슈터','스페셜리스트','요원'",0
Archer,`job_name`,"'트래블러','비질란테','뮤즈','헌터'",0
Demonic_Lancer,`job_name`,"'드래고니안 랜서','뱅가드','듀얼리스트','다크 랜서'",0
ETC,`job_name`,"'크리에이터','다크나이트'",0
Fighter_Female,`job_name`,"'여그래플러','여넨마스터','여스트라이커','여스트리트파이터'",0
Fighter_Male,`job_name`,"'남스트리트파이터','남스트라이커','남그래플러','남넨마스터'",0
Gunner_Female,`job_name`,"'여스핏파이어','여런처','여레인저','여메카닉'",0
Gunner_Male,`job_name`,"'남스핏파이어','남런처','어썰트','남메카닉','남레인저'",0
Knight,`job_name`,"'카오스','팔라딘','엘븐나이트','드래곤나이트'",0
Mage_Female,`job_name`,"'인챈트리스','소환사','배틀메이지','엘레멘탈 마스터','마도학자'",0


#### **인덱스 생성**
* 직업군 외 가장 사용 빈도가 높은 fame 컬럼에 인덱스 부여

In [15]:

# * 인덱스 생성 쿼리 작성
query_create_index = f"""
CREATE INDEX idx_fame ON character_{date} (fame);
"""
%sql {query_create_index}

# * 인덱스 목록 확인
query = f"""
SHOW INDEX FROM character_{date};
"""
%sql {query}


 * mysql+mysqlconnector://root:***@localhost:3306/dnf
0 rows affected.
 * mysql+mysqlconnector://root:***@localhost:3306/dnf
1 rows affected.


Table,Non_unique,Key_name,Seq_in_index,Column_name,Collation,Cardinality,Sub_part,Packed,Null,Index_type,Comment,Index_comment,Visible,Expression
character_20240824,1,idx_fame,1,fame,A,0,,,YES,BTREE,,,YES,


In [None]:

# * 크롤링 날짜에 해당하는 캐릭터 정보 불러오기
folder_path = os.path.join(DATA_PATH, 'crawling_data', f'{date}')
csv_files = glob(os.path.join(folder_path, '*.csv'))

for file in csv_files:
    
    # step 1 : 요청할 서버, 캐릭터 이름 정보 불러오기
    df = pd.read_csv(file, encoding='utf-8')
    request_list = [tuple(row) for row in df[['sv_eng', 'char_name_encoded']].values]
    
    # step 2 : 캐릭터 코드 불러오기
    df['char_code'] = character_code(loaders, request_list, 16)
    
    # step 3 : 저장
    df.to_csv(file, index=False, encoding='utf-8')
    df.to_sql(f'character_{date}', con=engine, if_exists='append', index=False)
