# Character Adventure
* 캐릭터의 정보를 받아서 모험단을 추출합니다.
* project/script/charcter_code.ipynb 실행 후 사용합니다.


In [1]:
from concurrent.futures import ThreadPoolExecutor, as_completed
from src.api_request import DNF_API
from configs.config import MYSQL_CONNECTION_STRING
from configs.config import API_KEYS
from configs.config import DATA_PATH
from sqlalchemy import create_engine
from collections import defaultdict
from datetime import datetime, timedelta
from glob import glob
import pandas as pd
import os
import time
from tqdm import tqdm

# * 오전 06:00 전 데이터는 이전 날짜로 취급합니다.
date = (datetime.now() - timedelta(hours=6)).strftime('%Y%m%d')
engine = create_engine(MYSQL_CONNECTION_STRING)
loaders = [DNF_API(api_key) for api_key in API_KEYS]

%load_ext sql
%sql {MYSQL_CONNECTION_STRING}

In [2]:
from ratelimit import limits, sleep_and_retry
from threading import BoundedSemaphore

semaphore = BoundedSemaphore(value=20)
ONE_SECOND = 1

@sleep_and_retry
@limits(calls=110, period=ONE_SECOND)
def request_adventure(loader: DNF_API, sv_eng: str, char_code: str):
    
    """
    ### Summary
        - 캐릭터의 모험단 정보를 반환합니다.

    ### Args
        - loader (DNF_API) : DNF_API 인스턴스
        - sv_eng (str) : 캐릭터 서버 (영문)
        - char_code (str) : 캐릭터 고유 코드
    """
    
    try:
        if char_code == None:
            return None
        
        timeline = loader.timeline(sv_eng, char_code,limit=1)
        
        if timeline == None:
            return None
        
        return timeline['adventureName']
    
    except Exception as e:
        return None


def adventure(loaders: list, job_name: str, request_list: list, thread_num: int) -> list:

    """
    ### Summary
        - 캐릭터 정보 (영문 서버, 캐릭터 이름)들을 입력받아 모험단 정보들을 반환하는 함수

    ### Args
        - loaders (list) : DNF 컨테이너가 담긴 리스트
        - request_list (list[str,...,str]) : 요청할 캐릭터 정보
        
    Returns:
        - result (list) : 캐릭터 모험단 정보
    """

    # step 1: 요청 리스트에 길이에 맞는 결과 리스트 생성
    L = len(request_list)
    result = [None]*L

    with ThreadPoolExecutor(max_workers = thread_num) as executor:
        
        futures = []
        for idx,(sv_eng,char_code) in enumerate(request_list):
            
            # step 2: 코드 요청하기
            # * round robbin으로 loader 돌아가면서 사용
            loader = loaders[idx%len(loaders)]
            future = executor.submit(request_adventure,
                                    loader, sv_eng, char_code)
            futures.append((future, idx))

        # step 3: 값 저장 및 진행상황 출력
        for future, idx in tqdm(futures, total=len(futures), desc=f"{job_name} 처리 중"):
            try:
                adventure = future.result()
                result[idx] = adventure
 
            except Exception as e:
                result[idx] = None
                
    return result

### **MySQL 테이블 생성**
* 파티셔닝과 인덱싱을 통해서 성능을 향상시킵니다.

In [6]:

# * DB에 저장할 테이블 생성
query_create = f"""
CREATE TABLE character_{date} (
    sv_kor VARCHAR(20),
    sv_eng VARCHAR(20),
    char_name VARCHAR(20),
    char_name_encoded VARCHAR(255),
    char_code VARCHAR(255),
    char_img VARCHAR(255),
    job_name VARCHAR(20),
    lv INT,
    fame INT,
    adventure VARCHAR(20)
)
"""

%sql {query_create}

 * mysql+mysqlconnector://root:***@localhost:3306/dnf
0 rows affected.


[]

#### **크롤링 데이터 직업 별 파티셔닝**


In [7]:

# * 직업군 별 직업 묶음
query = """
select job_group, group_concat(job_name separator ',') as grouped
from job_info
group by job_group
"""

temp = %sql {query}

# * 직업군 별 직업 목록
grouped_df = pd.DataFrame(temp)

# * 파티셔닝 쿼리 작성을 위한 분리
partition = {}
for idx,row in grouped_df.iterrows():
    job_group, grouped = row['job_group'], row['grouped']
    jobs = grouped.split(',')
    partition[job_group] = jobs

job_group_eng = [
    "Gunner (Male)", "Gunner (Female)",
    "Fighter (Male)", "Fighter (Female)",
    "Slayer (Male)", "Slayer (Female)",
    "Knight",
    "Thief",
    "Mage (Male)", "Mage (Female)",
    "Demonic Lancer",
    "Archer",
    "ETC",
    "Agent",
    "Priest (Male)", "Priest (Female)"
]

for row in zip(job_group_eng, partition.items()):
    print(row)

 * mysql+mysqlconnector://root:***@localhost:3306/dnf
16 rows affected.
('Gunner (Male)', ('거너(남)', ['남스핏파이어', '남런처', '남레인저', '남메카닉', '어썰트']))
('Gunner (Female)', ('거너(여)', ['여메카닉', '여레인저', '여런처', '여스핏파이어']))
('Fighter (Male)', ('격투가(남)', ['남그래플러', '남넨마스터', '남스트라이커', '남스트리트파이터']))
('Fighter (Female)', ('격투가(여)', ['여넨마스터', '여그래플러', '여스트리트파이터', '여스트라이커']))
('Slayer (Male)', ('귀검사(남)', ['검귀', '버서커', '아수라', '소울브링어', '웨펀마스터']))
('Slayer (Female)', ('귀검사(여)', ['소드마스터', '베가본드', '블레이드', '다크템플러', '데몬슬레이어']))
('Knight', ('나이트', ['드래곤나이트', '엘븐나이트', '카오스', '팔라딘']))
('Thief', ('도적', ['섀도우댄서', '사령술사', '로그', '쿠노이치']))
('Mage (Male)', ('마법사(남)', ['디멘션워커', '스위프트 마스터', '빙결사', '엘레멘탈 바머', '블러드 메이지']))
('Mage (Female)', ('마법사(여)', ['배틀메이지', '소환사', '엘레멘탈 마스터', '마도학자', '인챈트리스']))
('Demonic Lancer', ('마창사', ['다크 랜서', '듀얼리스트', '드래고니안 랜서', '뱅가드']))
('Archer', ('아처', ['뮤즈', '비질란테', '트래블러', '헌터']))
('ETC', ('외전', ['다크나이트', '크리에이터']))
('Agent', ('총검사', ['요원', '트러블 슈터', '히트맨', '스페셜리스트']))
('Priest (Male)', ('프리스트(남

In [8]:

# * 파티셔닝 쿼리 작성
query_list_partition = f"""
ALTER TABLE character_{date}
PARTITION BY LIST COLUMNS (job_name) (
"""
for group, jobs in zip(job_group_eng, partition.values()):
    partition_name = group.replace(' ', '_').replace('(', '').replace(')', '')
    columns = str(tuple(jobs))
    query_list_partition += f'    PARTITION {partition_name} VALUES IN {columns},\n'

query_list_partition = query_list_partition.rstrip(',\n') + "\n);"
print(query_list_partition)

%sql {query_list_partition}

# * 파티셔닝 목록 확인
query = f"""
SELECT
    PARTITION_NAME,
    PARTITION_EXPRESSION,
    PARTITION_DESCRIPTION,
    TABLE_ROWS
FROM
    INFORMATION_SCHEMA.PARTITIONS
WHERE
    TABLE_NAME = 'character_{date}';

"""
%sql {query}


ALTER TABLE character_20240826
PARTITION BY LIST COLUMNS (job_name) (
    PARTITION Gunner_Male VALUES IN ('남스핏파이어', '남런처', '남레인저', '남메카닉', '어썰트'),
    PARTITION Gunner_Female VALUES IN ('여메카닉', '여레인저', '여런처', '여스핏파이어'),
    PARTITION Fighter_Male VALUES IN ('남그래플러', '남넨마스터', '남스트라이커', '남스트리트파이터'),
    PARTITION Fighter_Female VALUES IN ('여넨마스터', '여그래플러', '여스트리트파이터', '여스트라이커'),
    PARTITION Slayer_Male VALUES IN ('검귀', '버서커', '아수라', '소울브링어', '웨펀마스터'),
    PARTITION Slayer_Female VALUES IN ('소드마스터', '베가본드', '블레이드', '다크템플러', '데몬슬레이어'),
    PARTITION Knight VALUES IN ('드래곤나이트', '엘븐나이트', '카오스', '팔라딘'),
    PARTITION Thief VALUES IN ('섀도우댄서', '사령술사', '로그', '쿠노이치'),
    PARTITION Mage_Male VALUES IN ('디멘션워커', '스위프트 마스터', '빙결사', '엘레멘탈 바머', '블러드 메이지'),
    PARTITION Mage_Female VALUES IN ('배틀메이지', '소환사', '엘레멘탈 마스터', '마도학자', '인챈트리스'),
    PARTITION Demonic_Lancer VALUES IN ('다크 랜서', '듀얼리스트', '드래고니안 랜서', '뱅가드'),
    PARTITION Archer VALUES IN ('뮤즈', '비질란테', '트래블러', '헌터'),
    PARTITION ETC VAL

PARTITION_NAME,PARTITION_EXPRESSION,PARTITION_DESCRIPTION,TABLE_ROWS
Agent,`job_name`,"'요원','트러블 슈터','히트맨','스페셜리스트'",0
Archer,`job_name`,"'뮤즈','비질란테','트래블러','헌터'",0
Demonic_Lancer,`job_name`,"'다크 랜서','듀얼리스트','드래고니안 랜서','뱅가드'",0
ETC,`job_name`,"'다크나이트','크리에이터'",0
Fighter_Female,`job_name`,"'여넨마스터','여그래플러','여스트리트파이터','여스트라이커'",0
Fighter_Male,`job_name`,"'남그래플러','남넨마스터','남스트라이커','남스트리트파이터'",0
Gunner_Female,`job_name`,"'여메카닉','여레인저','여런처','여스핏파이어'",0
Gunner_Male,`job_name`,"'남스핏파이어','남런처','남레인저','남메카닉','어썰트'",0
Knight,`job_name`,"'드래곤나이트','엘븐나이트','카오스','팔라딘'",0
Mage_Female,`job_name`,"'배틀메이지','소환사','엘레멘탈 마스터','마도학자','인챈트리스'",0


#### **인덱스 생성**
* 직업군 외 가장 사용 빈도가 높은 fame 컬럼에 인덱스 부여

In [9]:

# * 인덱스 생성 쿼리 작성
query_create_index = f"""
CREATE INDEX idx_fame ON character_{date} (fame);
"""
%sql {query_create_index}

# * 인덱스 목록 확인
query = f"""
SHOW INDEX FROM character_{date};
"""
%sql {query}


 * mysql+mysqlconnector://root:***@localhost:3306/dnf
0 rows affected.
 * mysql+mysqlconnector://root:***@localhost:3306/dnf
1 rows affected.


Table,Non_unique,Key_name,Seq_in_index,Column_name,Collation,Cardinality,Sub_part,Packed,Null,Index_type,Comment,Index_comment,Visible,Expression
character_20240826,1,idx_fame,1,fame,A,0,,,YES,BTREE,,,YES,


#### **어드벤처 정보 불러오기**

In [3]:

# * 크롤링 날짜에 해당하는 캐릭터 정보 불러오기
folder_path = os.path.join(DATA_PATH, 'crawling_data', f'{date}')
csv_files = glob(os.path.join(folder_path, '*.csv'))

for file in csv_files:
    
    # step 1 : 요청할 서버, 캐릭터 코드 정보 불러오기
    job_name = file.split('\\')[-1][:-4]
    
    df = pd.read_csv(file, encoding='utf-8')
    request_list = [tuple(row) for row in df[['sv_eng', 'char_code']].values]
    
    # step 2 : 모험단 정보 가져오기
    df['adventure'] = adventure(loaders, job_name, request_list, 16)
    
    # step 3 : 저장
    df.to_csv(file, index=False, encoding='utf-8')
    df.to_sql(f'character_{date}', con=engine, if_exists='append', index=False)

검귀 처리 중: 100%|██████████| 28737/28737 [04:20<00:00, 110.10it/s]
남그래플러 처리 중: 100%|██████████| 8140/8140 [01:14<00:00, 109.59it/s]
남넨마스터 처리 중: 100%|██████████| 23268/23268 [03:31<00:00, 110.06it/s]
남런처 처리 중: 100%|██████████| 20504/20504 [03:06<00:00, 110.22it/s]
남레인저 처리 중: 100%|██████████| 34613/34613 [05:14<00:00, 110.07it/s]
남메카닉 처리 중: 100%|██████████| 10882/10882 [01:38<00:00, 110.67it/s]
남스트라이커 처리 중: 100%|██████████| 9553/9553 [01:27<00:00, 109.02it/s]
남스트리트파이터 처리 중: 100%|██████████| 5016/5016 [00:45<00:00, 110.99it/s]
남스핏파이어 처리 중: 100%|██████████| 12848/12848 [01:56<00:00, 110.16it/s]
남크루세이더 처리 중: 100%|██████████| 57832/57832 [08:48<00:00, 109.53it/s]
다크 랜서 처리 중: 100%|██████████| 11775/11775 [01:46<00:00, 110.13it/s]
다크나이트 처리 중: 100%|██████████| 8362/8362 [01:15<00:00, 110.67it/s]
다크템플러 처리 중: 100%|██████████| 18972/18972 [02:52<00:00, 110.02it/s]
데몬슬레이어 처리 중: 100%|██████████| 23248/23248 [03:32<00:00, 109.54it/s]
듀얼리스트 처리 중: 100%|██████████| 5010/5010 [00:45<00:00, 110.58it/s]
드래고니안