# 1. Setting Lib

In [696]:
# 데이터 처리 및 분석
import numpy as np
import pandas as pd
from datetime import datetime, timedelta
import warnings

# 출력 설정
warnings.filterwarnings('ignore')

# 열 노출 갯수 설정(좌우로 몇개 컬럼까지 출력 할지 설정/ 몇개부터 생략할것인지)
pd.set_option('display.max_columns', 50)

# 행 노출 갯수 설정(상하로 몇개 행까지 출력할지 설정/ 몇개부터 생략할것인지)
pd.set_option('display.max_rows', 500)

# 결과셀 노출 갯수 설정(결과값을 몇개까지 출력할지 설정/ 몇개부터 생략할것인지)
pd.set_option('display.max_colwidth', 100)

# ------------------------------------

# 2. Dataset Load

## 데이터셋 호출 함수

In [697]:
# 데이터셋 호출 함수
def Load_dataset(raw_file):
    return pd.read_csv(raw_file)

# 호출 방법 < '데이터셋 호출명' = Load_dataset('파일 경로') >

## 데이터셋 호출 정보



### 1. agents 바운더리 정보
   |호출명|파일 정보|
   |---|---|
   |agents_ag_pk       |  agents_pick         |
   |agents_mp_st       |  maps_stats          |
   |agents_tm_pk_ag      |  teams_picked_agents |
---
### 2. ids 바운더리 정보  
   |호출명|파일 정보|
   |---|---|
   | ids_pl_id       |  players_ids                            |
   | ids_tm_id       |  teams_ids                              |
   | ids_ts_mt       |  tournaments_stages_match_types_ids     |
   | ids_ts_mg       |  tournaments_stages_matches_games_ids   |
---
### 3. matches 바운더리 정보  
   |호출명|파일 정보|
   |---|---|
   | match_dr_ph     |  draft_phase                     |
   | match_ec_ro     |  eco_rounds                      |
   | match_ec_st     |  eco_stats                       |
   | match_kl_st     |  kill_stats                      |
   | match_kl        |  kills                           |
   | match_mp_pl     |  maps_played                     |
   | match_mp_sc     |  maps_scores                     |
   | match_ov        |  overview                        |
   | match_ro_kl     |  rounds_kill                     |
   | match_sc        |  scores                          |
   | match_tm_mp     |  team_mapping                    |
   | match_wl_cnt    |  win_loss_methods_count          |
   | match_wl_ro_num |  win_loss_methods_round_number   |
---
### 4. players 바운더리 정보
   |호출명|파일 정보|
   |---|---|
   | player_pl_st    |   players_stats  |

## 데이터셋 호출 실행

In [None]:
# 데이터셋 변수명:경로 딕셔너리

Data_set = {
    # agents 정보
    'agents_ag_pk'      :   'Raw_Data/vct_2025/agents/agents_pick_rates.csv',
    'agents_mp_st'      :   'Raw_Data/vct_2025/agents/maps_stats.csv',
    'agents_tm_pk_ag'   :   'Raw_Data/vct_2025/agents/teams_picked_agents.csv',

    # ids 바운더리 정보
    'ids_pl_id'         :   'Raw_Data/vct_2025/ids/players_ids.csv',
    'ids_tm_id'         :   'Raw_Data/vct_2025/ids/teams_ids.csv',
    'ids_ts_mt'         :   'Raw_Data/vct_2025/ids/tournaments_stages_match_types_ids.csv',
    'ids_ts_mg'         :   'Raw_Data/vct_2025/ids/tournaments_stages_matches_games_ids.csv',

    # matches 바운더리 정보
    'match_dr_ph'         : 'Raw_Data/vct_2025/matches/draft_phase.csv',
    'match_ec_ro'         : 'Raw_Data/vct_2025/matches/eco_rounds.csv',
    'match_ec_st'         : 'Raw_Data/vct_2025/matches/eco_stats.csv',
    'match_kl_st'         : 'Raw_Data/vct_2025/matches/kills_stats.csv',
    'match_kl'            : 'Raw_Data/vct_2025/matches/kills.csv',
    'match_mp_pl'         : 'Raw_Data/vct_2025/matches/maps_played.csv',
    'match_mp_sc'         : 'Raw_Data/vct_2025/matches/maps_scores.csv',
    'match_ov'            : 'Raw_Data/vct_2025/matches/overview.csv',
    'match_ro_kl'         : 'Raw_Data/vct_2025/matches/rounds_kills.csv',
    'match_sc'            : 'Raw_Data/vct_2025/matches/scores.csv',
    'match_tm_mp'         : 'Raw_Data/vct_2025/matches/team_mapping.csv',
    'match_wl_cnt'        : 'Raw_Data/vct_2025/matches/win_loss_methods_count.csv',
    'match_wl_ro_num'     : 'Raw_Data/vct_2025/matches/win_loss_methods_round_number.csv',

    # player_stats 바운더리 정보
    'player_pl_st'        : 'Raw_Data/vct_2025\players_stats\players_stats.csv'
    }

agents_ag_pk    = Load_dataset(Data_set.get('agents_ag_pk'))
agents_mp_st    = Load_dataset(Data_set.get('agents_mp_st'))
agents_tm_pk_ag = Load_dataset(Data_set.get('agents_tm_pk_ag'))

ids_pl_id       = Load_dataset(Data_set.get('ids_pl_id'))
ids_tm_id       = Load_dataset(Data_set.get('ids_tm_id'))
ids_ts_mt       = Load_dataset(Data_set.get('ids_ts_mt'))
ids_ts_mg       = Load_dataset(Data_set.get('ids_ts_mg'))

match_dr_ph     = Load_dataset(Data_set.get('match_dr_ph'))
match_ec_ro     = Load_dataset(Data_set.get('match_ec_ro'))
match_ec_st     = Load_dataset(Data_set.get('match_ec_st'))
match_kl_st     = Load_dataset(Data_set.get('match_kl_st'))
match_kl        = Load_dataset(Data_set.get('match_kl'))
match_mp_pl     = Load_dataset(Data_set.get('match_mp_pl'))
match_mp_sc     = Load_dataset(Data_set.get('match_mp_sc'))
match_ov        = Load_dataset(Data_set.get('match_ov'))
match_ro_kl     = Load_dataset(Data_set.get('match_ro_kl'))
match_sc        = Load_dataset(Data_set.get('match_sc'))
match_tm_mp     = Load_dataset(Data_set.get('match_tm_mp'))
match_wl_cnt    = Load_dataset(Data_set.get('match_wl_cnt'))
match_wl_ro_num = Load_dataset(Data_set.get('match_wl_ro_num'))

player_pl_st    = Load_dataset(Data_set.get('player_pl_st'))

# ------------------------------------

# 3. 데이터프레임 확인

## 데이터프레임 확인용 섹션

In [699]:
ids_ts_mg.head()

Unnamed: 0,Tournament,Tournament ID,Stage,Stage ID,Match Type,Match Name,Match ID,Map,Game ID
0,Valorant Champions 2023,1657,Group Stage,3145,Opening (D),Team Liquid vs Natus Vincere,247100,Fracture,137395
1,Valorant Champions 2023,1657,Group Stage,3145,Opening (D),Team Liquid vs Natus Vincere,247100,Bind,137396
2,Valorant Champions 2023,1657,Group Stage,3145,Opening (D),DRX vs LOUD,247101,Lotus,137398
3,Valorant Champions 2023,1657,Group Stage,3145,Opening (D),DRX vs LOUD,247101,Split,137399
4,Valorant Champions 2023,1657,Group Stage,3145,Opening (D),DRX vs LOUD,247101,Ascent,137400


# ------------------------------------

# 4. 1차 데이터 가공

## 기준 데이터 세팅

### 중복,결측 처리 함수

In [700]:
def check_clean(df):
    print(f'\n데이터셋 정보를 로드합니다.')
    print(f'Before Shape : {df.shape}')
    print(f'Before Dupli : {df.duplicated().sum()}')
    print(f'\nBefore Isnull: \n{df.isnull().sum()}')

    # -------------------------------
    # 공통: y/n 입력 받는 함수
    # -------------------------------
    def ask_y_n(msg, max_try=10):
        for i in range(max_try):
            ans = input(msg).strip().lower()
            if ans in ("y", "n"):
                return ans
            print(f"❌ y 또는 n만 입력해주세요. ({i+1}/{max_try})")
        print("❌ 10회 이상 오류로 종료합니다.")
        return None

    # -------------------------------
    # 1) 중복 제거 확인
    # -------------------------------
    def accept_duplicated(df):
        check_dup = ask_y_n("중복제거 실행하시겠습니까? (y/n) : ")
        if check_dup is None or check_dup == "n":
            print('\n중복 제거를 실행하지 않습니다.\n')
            return df

        final_trigger = ask_y_n("정말 실행하시겠습니까? (y/n) : ")
        if final_trigger is None or final_trigger == "n":
            print('\n실행하지 않습니다. 종료합니다.\n')
            return df

        clean_df = df.drop_duplicates()
        print('\n✅ 중복 제거 되었습니다.\n')
        return clean_df

    # -------------------------------
    # 공통: 올바른 컬럼명 받기
    # -------------------------------
    def get_valid_column(df, max_try=10):
        for i in range(max_try):
            col = input("결측 대체할 컬럼명을 입력하세요 (취소는 x): ").strip()

            # 취소 기능
            if col.lower() == "x":
                print("❌ 컬럼 선택을 취소합니다.\n")
                return None

            # 정상적인 컬럼 입력
            if col in df.columns:
                print(f"✔ '{col}' 컬럼 확인 완료\n")
                return col
            
            print(f"❌ '{col}' 컬럼이 없습니다. 다시 입력해주세요. ({i+1}/{max_try})")

        print("❌ 10회 이상 잘못 입력하여 컬럼 선택을 종료합니다.")
        return None

    # -------------------------------
    # 2) 결측 처리
    # -------------------------------
    def accept_dropna(df):
        # 통계 연산 로직
        allowed_funcs = {
            "mean"  : lambda c: df[c].mean(),
            "median": lambda c: df[c].median(),
            "mode"  : lambda c: df[c].mode(dropna=True)[0]
        }

        for i in range(10):
            select_na_raw = input(
                "결측 대체 방식을 선택하세요 "
                "[전체 행 제거 : 1], [특정 컬럼 대체 : 2], [실행 취소 : 3] : "
            ).strip()

            if not select_na_raw.isdigit():
                print(f"❌ 숫자만 입력해주세요. ({i+1}/10)")
                continue

            select_na = int(select_na_raw)

            # (1) 전체 행 제거
            if select_na == 1:
                check_run = input(
                    "전체 제거를 선택하셨습니다.\n"
                    "실행하려면 아무 키나 입력 후 Enter,\n"
                    "취소하려면 그냥 Enter : "
                )

                if check_run.strip() == "":
                    print("❌ 취소되었습니다.")
                    return df

                clean_df = df.dropna()
                print("✅ 전체 결측 행 제거 완료.")
                return clean_df

            # (2) 특정 컬럼 대체
            elif select_na == 2:
                col = get_valid_column(df)
                if col is None:
                    return df  # 컬럼 못 찾으면 종료

                for j in range(10):
                    method = input(
                        "대체 방식(mean/median/mode 또는 직접 입력 값) : "
                    ).strip()

                    if method in allowed_funcs:
                        replace_value = allowed_funcs[method](col)
                    else:
                        # 직접 입력값은 숫자로 바꿀 수 있으면 숫자로
                        try:
                            replace_value = float(method)
                            if replace_value.is_integer():
                                replace_value = int(replace_value)
                        except:
                            replace_value = method

                    print(f"\n선택한 컬럼명       : {col}")
                    print(f"대체 방식(method)   : {method}")
                    print(f"적용될 대체 값      : {replace_value}")

                    confirm = ask_y_n(
                        f"{replace_value} 값으로 결측치를 대체하시겠습니까? (y/n) : "
                    )

                    if confirm is None or confirm == "n":
                        print("❌ 대체를 취소했습니다.")
                        return df

                    df[col] = df[col].fillna(replace_value)
                    print("✅ 대체가 완료되었습니다.")
                    return df

            # (3) 실행 취소
            elif select_na == 3:
                print("❌ 실행을 중지합니다.")
                return df

            else:
                print(f"❌ 1~3 중에서 선택해주세요. ({i+1}/10)")

        print("❌ 10회 이상 입력 오류로 결측 처리 종료.")
        return df

    clean_df = accept_duplicated(df)
    clean_df = accept_dropna(clean_df)

    print(f'After Shape : {clean_df.shape}')
    print(f'After Dupli : {clean_df.duplicated().sum()}')
    print(f'\nAfter Isnull: \n{clean_df.isnull().sum()}')
    print('*'*15)

    return clean_df

### 중복,결측 처리 실행

In [701]:
ds_ts_mt       = check_clean(ids_ts_mt)      # 중복제거 (올매치) n/n/1/1

# match_dr_ph     = check_clean(match_dr_ph)
# match_ec_ro     = check_clean(match_ec_ro)
# match_ec_st     = check_clean(match_ec_st)
# match_kl_st     = check_clean(match_kl_st)
# match_kl        = check_clean(match_kl)
# match_mp_pl     = check_clean(match_mp_pl)
# match_mp_sc     = check_clean(match_mp_sc)
# match_ov        = check_clean(match_ov)
# match_ro_kl     = check_clean(match_ro_kl)
# match_sc        = check_clean(match_sc)
# match_tm_mp     = check_clean(match_tm_mp)
# match_wl_cnt    = check_clean(match_wl_cnt)
# match_wl_ro_num = check_clean(match_wl_ro_num)




데이터셋 정보를 로드합니다.
Before Shape : (137, 6)
Before Dupli : 0

Before Isnull: 
Tournament        0
Tournament ID     0
Stage             0
Stage ID         10
Match Type        0
Match Type ID    10
dtype: int64

✅ 중복 제거 되었습니다.

✅ 전체 결측 행 제거 완료.
After Shape : (127, 6)
After Dupli : 0

After Isnull: 
Tournament       0
Tournament ID    0
Stage            0
Stage ID         0
Match Type       0
Match Type ID    0
dtype: int64
***************


### 동일 데이터 제거

In [702]:
## ids_ts_mg 데이터셋 기준으로 Merge 확장


ids_ts_mg = ids_ts_mg[ids_ts_mg['Stage'] != 'Showmatch']    # Showmatch 는 이벤트성 매치로 누락데이터 존재하며 성적에 관여하지않아 Drop 처리


merge_set = ids_ts_mg

##  데이터셋 [Match ID] 컬럼 추가 함수

### 함수

In [703]:
def contrast_match_id(base_data, target_data,add_col, key_cols):
    '''
    1. 데이터 셋 두개를 base_data , target_data로 받음
    2. key_cols내 컬럼이 모두 포함되어 있는지 일치 여부 확인
    3. 모두 포함될 경우 target_data에 add_col 추가
    '''
    # 1) 키 컬럼 일치 여부 체크
    missing_cols = []
    
    for col in key_cols:
        if col not in base_data.columns or col not in target_data.columns:
            missing_cols.append(col)

    if missing_cols:
        print(f"{missing_cols} 컬럼이 일치하지 않습니다.")
        print(" merge를 실행하지 않습니다.\n")
        return target_data

    print(f"{key_cols} 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.")


    # 2) target_data에 add_col이 이미 있으면 merge 미실행
    for col in add_col:
        if col in target_data.columns:
            print(f"{col} 컬럼이 이미 존재합니다. merge를 실행하지 않습니다.")
            return target_data


    # 3) 조건 만족 시 merge 실행
    merged = target_data.merge(
        base_data[key_cols + add_col],
        on=key_cols,
        how='left'
    )

    print(f"{add_col} 컬럼을 성공적으로 추가했습니다.\n")
    return merged

###  데이터셋 [Match ID] 컬럼 추가 함수 - 데이터 셋 내에 Match name 컬럼이 없는경우

In [704]:
import numpy as np

def merge_match_id_by_contains_nogroup(base_data, target_data,
                                       key_cols=('Tournament', 'Stage', 'Match Type', 'Map'),
                                       team_col='Team',
                                       matchname_col='Match Name',
                                       matchid_col='Match ID'):
    """
    조건:
    1) key_cols 값이 base_data와 target_data에서 일치
    2) base_data[Match Name] 안에 target_data[Team] 문자열이 (대소문자 무시) 포함
    → target_data에 Match ID 새 컬럼으로 매칭
    조건 불일치 시 Match ID = NaN
    """

    df_t = target_data.copy()
    df_b = base_data.copy()

    # target 행 식별용 인덱스
    df_t['_tidx'] = df_t.index

    # 1) 키 컬럼으로 후보 merge
    cand = df_t.merge(
        df_b[list(key_cols) + [matchname_col, matchid_col]],
        on=list(key_cols),
        how='left',
        suffixes=('', '_base')
    )

    # 2) 행 단위 조건 체크 (대소문자 무시)
    cand['_hit'] = cand.apply(
        lambda r: (
            isinstance(r[team_col], str) and r[team_col].strip() != "" and
            isinstance(r[matchname_col], str) and
            r[team_col].strip().lower() in r[matchname_col].strip().lower()
        ),
        axis=1
    )

    # 조건 만족 행만 추출
    hit = cand[cand['_hit']].copy()

    # 3) target 원래 행별 첫 Match ID 선택
    first_match = (
        hit.sort_values('_tidx')
           .drop_duplicates('_tidx', keep='first')
           .set_index('_tidx')[matchid_col]
    )

    # 4) 매칭된 ID 있으면 값 부여 / 없으면 NaN
    df_t[matchid_col] = df_t['_tidx'].map(first_match)

    # 인덱스 제거
    df_t = df_t.drop(columns=['_tidx'])

    print("✅ [키 일치 + 팀명 포함] 조건으로 Match ID 매칭 완료 (불일치 시 NaN 처리)\n")
    return df_t


### 함수 적용 - [Match ID] Merge

In [705]:
# 전체 파일 Match ID 컬럼 부여
add_cols = ['Match ID']

# 키 컬럼 지정
key_cols = ['Tournament', 'Stage','Match Type', 'Match Name']

match_dr_ph     = contrast_match_id(ids_ts_mg, match_dr_ph, add_cols,key_cols)
match_ec_ro     = contrast_match_id(ids_ts_mg, match_ec_ro, add_cols,key_cols)
match_ec_st     = contrast_match_id(ids_ts_mg, match_ec_st, add_cols,key_cols)
match_kl_st     = contrast_match_id(ids_ts_mg, match_kl_st, add_cols,key_cols)
match_kl        = contrast_match_id(ids_ts_mg, match_kl, add_cols,key_cols)
match_mp_pl     = contrast_match_id(ids_ts_mg, match_mp_pl, add_cols,key_cols)
match_mp_sc     = contrast_match_id(ids_ts_mg, match_mp_sc, add_cols,key_cols)
match_ov        = contrast_match_id(ids_ts_mg, match_ov, add_cols,key_cols)
match_ro_kl     = contrast_match_id(ids_ts_mg, match_ro_kl, add_cols,key_cols)
match_sc        = contrast_match_id(ids_ts_mg, match_sc, add_cols,key_cols)
match_tm_mp     = contrast_match_id(ids_ts_mg, match_tm_mp, add_cols,key_cols)
match_wl_cnt    = contrast_match_id(ids_ts_mg, match_wl_cnt, add_cols,key_cols)
match_wl_ro_num = contrast_match_id(ids_ts_mg, match_wl_ro_num, add_cols,key_cols)

# 키 컬럼 지정
key_cols = ['Tournament', 'Stage', 'Map']
agents_tm_pk_ag = Load_dataset(Data_set.get('agents_tm_pk_ag'))
agents_tm_pk_ag = merge_match_id_by_contains_nogroup(ids_ts_mg, agents_tm_pk_ag)


['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

['Tournament', 'Stage', 'Match Type', 'Match Name'] 컬럼은 기준파일과 타겟 파일 모두에 존재합니다.
['Match ID'] 컬럼을 성공적으로 추가했습니다.

[

## 데이터셋 [Game ID] 컬럼 추가 함수

### 함수

In [706]:
def contrast_game_id(base_data, target_data,add_col,key_cols):
    '''
    1. 데이터 셋 두개를 base_data , target_data로 받음
    2. key_cols내 컬럼이 모두 포함되어 있는지 일치 여부 확인
    3. 모두 포함될 경우 target_data에 add_col 추가
    '''
    
    # 1) 키 컬럼 일치 여부 체크
    missing_cols = []
    
    for col in key_cols:
        if col not in base_data.columns or col not in target_data.columns:
            missing_cols.append(col)

    if missing_cols:
        print(f"{missing_cols} 컬럼이 일치하지 않습니다.")
        print(" merge를 실행하지 않습니다.\n")
        return target_data

    print(f"{key_cols} 컬럼은 양쪽 모두에 존재합니다.")


    # 2) target_data에 add_col이 이미 있으면 merge 미실행
    for col in add_col:
        if col in target_data.columns:
            print(f"{col} 컬럼이 이미 존재합니다. merge를 실행하지 않습니다.\n")
            return target_data


    # 3) 조건 만족 시 merge 실행
    merged = target_data.merge(
        base_data[key_cols + add_col],
        on=key_cols,
        how='left'
    )

    print(f"{add_col} 컬럼을 성공적으로 추가했습니다.\n")
    return merged

### 함수 적용 - [Game ID] Merge

In [707]:
# 추가할 컬럼
add_cols = ['Game ID']

# 키 컬럼 지정
key_cols = ['Match ID', 'Map']

match_dr_ph     = contrast_game_id(ids_ts_mg, match_dr_ph,      add_cols, key_cols)
match_ec_ro     = contrast_game_id(ids_ts_mg, match_ec_ro,      add_cols, key_cols)
match_ec_st     = contrast_game_id(ids_ts_mg, match_ec_st,      add_cols, key_cols)
match_kl_st     = contrast_game_id(ids_ts_mg, match_kl_st,      add_cols, key_cols)
match_kl        = contrast_game_id(ids_ts_mg, match_kl,         add_cols, key_cols)
match_mp_pl     = contrast_game_id(ids_ts_mg, match_mp_pl,      add_cols, key_cols)
match_mp_sc     = contrast_game_id(ids_ts_mg, match_mp_sc,      add_cols, key_cols)
match_ov        = contrast_game_id(ids_ts_mg, match_ov,         add_cols, key_cols)
match_ro_kl     = contrast_game_id(ids_ts_mg, match_ro_kl,      add_cols, key_cols)
match_sc        = contrast_game_id(ids_ts_mg, match_sc,         add_cols, key_cols)
match_tm_mp     = contrast_game_id(ids_ts_mg, match_tm_mp,      add_cols, key_cols)
match_wl_cnt    = contrast_game_id(ids_ts_mg, match_wl_cnt,     add_cols, key_cols)
match_wl_ro_num = contrast_game_id(ids_ts_mg, match_wl_ro_num,  add_cols, key_cols)

agents_tm_pk_ag = contrast_game_id(ids_ts_mg, agents_tm_pk_ag,  add_cols, key_cols)

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Map'] 컬럼이 일치하지 않습니다.
 merge를 실행하지 않습니다.

['Match ID', 'Map'] 컬럼이 일치하지 않습니다.
 merge를 실행하지 않습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.

['Match ID', 'Map'] 컬럼은 양쪽 모두에 존재합니다.
['Game ID'] 컬럼을 성공적으로 추가했습니다.



### ID 부여후 중복데이터 발생되어 재가공

In [708]:
ds_ts_mt       = check_clean(ids_ts_mt)      # 중복제거 (올매치) n/1/1

match_dr_ph     = check_clean(match_dr_ph)      # 중복제거 y/y/3
match_ec_st     = check_clean(match_ec_st)      # 중복제거 y/y/3
match_kl_st     = check_clean(match_kl_st)      # 중복제거 y/y/3
match_kl        = check_clean(match_kl)         # 중복제거 y/y/3
match_mp_pl     = check_clean(match_mp_pl)      # 중복제거 y/y/3
match_mp_sc     = check_clean(match_mp_sc)      # 중복제거 y/y/3
match_ov        = check_clean(match_ov)         # 중복제거 y/y/3
match_ro_kl     = check_clean(match_ro_kl)      # 중복제거 y/y/3
match_sc        = check_clean(match_sc)         # 중복제거 y/y/3
match_tm_mp     = check_clean(match_tm_mp)      # 중복제거 y/y/3
match_wl_cnt    = check_clean(match_wl_cnt)     # 중복제거 y/y/3
match_wl_ro_num = check_clean(match_wl_ro_num)  # 중복제거 y/y/3


데이터셋 정보를 로드합니다.
Before Shape : (137, 6)
Before Dupli : 0

Before Isnull: 
Tournament        0
Tournament ID     0
Stage             0
Stage ID         10
Match Type        0
Match Type ID    10
dtype: int64

✅ 중복 제거 되었습니다.

❌ 실행을 중지합니다.
After Shape : (137, 6)
After Dupli : 0

After Isnull: 
Tournament        0
Tournament ID     0
Stage             0
Stage ID         10
Match Type        0
Match Type ID    10
dtype: int64
***************

데이터셋 정보를 로드합니다.
Before Shape : (4769, 9)
Before Dupli : 2871

Before Isnull: 
Tournament       0
Stage            0
Match Type       0
Match Name       0
Team             0
Action           0
Map              0
Match ID         0
Game ID       3007
dtype: int64

✅ 중복 제거 되었습니다.

❌ 실행을 중지합니다.
After Shape : (1898, 9)
After Dupli : 0

After Isnull: 
Tournament       0
Stage            0
Match Type       0
Match Name       0
Team             0
Action           0
Map              0
Match ID         0
Game ID       1224
dtype: int64
***************

데이터셋 정보를

# ------------------------------------

# 5. 2차 데이터 가공

## 파생 처리

### Game 별 Agent Roaster 리스트 파생

In [709]:
match_ov_v_roaster = match_ov[match_ov['Side'] == 'both']

agent_roaster_df = (
    match_ov_v_roaster
    .groupby(['Match ID', 'Game ID', 'Map', 'Team'], as_index=False)
    .agg(
        Agent_Roaster=('Agents', lambda s: sorted(s.dropna().astype(str).unique().tolist()))
    )
)

# 리스트 길이 컬럼 추가
agent_roaster_df['Agent Count'] = agent_roaster_df['Agent_Roaster'].apply(len)

# 컬럼명 변경
agent_roaster_df.rename(columns={
    
    'Team':'Team Name',
    'Agent_Roaster': 'Agent Roaster'
    
    },inplace=True)

agent_roaster_df.head()


Unnamed: 0,Match ID,Game ID,Map,Team Name,Agent Roaster,Agent Count
0,167348,113040.0,Icebox,KOI,"[jett, killjoy, sage, sova, viper]",5
1,167348,113040.0,Icebox,NRG Esports,"[kayo, killjoy, sage, sova, viper]",5
2,167348,113041.0,Haven,KOI,"[breach, jett, killjoy, omen, sova]",5
3,167348,113041.0,Haven,NRG Esports,"[breach, jett, killjoy, omen, sova]",5
4,167349,113043.0,Haven,DetonatioN FocusMe,"[astra, breach, jett, killjoy, sova]",5


### Eco Round 정제

In [710]:
match_ec_st_1 = match_ec_st[match_ec_st['Map'] != 'All Maps']

Round_P = match_ec_st_1[match_ec_st_1['Type'] == 'Pistol Won'].fillna(2)
Round_E = match_ec_st_1[match_ec_st_1['Type'] == 'Eco (won)']
Round_SE = match_ec_st_1[match_ec_st_1['Type'] == '$ (won)']
Round_SB = match_ec_st_1[match_ec_st_1['Type'] == '$$ (won)']
Round_FB = match_ec_st_1[match_ec_st_1['Type'] == '$$$ (won)']

create_eco_data = match_ec_st_1[['Tournament','Stage','Match Type','Match Name','Map','Team','Match ID','Game ID']]


create_eco_data = pd.merge(create_eco_data,Round_P[['Game ID','Team','Initiated','Won']], how='left',on =['Game ID','Team'])
create_eco_data = create_eco_data.rename(columns={
    'Initiated': 'PST',
    'Won'      : 'PST Win'
    })

create_eco_data = pd.merge(create_eco_data,Round_E[['Game ID','Team','Initiated','Won']], how='left',on =['Game ID','Team'])
create_eco_data = create_eco_data.rename(columns={
    'Initiated': 'EC',
    'Won'      : 'EC Win'
    })

create_eco_data = pd.merge(create_eco_data,Round_SE[['Game ID','Team','Initiated','Won']], how='left',on =['Game ID','Team'])
create_eco_data = create_eco_data.rename(columns={
    'Initiated': 'SE',
    'Won'      : 'SE Win'
    })

create_eco_data = pd.merge(create_eco_data,Round_SB[['Game ID','Team','Initiated','Won']], how='left',on =['Game ID','Team'])
create_eco_data = create_eco_data.rename(columns={
    'Initiated': 'SB',
    'Won'      : 'SB Win'
    })

create_eco_data = pd.merge(create_eco_data,Round_FB[['Game ID','Team','Initiated','Won']], how='left',on =['Game ID','Team'])
create_eco_data = create_eco_data.rename(columns={
    'Initiated': 'FB',
    'Won'      : 'FB Win',
    'Team'     : 'Team Name'})

create_eco_data.head()
#create_eco_data[create_eco_data['Game ID'].isna()] # 이벤트매치로 수집 데이터X

check_clean(create_eco_data) # Merge로 중복 발생되어 처리 [실행 키 y/y/1/1]

buy_stats_df = create_eco_data


데이터셋 정보를 로드합니다.
Before Shape : (7710, 18)
Before Dupli : 6168

Before Isnull: 
Tournament    0
Stage         0
Match Type    0
Match Name    0
Map           0
Team Name     0
Match ID      0
Game ID       0
PST           0
PST Win       0
EC            0
EC Win        0
SE            0
SE Win        0
SB            0
SB Win        0
FB            0
FB Win        0
dtype: int64

✅ 중복 제거 되었습니다.

❌ 숫자만 입력해주세요. (1/10)
❌ 실행을 중지합니다.
After Shape : (1542, 18)
After Dupli : 0

After Isnull: 
Tournament    0
Stage         0
Match Type    0
Match Name    0
Map           0
Team Name     0
Match ID      0
Game ID       0
PST           0
PST Win       0
EC            0
EC Win        0
SE            0
SE Win        0
SB            0
SB Win        0
FB            0
FB Win        0
dtype: int64
***************


In [711]:
buy_stats_df.head()

Unnamed: 0,Tournament,Stage,Match Type,Match Name,Map,Team Name,Match ID,Game ID,PST,PST Win,EC,EC Win,SE,SE Win,SB,SB Win,FB,FB Win
0,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5
1,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5
2,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5
3,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5
4,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5


### Eco Round 피벗 처리 (사용 중단)

In [712]:
# def build_buytype_pivot(df,
#                         index_cols=('Match ID', 'Game ID', 'Map', 'Team'),
#                         type_col='Type',
#                         initiated_col='Initiated',
#                         won_col='Won'):
#     """
#     eco / buy 통계 데이터를
#     Pistol, Eco, Semi Eco, Semi Buy, Full Buy 구조의 Wide 포맷으로 변환.

#     index_cols: 각 행을 식별할 기준 컬럼들
#     type_col:   라운드 유형이 들어 있는 컬럼 (예: 'Type')
#     initiated_col: 해당 유형의 시도 횟수(또는 라운드 수)
#     won_col:      해당 유형에서 이긴 횟수
#     """

#     # 1) Type → BuyType 매핑
#     type_map = {
#         "Pistol Won": "Pistol",
#         "Eco (won)": "Eco",
#         "$ (won)": "Semi Eco",
#         "$$ (won)": "Semi Buy",
#         "$$$ (won)": "Full Buy",
#     }

#     df = df.copy()

#     # 안전용: 컬럼 양쪽 공백 제거
#     df.columns = df.columns.str.strip()

#     # BuyType 생성
#     df["BuyType"] = df[type_col].map(type_map)

#     # 매핑 안 되는 타입 제거 (필요하면 남겨도 됨)
#     df = df[df["BuyType"].notna()]

#     # 2) Pivot: index_cols 기준으로 BuyType을 컬럼으로 펼치기
#     pivot_df = (
#         df.pivot_table(
#             index=list(index_cols),
#             columns="BuyType",
#             values=[initiated_col, won_col],
#             aggfunc="sum"   # 한 키에 여러 행 있으면 합계 (원하면 'first'로 바꿔도 됨)
#         )
#     )

#     # 3) MultiIndex 컬럼 → 단일 컬럼명으로 변환
#     #   Initiated_Pistol → Pistol
#     #   Won_Pistol       → Pistol Win
#     new_cols = []
#     for metric, btype in pivot_df.columns:  # metric: Initiated/Won, btype: Pistol/Eco/...
#         if metric == initiated_col:
#             new_cols.append(f"{btype}")
#         else:  # won_col
#             new_cols.append(f"{btype} Win")

#     pivot_df.columns = new_cols
#     pivot_df = pivot_df.reset_index()

#     # 4) 컬럼 순서 정리 (Pistol → Full Buy 순)
#     buy_order = ["Pistol", "Eco", "Semi Eco", "Semi Buy", "Full Buy"]
#     ordered_cols = list(index_cols)

#     for bt in buy_order:
#         col_cnt = bt
#         col_win = f"{bt} Win"
#         if col_cnt in pivot_df.columns:
#             ordered_cols.append(col_cnt)
#         if col_win in pivot_df.columns:
#             ordered_cols.append(col_win)

#     # 혹시 다른 컬럼이 더 있으면 뒤에 붙이기
#     remaining = [c for c in pivot_df.columns if c not in ordered_cols]
#     ordered_cols.extend(remaining)

#     pivot_df = pivot_df[ordered_cols]

#     return pivot_df

# match_ec_st_1 = match_ec_st[match_ec_st['Map'] != 'All Maps']

# buy_stats_df = build_buytype_pivot(match_ec_st_1)
# buy_stats_df = buy_stats_df.rename(columns={
#     'Team':'Team Name'})

buy_stats_df.head()

Unnamed: 0,Tournament,Stage,Match Type,Match Name,Map,Team Name,Match ID,Game ID,PST,PST Win,EC,EC Win,SE,SE Win,SB,SB Win,FB,FB Win
0,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5
1,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5
2,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5
3,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5
4,Valorant Champions 2023,Group Stage,Opening (D),Team Liquid vs Natus Vincere,Fracture,Team Liquid,247100,137395.0,2.0,2,2.0,2,2.0,0,8.0,4,12.0,5


### match_wl_cnt 컬럼명 변경

In [713]:
# Merge Key 활용을 위해 컬럼명 변경
match_wl_cnt = match_wl_cnt.rename(columns={'Team':'Team Name'})

## 주요 컬럼 Merge 세팅

### Merge 함수화

In [714]:
def merge_data(base_set, add_set, key_col, merge_col, agg_rule="first", change_colname=None):
    """
    중복 키가 있는 add_set을 집계 후 base_set에 merge하는 함수.

    Parameters
    ----------
    base_set : pd.DataFrame
        기준 데이터셋
    add_set : pd.DataFrame
        병합할 데이터셋 (key_col 중복 가능)
    key_col : list[str]
        조인 키 컬럼 리스트
    merge_col : list[str]
        add_set에서 가져올 컬럼 리스트
    agg_rule : str or dict, default "first"
        집계 방식.
        - "first", "last", "mean", "max", "min", "sum", "mode" 등
        - 또는 {"colA":"first", "colB":"mean"} 처럼 컬럼별 지정 가능
    change_colname : list[str] or None
        merge_col의 새 컬럼명 리스트 (길이 같아야 함). 없으면 None.

    Returns
    -------
    pd.DataFrame
    """

    if change_colname is None:
        change_colname = []

    # 1) add_set에서 key + merge_col만 남김
    add_sub = add_set[key_col + merge_col].copy()

    # 2) 집계 규칙 구성
    if isinstance(agg_rule, str):
        if agg_rule == "mode":
            agg_dict = {c: (lambda s: s.mode(dropna=True).iloc[0] if not s.mode(dropna=True).empty else None)
                        for c in merge_col}
        else:
            agg_dict = {c: agg_rule for c in merge_col}
    elif isinstance(agg_rule, dict):
        agg_dict = agg_rule
    else:
        raise ValueError("agg_rule은 str 또는 dict 이어야 합니다.")

    # 3) key_col 기준 집계 (중복키 제거)
    add_agg = (add_sub
               .groupby(key_col, as_index=False)
               .agg(agg_dict))

    # 4) merge 실행
    result = base_set.merge(add_agg, on=key_col, how="left")

    # 5) rename 실행
    if change_colname:
        if len(change_colname) != len(merge_col):
            raise ValueError("change_colname 길이는 merge_col 길이와 같아야 합니다.")
        rename_dict = dict(zip(merge_col, change_colname))
        result = result.rename(columns=rename_dict)

    print("✅ add_set 집계 후 Merge 성공")
    return result


### Merge 함수화.V2

In [715]:
def merge_data_v2(base_set, add_set, key_cols, merge_col, new_name=None, agg_rule="first"):
    """
    add_set에서 merge_col 하나만 병합하는 안전 버전.

    - key_cols : 조인 키 리스트
    - merge_col: add_set에서 가져올 컬럼명 (str 또는 [str])
    - new_name : base_set에 최종 추가할 컬럼명 (None이면 merge_col 그대로 사용)
    - agg_rule : 중복 키 있을 때 집계 방식 (first, sum, mean 등)
    """

    # ✅ merge_col을 항상 리스트로 보정
    if isinstance(merge_col, str):
        merge_cols = [merge_col]
    else:
        merge_cols = merge_col

    src_col = merge_cols[0]
    dest_col = new_name if new_name else src_col

    # ✅ 0) 이미 base_set에 해당 컬럼이 있으면 스킵
    if dest_col in base_set.columns:
        print(f"⏩ '{dest_col}' 컬럼이 이미 base_set에 존재합니다. 병합을 스킵합니다.")
        return base_set

    # ✅ 1) add_set에 컬럼 존재 여부 확인
    if src_col not in add_set.columns:
        print(f"❌ '{src_col}' 컬럼이 add_set에 없습니다. 병합을 중단합니다.")
        return base_set

    # ✅ 2) add_set에서 key + merge_col만 추출
    missing_keys = [k for k in key_cols if k not in add_set.columns]
    if missing_keys:
        print(f"❌ add_set에 키 컬럼 {missing_keys} 이(가) 없습니다. 병합을 중단합니다.")
        return base_set

    add_sub = add_set[key_cols + [src_col]].copy()

    # ✅ 3) agg_rule 적용 (같은 키가 여러 행일 때)
    add_agg = (
        add_sub
        .groupby(key_cols, as_index=False)
        .agg({src_col: agg_rule})
    )

    # ✅ 4) base_set 쪽 키 존재 여부 확인 (옵션)
    missing_keys_base = [k for k in key_cols if k not in base_set.columns]
    if missing_keys_base:
        print(f"❌ base_set에 키 컬럼 {missing_keys_base} 이(가) 없습니다. 병합을 중단합니다.")
        return base_set

    # ✅ 5) 병합
    result = base_set.merge(add_agg, on=key_cols, how="left")

    # ✅ 6) rename 적용
    if dest_col != src_col:
        result = result.rename(columns={src_col: dest_col})

    print(f"✅ 컬럼 '{src_col}' → '{dest_col}' 병합 완료.")
    return result


### Match 당 A 팀 / B 팀 구조 분리

In [716]:
# 게임당 A팀 과 B팀 구조로 분리하여 팀별로 데이터 적용

merge_set1 = merge_set.copy(deep=True)
merge_set2 = merge_set.copy(deep=True)

## 컬럼 추가

#### Team Name 추가

In [717]:
keys = ['Match ID']

add_set = match_sc

adds1 = ['Team A']
adds2 = ['Team B']
rename_col = ['Team Name']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)


✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Match score 추가

In [718]:
keys = ['Match ID']

add_set = match_sc

adds1 = ['Team A Score']
adds2 = ['Team B Score']
rename_col = ['Match Score']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)


✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Match Result 추가

In [719]:
keys = ['Match ID']

add_set = match_sc

adds1 = ['Match Result']
adds2 = ['Match Result']
rename_col = ['Match Result']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)

✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Round Score 추가

In [720]:
keys = ['Match ID','Game ID','Map']

add_set = match_mp_sc

adds1 = ['Team A Score']
adds2 = ['Team B Score']
rename_col = ['Round Score']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)

✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Attacker Score 추가

In [721]:
keys = ['Match ID','Game ID','Map']

add_set = match_mp_sc

adds1 = ['Team A Attacker Score']
adds2 = ['Team B Attacker Score']
rename_col = ['Attacker Score']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)

✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Defender Score 추가

In [722]:
keys = ['Match ID','Game ID','Map']

add_set = match_mp_sc

adds1 = ['Team A Defender Score']
adds2 = ['Team B Defender Score']
rename_col = ['Defender Score']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)

✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Overtime Score 추가

In [723]:
keys = ['Match ID','Game ID','Map']

add_set = match_mp_sc

adds1 = ['Team A Overtime Score']
adds2 = ['Team B Overtime Score']
rename_col = ['Overtime Score']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)

✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Duration 추가

In [724]:
keys = ['Match ID','Game ID','Map']

add_set = match_mp_sc

adds1 = ['Duration']
adds2 = ['Duration']
rename_col = ['Duration']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)

✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Agent Roaster 추가

In [725]:
keys = ['Match ID','Game ID','Map','Team Name']

add_set = agent_roaster_df

adds1 = ['Agent Roaster']
adds2 = ['Agent Roaster']
rename_col = ['Agent Roaster']

merge_set1 = merge_data(merge_set1, add_set, keys, adds1, agg_rule="first", change_colname=rename_col)
merge_set2 = merge_data(merge_set2, add_set, keys, adds2, agg_rule="first", change_colname=rename_col)

✅ add_set 집계 후 Merge 성공
✅ add_set 집계 후 Merge 성공


#### Eco 관련 컬럼 추가

In [726]:
keys = ['Match ID','Game ID','Map','Team Name']

add_set = buy_stats_df
col_list = [
    'PST','PST Win',
    'EC','EC Win',
    'SE','SE Win',
    'SB','SB Win',
    'FB','FB Win'
]

for col in col_list:
    merge_set1 = merge_data_v2(merge_set1, add_set, keys, merge_col=col, new_name=col, agg_rule="first")
    merge_set2 = merge_data_v2(merge_set2, add_set, keys, merge_col=col, new_name=col, agg_rule="first")


✅ 컬럼 'PST' → 'PST' 병합 완료.
✅ 컬럼 'PST' → 'PST' 병합 완료.
✅ 컬럼 'PST Win' → 'PST Win' 병합 완료.
✅ 컬럼 'PST Win' → 'PST Win' 병합 완료.
✅ 컬럼 'EC' → 'EC' 병합 완료.
✅ 컬럼 'EC' → 'EC' 병합 완료.
✅ 컬럼 'EC Win' → 'EC Win' 병합 완료.
✅ 컬럼 'EC Win' → 'EC Win' 병합 완료.
✅ 컬럼 'SE' → 'SE' 병합 완료.
✅ 컬럼 'SE' → 'SE' 병합 완료.
✅ 컬럼 'SE Win' → 'SE Win' 병합 완료.
✅ 컬럼 'SE Win' → 'SE Win' 병합 완료.
✅ 컬럼 'SB' → 'SB' 병합 완료.
✅ 컬럼 'SB' → 'SB' 병합 완료.
✅ 컬럼 'SB Win' → 'SB Win' 병합 완료.
✅ 컬럼 'SB Win' → 'SB Win' 병합 완료.
✅ 컬럼 'FB' → 'FB' 병합 완료.
✅ 컬럼 'FB' → 'FB' 병합 완료.
✅ 컬럼 'FB Win' → 'FB Win' 병합 완료.
✅ 컬럼 'FB Win' → 'FB Win' 병합 완료.


#### Methode 관련 컬럼 추가

In [727]:
keys = ['Match ID','Game ID','Map','Match Name','Team Name']

add_set = match_wl_cnt

col_list = [
    'Elimination',
    'Detonated',
    'Defused',
    'Time Expiry (No Plant)',
    'Eliminated',
    'Defused Failed',
    'Detonation Denied',
    'Time Expiry (Failed to Plant)'
]

for col in col_list:
    merge_set1 = merge_data_v2(merge_set1, add_set, keys, merge_col=col, new_name=col, agg_rule="first")
    merge_set2 = merge_data_v2(merge_set2, add_set, keys, merge_col=col, new_name=col, agg_rule="first")


✅ 컬럼 'Elimination' → 'Elimination' 병합 완료.


✅ 컬럼 'Elimination' → 'Elimination' 병합 완료.
✅ 컬럼 'Detonated' → 'Detonated' 병합 완료.
✅ 컬럼 'Detonated' → 'Detonated' 병합 완료.
✅ 컬럼 'Defused' → 'Defused' 병합 완료.
✅ 컬럼 'Defused' → 'Defused' 병합 완료.
✅ 컬럼 'Time Expiry (No Plant)' → 'Time Expiry (No Plant)' 병합 완료.
✅ 컬럼 'Time Expiry (No Plant)' → 'Time Expiry (No Plant)' 병합 완료.
✅ 컬럼 'Eliminated' → 'Eliminated' 병합 완료.
✅ 컬럼 'Eliminated' → 'Eliminated' 병합 완료.
✅ 컬럼 'Defused Failed' → 'Defused Failed' 병합 완료.
✅ 컬럼 'Defused Failed' → 'Defused Failed' 병합 완료.
✅ 컬럼 'Detonation Denied' → 'Detonation Denied' 병합 완료.
✅ 컬럼 'Detonation Denied' → 'Detonation Denied' 병합 완료.
✅ 컬럼 'Time Expiry (Failed to Plant)' → 'Time Expiry (Failed to Plant)' 병합 완료.
✅ 컬럼 'Time Expiry (Failed to Plant)' → 'Time Expiry (Failed to Plant)' 병합 완료.


## 데이터 병합

#### 병합전 데이터 체크

In [728]:
print(f'A Side의 shape : {merge_set1.shape}')
print(f'B Side의 shape : {merge_set2.shape}\n')

print(f'A Side의 isna  : \n{merge_set1.isna().sum()}\n')
print(f'B Side의 isna  : \n{merge_set2.isna().sum()}\n')

A Side의 shape : (830, 36)
B Side의 shape : (830, 36)

A Side의 isna  : 
Tournament                         0
Tournament ID                      0
Stage                              0
Stage ID                           0
Match Type                         0
Match Name                         0
Match ID                           0
Map                                0
Game ID                            0
Team Name                          0
Match Score                        0
Match Result                       0
Round Score                        0
Attacker Score                     0
Defender Score                     0
Overtime Score                   727
Duration                          59
Agent Roaster                      0
PST                               59
PST Win                           59
EC                                59
EC Win                            59
SE                                59
SE Win                            59
SB                                59
SB Wi

### 데이터 병합 적용

In [None]:
vct_2025 = pd.concat([merge_set1,merge_set2], axis=0,ignore_index=True)

### 병합 후 정보확인

In [None]:
print(f'통합 데이터 shape : {vct_2025.shape}')
print(f'통합 데이터의 isna  : \n{vct_2025.isna().sum()}\n')

통합 데이터 shape : (1660, 36)
통합 데이터의 isna  : 
Tournament                          0
Tournament ID                       0
Stage                               0
Stage ID                            0
Match Type                          0
Match Name                          0
Match ID                            0
Map                                 0
Game ID                             0
Team Name                           0
Match Score                         0
Match Result                        0
Round Score                         0
Attacker Score                      0
Defender Score                      0
Overtime Score                   1454
Duration                          118
Agent Roaster                       0
PST                               118
PST Win                           118
EC                                118
EC Win                            118
SE                                118
SE Win                            118
SB                                118
SB Win 

### 데이터 정렬

In [None]:
# 🎯 정렬 기준 리스트 설정
# Tournament_24_sort = [
#     'Champions Tour 2024: Pacific Kickoff',
#     'Champions Tour 2024: Americas Kickoff',
#     'Champions Tour 2024: China Kickoff',
#     'Champions Tour 2024: EMEA Kickoff',
#     'Champions Tour 2024: Masters Shanghai',
#     'Champions Tour 2024: Pacific Stage 1',
#     'Champions Tour 2024: Americas Stage 1',
#     'Champions Tour 2024: China Stage 1',
#     'Champions Tour 2024: EMEA Stage 1',
#     'Champions Tour 2024: Masters Madrid',
#     'Champions Tour 2024: Pacific Stage 2',
#     'Champions Tour 2024: Americas Stage 2',
#     'Champions Tour 2024: China Stage 2',
#     'Champions Tour 2024: EMEA Stage 2',
#     'Valorant Champions 2024'
#     ]

Tournament_sort = [
    'VCT 2025: Pacific Kickoff',
    'VCT 2025: Americas Kickoff',
    'VCT 2025: China Kickoff',
    'VCT 2025: EMEA Kickoff',
    'Valorant Masters Bangkok 2025',
    'VCT 2025: Pacific Stage 1',
    'VCT 2025: Americas Stage 1',
    'VCT 2025: China Stage 1',
    'VCT 2025: EMEA Stage 1',
    'Valorant Masters Toronto 2025',
    'VCT 2025: Pacific Stage 2',
    'VCT 2025: Americas Stage 2',
    'VCT 2025: China Stage 2',
    'VCT 2025: EMEA Stage 2',
    'Valorant Champions 2025'
]

Stage_sort = [
    'Group Stage',
    'Swiss Stage',
    'Playoffs',
    'Main Event'
]


Match_type_2023_sort =[
    'Opening (A)', 
    'Opening (B)', 
    'Opening (D)', 
    'Opening (C)',
    "Winner's (A)", 
    "Winner's (B)", 
    "Winner's (C)", 
    "Winner's (D)", 
    'Elimination (A)',
    'Elimination (B)', 
    'Elimination (C)', 
    'Elimination (D)',
    'Decider (A)',
    'Decider (B)', 
    'Decider (C)', 
    'Decider (D)', 
    'Knockout Round', 
    'Upper Round 1',
    'Lower Round 1',
    'Upper Quarterfinals', 
    'Lower Round 2', 
    'Upper Semifinals', 
    'Lower Round 3', 
    'Upper Final',
    'Lower Final', 
    'Round 1', 
    'Round 2', 
    'Round 3', 
    'Round 4',
    'Round 5', 
    'Week 1', 
    'Week 2', 
    'Week 3', 
    'Week 4', 
    'Week 5',
    'Week 6', 
    'Week 7', 
    'Week 8', 
    'Alpha - Round of 16',
    'Omega - Round of 16', 
    'Omega - Quarterfinals',
    'Alpha - Quarterfinals', 
    'Alpha - Semifinals',
    'Omega - Semifinals', 
    'Semifinals',
    'Grand Final' 
    ]

Match_type_sort = [
    'Week 1',
    'Week 2',
    'Week 3',
    'Week 4',
    'Week 5',
    'Round 1',
    'Round 2 (1-0)',
    'Round 2 (0-1)',
    'Round 3 (1-1)',
    'Round 3',
    'Opening (A)',
    'Opening (B)',
    'Opening (C)',
    'Opening (D)',
    'Elimination (A)',
    'Elimination (B)',
    'Elimination (C)', 
    'Elimination (D)',
    "Winner's (A)",
    "Winner's (B)",
    "Winner's (C)",
    "Winner's (D)",
    'Decider (A)',
    'Decider (B)',
    'Decider (C)',
    'Decider (D)',
    'Lower Round 1',
    'Lower Round 2',
    'Lower Round 3',
    'Lower Round 4',
    'Upper Round 1',
    'Upper Quarterfinals',
    'Upper Semifinals',
    'Lower Final',
    'Upper Final',
    'Grand Final'
]


#__________________________________________________________________________________

# 🛠 categorical 타입으로 변환 (ordered 필요)
vct_2025['Tournament'] = pd.Categorical(vct_2025['Tournament'], categories=Tournament_sort, ordered=True)
vct_2025['Stage'] = pd.Categorical(vct_2025['Stage'], categories=Stage_sort, ordered=True)
vct_2025['Match Type'] = pd.Categorical(vct_2025['Match Type'], categories=Match_type_sort, ordered=True)

# 🔢 Game ID 정렬용 숫자 변환(문자면)
vct_2025['Game ID'] = pd.to_numeric(vct_2025['Game ID'], errors='coerce')

# 📌 최종 정렬
vct_2025 = vct_2025.sort_values(by=['Tournament','Stage','Match Type','Game ID']).reset_index(drop=True)

#________________________________________________________________________________________________________________

# ----------------------------------

# 6. 데이터 반출

In [None]:
vct_2025.to_csv('.\\Data_cleaning\\VCT_2025_Match_result.csv', index=False)

# ----------------------------------

# 작업 공간

In [None]:
# agents_ag_pk.head()
# agents_mp_st.head() 
# agents_tm_pk_ag.head()

# ids_pl_id.head()
# ids_tm_id.head()
# ids_ts_mt.head() 
# ids_ts_mg.head()      # 기준 데이터 셋 / 각 데이터에 Match ID , Game ID 매칭하여 부여

# match_dr_ph.head()
# match_ec_ro.head()    # Valorant Champions 2025 데이터 누락으로 미적용
# match_ec_st.head()    
# match_kl_st.head()
# match_kl.head()
# match_mp_pl.head()
# match_mp_sc.head()    #
# match_ov.head()
# match_ro_kl.head()
# match_sc.head()
# match_tm_mp.head()
# match_wl_cnt.head()
# match_wl_ro_num.head()

# player_pl_st.head()

In [None]:
vct_2025.head()

Unnamed: 0,Tournament,Tournament ID,Stage,Stage ID,Match Type,Match Name,Match ID,Map,Game ID,Team Name,Match Score,Match Result,Round Score,Attacker Score,Defender Score,Overtime Score,Duration,Agent Roaster,PST,PST Win,EC,EC Win,SE,SE Win,SB,SB Win,FB,FB Win,Elimination,Detonated,Defused,Time Expiry (No Plant),Eliminated,Defused Failed,Detonation Denied,Time Expiry (Failed to Plant)
0,Champions Tour 2023: Masters Tokyo,1494,Group Stage,2857,Opening (A),NRG Esports vs Natus Vincere,220290,Ascent,132539,NRG Esports,2,NRG Esports won,13,6,7,,1:03:04,"[jett, kayo, killjoy, omen, sova]",2.0,0.0,4.0,0.0,0.0,0.0,1.0,0.0,16.0,13.0,6,1,6,0,7,0,1,0
1,Champions Tour 2023: Masters Tokyo,1494,Group Stage,2857,Opening (A),NRG Esports vs Natus Vincere,220290,Ascent,132539,Natus Vincere,1,NRG Esports won,8,2,6,,1:03:04,"[cypher, fade, jett, kayo, omen]",2.0,2.0,2.0,2.0,1.0,0.0,11.0,3.0,7.0,3.0,7,0,1,0,6,1,6,0
2,Champions Tour 2023: Masters Tokyo,1494,Group Stage,2857,Opening (A),NRG Esports vs Natus Vincere,220290,Lotus,132540,NRG Esports,2,NRG Esports won,12,8,4,0.0,1:02:13,"[killjoy, neon, omen, skye, viper]",2.0,1.0,3.0,1.0,1.0,1.0,3.0,1.0,19.0,9.0,8,2,2,0,8,2,4,0
3,Champions Tour 2023: Masters Tokyo,1494,Group Stage,2857,Opening (A),NRG Esports vs Natus Vincere,220290,Lotus,132540,Natus Vincere,1,NRG Esports won,14,8,4,2.0,1:02:13,"[fade, killjoy, omen, raze, viper]",2.0,1.0,3.0,1.0,1.0,0.0,9.0,4.0,13.0,9.0,8,2,4,0,8,2,2,0
4,Champions Tour 2023: Masters Tokyo,1494,Group Stage,2857,Opening (A),NRG Esports vs Natus Vincere,220290,Split,132541,NRG Esports,2,NRG Esports won,13,10,3,,47:19,"[astra, jett, raze, skye, viper]",2.0,1.0,3.0,1.0,1.0,0.0,2.0,2.0,13.0,10.0,7,5,1,0,6,0,0,0


In [None]:
vct_2025['Tournament'].unique()

[NaN]
Categories (15, object): ['VCT 2025: Pacific Kickoff' < 'VCT 2025: Americas Kickoff' < 'VCT 2025: China Kickoff' < 'VCT 2025: EMEA Kickoff' ... 'VCT 2025: Americas Stage 2' < 'VCT 2025: China Stage 2' < 'VCT 2025: EMEA Stage 2' < 'Valorant Champions 2025']

In [None]:
vct_2025['Stage'].value_counts()

Stage
Group Stage    3178
Playoffs       1340
Main Event      684
Swiss Stage       0
Name: count, dtype: int64

In [None]:
vct_2025['Match Type'].unique()

['Week 1', 'Week 2', 'Week 3', 'Week 4', 'Week 5', ..., 'Upper Semifinals', 'Lower Final', 'Upper Final', 'Grand Final', 'Lower Round 4']
Length: 34
Categories (36, object): ['Week 1' < 'Week 2' < 'Week 3' < 'Week 4' ... 'Upper Semifinals' < 'Lower Final' < 'Upper Final' < 'Grand Final']

In [None]:
T_ID = ids_ts_mt[['Tournament','Tournament ID']].drop_duplicates()

# 기존 Tournament 제거 + merge
vct_2025 = vct_2025.drop(columns=['Tournament'], errors='ignore')

vct_2025 = vct_2025.merge(
    T_ID[['Tournament ID', 'Tournament']],
    on='Tournament ID',
    how='left'
)

# 🔥 Tournament 컬럼을 제일 첫 번째로 이동
cols = ['Tournament'] + [col for col in vct_2025.columns if col != 'Tournament']
vct_2025 = vct_2025[cols]

In [None]:
T_ID

Unnamed: 0,Tournament,Tournament ID
0,Champions Tour South America: Last Chance Qualifier,1111
8,Champions Tour EMEA: Last Chance Qualifier,1117
17,Champions Tour East Asia: Last Chance Qualifier,1083
26,Champions Tour North America: Last Chance Qualifier,1130
35,Valorant Champions 2022,1015
60,Champions Tour Asia-Pacific: Last Chance Qualifier,1084
71,Valorant Champions Tour Stage 2: Masters Copenhagen,1014
88,Champions Tour LATAM/BR Stage 2: Last Chance Qualifier,1085
90,Oceania Tour: Championship,1113
97,Champions Tour Latin America Stage 2: Playoffs,1086


In [None]:
match_ec_st['Tournament'].value_counts()

Tournament
Champions Tour North America Stage 1: Challengers            11520
Champions Tour North America Stage 2: Challengers             9820
Champions Tour Europe Stage 1: Challengers 1                  8020
Champions Tour Europe Stage 1: Challengers 2                  7900
Champions Tour Brazil Stage 2: Challengers                    5920
Champions Tour Brazil Stage 1: Challengers 1                  5440
Champions Tour Korea Stage 1: Challengers                     4570
Champions Tour Indonesia Stage 1: Challengers                 4300
Champions Tour Malaysia & Singapore Stage 2: Challengers      3950
Champions Tour Korea Stage 2: Challengers                     3860
Champions Tour Philippines Stage 2: Challengers               2790
Valorant Conquerors Championship                              2750
Champions Tour Thailand Stage 2: Challengers                  2540
Champions Tour Malaysia & Singapore Stage 1: Challengers      2460
Champions Tour Turkey Stage 1: Challengers 1       